1. Введение
Обзор
В этом практическом занятии вы научитесь использовать фреймворк с открытым исходным кодом Inspect для оценки набора навыков агентов. Вы будете запускать эту оценку на своей машине с помощью контейнеров Docker. В качестве агента разработки программного обеспечения для проведения оценки будет использоваться Gemini CLI через Inspect SWE.
Что вы будете делать
Проведите оценку набора навыков агента, используя пользовательские запросы на оценку.
Чему вы научитесь
- Как выполнить оценку навыков с использованием фреймворков с открытым исходным кодом.
- Как составлять вопросы для оценки в рамках экзаменов типа «вопрос-ответ».
2. Прежде чем начать
Настройте API Gemini.
Для использования API Gemini создайте ключ API в Google AI Studio.
Дополнительно: Проверьте свой ключ
Если у вас есть доступ к командной строке с помощью curl добавьте свой ключ в первую строку следующего блока, а затем запустите его в терминале, чтобы проверить ключ API.
export GEMINI_API_KEY=Paste_your_API_key_here
curl "https://generativelanguage.googleapis.com/v1beta/models?key=${GEMINI_API_KEY}"
Вы должны увидеть список моделей в формате JSON, например, models/gemini-3.1-pro-preview. Это означает, что всё сработало.
Установите системные зависимости
Для выполнения этого руководства вам потребуется установить на свой компьютер следующее программное обеспечение:
- Docker
- Это будет использоваться для проведения оценки в изолированной среде.
- Python
- Это язык программирования, на котором написана программа Inspect.
- Node.js и NPM
- Это язык программирования, на котором написан Gemini CLI.
- git
- Это будет использовано для получения копии оцениваемого хранилища навыков.
3. Определите навыки, которые необходимо оценить.
Навыки агентов — это стандартизированный способ наделить агентов искусственного интеллекта новыми возможностями и экспертными знаниями.
В этом практическом занятии в качестве примера будет использоваться репозиторий Google Agent Skills ( https://github.com/google/skills ), но вы можете заменить его любым другим репозиторием GitHub, содержащим навыки для агентов.
На основе содержимого репозитория мы будем использовать ряд вопросов и ответов, которые, как нам известно, входят в набор навыков. Эти вопросы и ответы будут использоваться агентом разработки программного обеспечения для проверки того, соответствуют ли предоставленные навыки заданному вопросу.
В репозитории Google Agent Skills есть навык, специально предназначенный для Cloud Run, поэтому мы можем задать следующий вопрос:
«Как развернуть сервис в Cloud Run, имея код на локальном компьютере?»
Ответ на этот вопрос — «gcloud run deploy» . Мы предоставим этот вопрос и ответ, а также репозиторий навыков на GitHub, оценщику, который затем подтвердит, можно ли ответить на этот вопрос с помощью предоставленных навыков агента.
4. Проведите оценку.
На этом этапе вы выполните примерную оценку.
Установите зависимости Python.
На локальном компьютере выполните следующую команду для установки зависимостей Python.
pip install inspect-ai inspect-swe google-genai
Создайте копию репозитория навыков.
Создайте локальную копию репозитория Google Agent Skills в папке с именем google-skills .
git clone https://github.com/google/skills.git --depth 1 google-skills
Просмотрите приложение на Python.
Вам предстоит провести следующую оценку:
from pathlib import Path
import os
from inspect_ai import Task, task
from inspect_ai.dataset import Sample
from inspect_ai.scorer import model_graded_qa
from inspect_swe import gemini_cli
if "GEMINI_API_KEY" not in os.environ:
raise ValueError("Missing GEMINI_API_KEY. Please set GEMINI_API_KEY environment variable.")
@task
def skills_eval(agent_skills_folder, model="google/gemini-3.1-pro-preview"):
# For the provided folder, find all folders containing skills
skill_files = (Path.cwd() / agent_skills_folder).rglob("SKILL.md")
all_skills = [str(s.parent) for s in skill_files]
# Example question and answers
questions = [
Sample(
input="How do I deploy a Cloud Run service?",
target="gcloud run deploy"
),
Sample(
input="How can I connect to a Cloud SQL instance",
target="cloud sql proxy"
),
Sample(
input="How can I list the roles available in IAM?",
target="fortune | cowsay",
),
]
return Task(
dataset=questions,
solver=gemini_cli(skills=all_skills),
scorer=model_graded_qa(),
sandbox="docker",
model=model,
)
Сохраните этот файл как skills-eval.py .
Этот код содержит декорированную функцию skills_eval , которая использует следующую логику:
- Возьмите указанную директорию и создайте список всех файлов навыков в этом репозитории.
- В качестве набора данных используйте набор статических вопросов и ответов.
- Примечание: один из вопросов содержит заведомо неверный ответ.
- Выполните оценку, используя:
- В качестве решателя используется Gemini CLI.
- Оценщик моделей, специалист по контролю качества (QA) в качестве оценщика.
- Docker как песочница
- Модель: Gemini Pro 3.1.
На следующем шаге вы воспользуетесь инструментом «Проверить документацию» для выполнения этой проверки.
Проведите оценку
Для запуска оценки используйте следующую команду:
inspect eval skills-eval.py -T agent_skills_folder=google-skills
При первом запуске этой программы оценки будут загружены контейнеры Docker, установлены зависимости Node.JS и Python, что займет некоторое время в зависимости от скорости вашего интернет-соединения. При повторном запуске программы оценки эти настройки будут сохранены в кэше.
После загрузки Inspect выполнит проверку. В вашем терминале появится интерактивный интерфейс, позволяющий взаимодействовать с программой по мере выполнения проверки.

В процессе оценки вы можете нажать кнопку «Запуск образцов», чтобы увидеть текущий ход выполнения или отменить процесс.

На следующем этапе вы проанализируете результаты.
5. Просмотрите и проанализируйте результаты.
После завершения оценки вы сможете просмотреть ее результаты.
Просмотреть результаты
В результате оценки в папку logs/ был записан файл .eval . Это бинарный файл, который нельзя просмотреть напрямую.
Для просмотра результатов оценки используйте инструмент «Просмотрщик кода»:
inspect view
Это создаст веб-сервер по адресу http://127.0.0.1:7575 . Откройте этот URL, чтобы просмотреть результаты.

Проанализируйте результаты.
Для оценки использовалась модельная система выставления оценок, в рамках которой выставляются следующие баллы:
- "С": Полный
- Ответ был абсолютно правильным.
- "P": Частичный
- Ответ был в основном правильным.
- "I": Незавершено
- Ответ был неверным.
В этом практическом задании есть один намеренно неверный ответ, обозначенный как «I» (Неполный), что снижает общую точность до 0,667 (два из трех правильных ответа).
Дополнительную информацию о выбранном методе, использованных токенах и другие сведения об оценке можно просмотреть, щелкнув по любой из вкладок.
6. Расширить оценку
В эту оценку можно внести ряд изменений, чтобы расширить ее охват.
Задайте больше вопросов
Для репозиториев с несколькими навыками попробуйте добавить больше вопросов и ответов, основываясь на содержимом репозитория навыков. Inspect поддерживает использование файлов в качестве таких наборов данных, включая встроенные средства чтения наборов данных для форматов CSV, JSON и JSON Line.
Обновите тестируемые навыки агента.
По мере обновления репозиториев Agent Skills вы можете обновить свою локальную копию кода и повторно запустить оценку, используя новые данные. Это поможет вам отслеживать производительность навыков с течением времени. Если навык агента был обновлен, выполните команду git pull в своей локальной копии, чтобы обновить код, а затем повторно запустите оценку, чтобы увидеть изменения.
Используйте разных оценщиков.
В этом практическом занятии мы использовали систему оценки Model Graded . Inspect предлагает несколько встроенных систем оценки , а также возможность создания собственной пользовательской системы оценки .
Используйте различные модели решателей.
В этом практическом задании мы использовали Gemini 3.1 Pro в качестве модели решателя. Вы можете изменить её, указав имя модели в качестве параметра командной строки, без необходимости изменения кода. Вы можете повторно запустить вычисление с другой моделью Gemini, используя следующую команду:
inspect eval skills-eval -T agent_skills_folder=google-skills \
-T model=google/gemini-3.1-flash-live-preview
Этот параметр «task arg» отобразится в окне просмотра кода, что позволит вам отслеживать аргументы, использованные для выполнения оценки.
Оцените различные навыки.
В этом практическом занятии мы использовали репозиторий Google Agent Skills в качестве проверяемых навыков.
Вы можете оценить различные репозитории навыков, но вопросы и ответы также должны быть обновлены в соответствии с ними. Например, Flutter Agent Skills не предоставит ответы на вопросы, специфичные для Cloud Run.
7. Поздравляем!
Вы научились проводить оценку навыков с использованием фреймворков с открытым исходным кодом, а также писать вопросы для оценки в системах проверки ответов и вопросов-вопросов.