1. Einführung
Übersicht
In diesem Codelab erfahren Sie, wie Sie mit dem Open-Source-Framework Inspect Bewertungen für eine Reihe von Agent-Skills durchführen. Sie führen diese Bewertung auf Ihrem eigenen Computer mit Docker-Containern aus. Die Gemini CLI wird als Software-Engineering-Agent verwendet, um die Bewertung über Inspect SWE durchzuführen.
Aufgaben
Bewertung für eine Reihe von Agent-Skills mit benutzerdefinierten Prompt-Bewertungen durchführen.
Lerninhalte
- Bewertung für Skills mit Open-Source-Frameworks durchführen
- Prompts als Bewertungsfragen in Frage-Antwort-Bewertungstools schreiben
2. Hinweis
Gemini API einrichten
Wenn Sie die Gemini API verwenden möchten, erstellen Sie einen API-Schlüssel in Google AI Studio.
Optional: Schlüssel testen
Wenn Sie Zugriff auf eine Befehlszeile mit curl haben, fügen Sie Ihren Schlüssel der ersten Zeile des folgenden Blocks hinzu und führen Sie ihn dann im Terminal aus, um den API-Schlüssel zu testen.
export GEMINI_API_KEY=Paste_your_API_key_here
curl "https://generativelanguage.googleapis.com/v1beta/models?key=${GEMINI_API_KEY}"
Sie sollten eine Liste von Modellen im JSON-Format sehen, z. B. „models/gemini-3.1-pro-preview“. Das bedeutet, dass es funktioniert hat.
Systemabhängigkeiten installieren
Für diese Anleitung müssen Sie die folgende Software auf Ihrem Computer installieren:
- Docker
- Damit wird die Bewertung in einer Sandbox-Umgebung ausgeführt.
- Python
- Dies ist die Programmiersprache, in der Inspect geschrieben ist.
- Node.js und NPM
- Dies ist die Programmiersprache, in der die Gemini CLI geschrieben ist.
- git
- Damit wird eine Kopie des zu bewertenden Skills-Repository abgerufen.
3. Zu bewertende Skills identifizieren
Agent-Skills sind eine standardisierte Möglichkeit, KI-Agenten neue Funktionen und Fachkenntnisse zu verleihen.
In diesem Codelab wird das Google Agent Skills-Repository (https://github.com/google/skills) als Beispiel verwendet. Sie können es aber in ein beliebiges GitHub-Repository ändern, das Agent-Skills enthält.
Anhand der Inhalte des Repository verwenden wir eine Reihe von Prompt-Fragen und -Antworten, die in den Skills enthalten sind. Diese Fragen und Antworten werden vom Software-Engineering-Agent verwendet, um zu prüfen, ob die bereitgestellten Skills die Frage beantworten können.
Das Google Agent Skills-Repository enthält einen Skill speziell für Cloud Run. Daher können wir die folgende Frage stellen:
„Wie stelle ich einen Dienst in Cloud Run bereit, wenn der Code auf meinem lokalen Computer gespeichert ist?“
Die Antwort auf diese Frage lautet „gcloud run deploy“. Wir stellen dem Bewerter diese Frage und Antwort sowie das GitHub-Repository mit den Skills zur Verfügung. Dieser bestätigt dann, ob die Frage mit den bereitgestellten Agent-Skills beantwortet werden kann.
4. Bewertung ausführen
In diesem Schritt führen Sie eine Beispielbewertung aus.
Python-Abhängigkeiten installieren
Führen Sie auf Ihrem lokalen Computer den folgenden Befehl aus, um die Python-Abhängigkeiten zu installieren.
pip install inspect-ai inspect-swe google-genai
Kopie des Skills-Repository erstellen
Erstellen Sie eine lokale Kopie des Google Agent Skills-Repository in einem Ordner mit dem Namen google-skills.
git clone https://github.com/google/skills.git --depth 1 google-skills
Python-Anwendung überprüfen
Die Bewertung, die Sie ausführen, ist die folgende:
from pathlib import Path
import os
from inspect_ai import Task, task
from inspect_ai.dataset import Sample
from inspect_ai.scorer import model_graded_qa
from inspect_swe import gemini_cli
if "GEMINI_API_KEY" not in os.environ:
raise ValueError("Missing GEMINI_API_KEY. Please set GEMINI_API_KEY environment variable.")
@task
def skills_eval(agent_skills_folder, model="google/gemini-3.1-pro-preview"):
# For the provided folder, find all folders containing skills
skill_files = (Path.cwd() / agent_skills_folder).rglob("SKILL.md")
all_skills = [str(s.parent) for s in skill_files]
# Example question and answers
questions = [
Sample(
input="How do I deploy a Cloud Run service?",
target="gcloud run deploy"
),
Sample(
input="How can I connect to a Cloud SQL instance",
target="cloud sql proxy"
),
Sample(
input="How can I list the roles available in IAM?",
target="fortune | cowsay",
),
]
return Task(
dataset=questions,
solver=gemini_cli(skills=all_skills),
scorer=model_graded_qa(),
sandbox="docker",
model=model,
)
Speichern Sie diese Datei als skills-eval.py.
Dieser Code enthält eine dekorierte Funktion skills_eval, die die folgende Logik verwendet:
- Nehmen Sie das angegebene Verzeichnis und erstellen Sie eine Liste aller Skill-Dateien in diesem Repository.
- Verwenden Sie eine Reihe statischer Fragen und Antworten als Dataset.
- Hinweis: Eine der Fragen enthält eine absichtlich falsche Antwort.
- Führen Sie die Bewertung mit Folgendem aus:
- Gemini CLI als Solver
- Model Grader QA als Bewerter
- Docker als Sandbox
- Gemini Pro 3.1 als Modell
Im nächsten Schritt führen Sie diese Bewertung mit Inspect aus.
Bewertung ausführen
Verwenden Sie den folgenden Befehl, um die Bewertung auszuführen:
inspect eval skills-eval.py -T agent_skills_folder=google-skills
Wenn diese Bewertung zum ersten Mal ausgeführt wird, werden Docker-Container heruntergeladen und Node.js- und Python-Abhängigkeiten installiert. Je nach Netzwerkverbindung kann das einige Zeit dauern. Wenn Sie die Bewertung noch einmal ausführen, wird diese Einrichtung im Cache gespeichert.
Nach dem Herunterladen führt Inspect die Bewertung durch. Im Terminal wird eine interaktive Oberfläche angezeigt, über die Sie während der Bewertung interagieren können.

Während der Bewertung können Sie auf „Running Samples“ (Beispiele werden ausgeführt) klicken, um den aktuellen Fortschritt zu sehen oder den Vorgang abzubrechen.

Im nächsten Schritt sehen Sie sich die Ergebnisse an.
5. Ergebnisse ansehen und interpretieren
Nach Abschluss der Bewertung können Sie sich die Ergebnisse ansehen.
Ergebnisse ansehen
Bei der Bewertung wurde eine .eval-Datei in den Ordner logs/ geschrieben. Dies ist eine Binärdatei, die nicht direkt angezeigt werden kann.
Verwenden Sie den Inspect Viewer, um die Ergebnisse der Bewertung anzusehen:
inspect view
Dadurch wird ein Webserver unter http://127.0.0.1:7575 erstellt. Öffnen Sie diese URL, um die Ergebnisse anzusehen.

Ergebnisse interpretieren
Bei dieser Bewertung wurde ein Model Grader verwendet, bei dem die folgenden Bewertungen vergeben werden:
- „C“: Complete (Vollständig)
- Die Antwort war vollständig korrekt.
- „P“: Partial (Teilweise)
- Die Antwort war größtenteils korrekt.
- „I“: Incomplete (Unvollständig)
- Die Antwort war nicht korrekt.
In diesem Codelab gibt es eine absichtlich falsche Antwort, die als „I“ (Unvollständig) angezeigt wird und die allgemeine Genauigkeit auf 0,667 senkt (zwei von drei Antworten sind korrekt).
Wenn Sie auf einen der Tabs klicken, können Sie zusätzliche Informationen zur verwendeten Methode, zu den verwendeten Tokens und andere Informationen zur Bewertung ansehen.
6. Bewertung erweitern
Sie können eine Reihe von Änderungen an dieser Bewertung vornehmen, um den Umfang zu erweitern.
Weitere Fragen bereitstellen
Bei Repositorys mit mehreren Skills können Sie weitere Fragen und Antworten hinzufügen, die auf den Inhalten des Skills-Repository basieren. Inspect unterstützt die Verwendung von Dateien als Datasets, einschließlich integrierter Dataset-Reader für CSV-, JSON- und JSON Line-Formate.
Zu testende Agent-Skills aktualisieren
Wenn Agent-Skills-Repositorys aktualisiert werden, können Sie Ihre lokale Kopie des Codes aktualisieren und die Bewertung mit den neuen Informationen noch einmal ausführen. So können Sie die Leistung der Skills im Zeitverlauf verfolgen. Wenn ein Agent-Skill aktualisiert wird, führen Sie git pull in Ihrer lokalen Kopie aus, um den Code zu aktualisieren, und führen Sie dann die Bewertung noch einmal aus, um die Änderungen zu sehen.
Andere Bewerter verwenden
In diesem Codelab haben wir den Model Graded-Bewerter verwendet. Inspect bietet mehrere integrierte Bewerter und auch die Möglichkeit, einen eigenen benutzerdefinierten Bewerter zu erstellen.
Andere Solver-Modelle verwenden
In diesem Codelab haben wir Gemini 3.1 Pro als Solver-Modell verwendet. Sie können dies ändern, indem Sie den Modellnamen als Befehlszeilenparameter angeben, ohne den Code ändern zu müssen. Mit dem folgenden Befehl können Sie die Bewertung mit einem anderen Gemini-Modell noch einmal ausführen:
inspect eval skills-eval -T agent_skills_folder=google-skills \
-T model=google/gemini-3.1-flash-live-preview
Dieses „task arg“ wird im Inspect Viewer angezeigt, sodass Sie die Argumente nachverfolgen können, die zum Ausführen der Bewertung verwendet wurden.
Verschiedene Skills bewerten
In diesem Codelab haben wir das Google Agent Skills-Repository als zu bewertende Skills verwendet.
Sie können verschiedene Skills-Repositorys bewerten, aber die Fragen und Antworten müssen auch entsprechend aktualisiert werden. Mit Flutter Agent Skills erhalten Sie beispielsweise keine Antworten auf Cloud Run-spezifische Fragen.
7. Glückwunsch
Sie haben gelernt, wie Sie eine Bewertung für Skills mit Open-Source-Frameworks durchführen und wie Sie Prompts als Bewertungsfragen in Frage-Antwort-Bewertungstools schreiben.