1. Pengantar
Ringkasan
Dalam codelab ini, Anda akan mempelajari cara menggunakan framework open source Inspect untuk melakukan evaluasi terhadap serangkaian Keterampilan Agen. Anda akan menjalankan evaluasi ini di komputer Anda sendiri menggunakan container Docker. Gemini CLI akan digunakan sebagai agen software engineering untuk melakukan evaluasi, melalui Inspect SWE
Yang akan Anda lakukan
Menjalankan evaluasi terhadap serangkaian Keterampilan Agen, menggunakan evaluasi perintah kustom.
Yang Anda pelajari
- Cara menjalankan evaluasi terhadap Keterampilan menggunakan framework open source.
- Cara menulis perintah untuk digunakan sebagai pertanyaan evaluasi dalam grader pertanyaan dan jawaban.
2. Sebelum memulai
Menyiapkan Gemini API
Untuk menggunakan Gemini API, buat kunci API di Google AI Studio.
Opsional: Menguji kunci Anda
Jika Anda memiliki akses ke command line dengan curl, tambahkan kunci Anda ke baris pertama blok berikut, lalu jalankan di terminal untuk menguji kunci API.
export GEMINI_API_KEY=Paste_your_API_key_here
curl "https://generativelanguage.googleapis.com/v1beta/models?key=${GEMINI_API_KEY}"
Anda akan melihat daftar model dalam format JSON, seperti models/gemini-3.1-pro-preview. Artinya, kunci API berfungsi.
Menginstal dependensi sistem
Anda harus menginstal software berikut di komputer Anda untuk menyelesaikan tutorial ini:
- Docker
- Software ini akan digunakan untuk menjalankan evaluasi di lingkungan sandbox
- Python
- Ini adalah bahasa pemrograman yang digunakan untuk menulis Inspect
- Node.js dan NPM
- Ini adalah bahasa pemrograman yang digunakan untuk menulis Gemini CLI.
- git
- Software ini akan digunakan untuk mendapatkan salinan repositori keterampilan yang sedang dievaluasi
3. Mengidentifikasi keterampilan yang akan dievaluasi
Keterampilan Agen adalah cara standar untuk memberikan kemampuan dan keahlian baru kepada agen AI.
Codelab ini akan menggunakan repositori Keterampilan Agen Google (https://github.com/google/skills) sebagai contoh, tetapi Anda dapat mengubahnya ke repositori GitHub mana pun yang berisi keterampilan agen.
Berdasarkan konten repositori, kita akan menggunakan serangkaian pertanyaan dan jawaban perintah yang kita ketahui terdapat dalam serangkaian keterampilan. Pertanyaan dan jawaban ini akan digunakan oleh agen software engineering untuk memeriksa apakah keterampilan yang diberikan dapat menjawab pertanyaan yang diberikan.
Repositori Keterampilan Agen Google berisi keterampilan khusus untuk Cloud Run, sehingga kita dapat mengajukan pertanyaan berikut:
"Bagaimana cara men-deploy layanan ke Cloud Run, mengingat kode di komputer lokal saya?"
Jawaban atas pertanyaan ini adalah "gcloud run deploy". Kita akan memberikan pertanyaan dan jawaban ini, serta repositori keterampilan GitHub, kepada evaluator, yang kemudian akan mengonfirmasi apakah pertanyaan tersebut dapat dijawab oleh keterampilan agen yang diberikan.
4. Menjalankan evaluasi
Pada langkah ini, Anda akan menjalankan contoh evaluasi.
Menginstal dependensi Python
Di komputer lokal Anda, jalankan perintah berikut untuk menginstal dependensi Python.
pip install inspect-ai inspect-swe google-genai
Membuat salinan repositori keterampilan
Buat salinan lokal repositori Keterampilan Agen Google ke folder bernama google-skills.
git clone https://github.com/google/skills.git --depth 1 google-skills
Meninjau aplikasi Python
Evaluasi yang akan Anda jalankan adalah sebagai berikut:
from pathlib import Path
import os
from inspect_ai import Task, task
from inspect_ai.dataset import Sample
from inspect_ai.scorer import model_graded_qa
from inspect_swe import gemini_cli
if "GEMINI_API_KEY" not in os.environ:
raise ValueError("Missing GEMINI_API_KEY. Please set GEMINI_API_KEY environment variable.")
@task
def skills_eval(agent_skills_folder, model="google/gemini-3.1-pro-preview"):
# For the provided folder, find all folders containing skills
skill_files = (Path.cwd() / agent_skills_folder).rglob("SKILL.md")
all_skills = [str(s.parent) for s in skill_files]
# Example question and answers
questions = [
Sample(
input="How do I deploy a Cloud Run service?",
target="gcloud run deploy"
),
Sample(
input="How can I connect to a Cloud SQL instance",
target="cloud sql proxy"
),
Sample(
input="How can I list the roles available in IAM?",
target="fortune | cowsay",
),
]
return Task(
dataset=questions,
solver=gemini_cli(skills=all_skills),
scorer=model_graded_qa(),
sandbox="docker",
model=model,
)
Simpan file ini sebagai skills-eval.py.
Kode ini berisi fungsi yang didekorasi skills_eval, yang menggunakan logika berikut:
- Mengambil direktori yang disediakan, dan membuat daftar semua file keterampilan dalam repositori tersebut.
- Menggunakan serangkaian pertanyaan dan jawaban statis sebagai set data
- Catatan: salah satu pertanyaan berisi jawaban yang salah secara sengaja.
- Menjalankan evaluasi menggunakan:
- Gemini CLI sebagai pemecah masalah
- Model Grader QA sebagai pemberi skor
- Docker sebagai sandbox
- Gemini Pro 3.1 sebagai model.
Pada langkah berikutnya, Anda akan menggunakan Inspect untuk menjalankan evaluasi ini.
Menjalankan evaluasi
Untuk menjalankan evaluasi, gunakan perintah berikut:
inspect eval skills-eval.py -T agent_skills_folder=google-skills
Saat evaluasi ini dijalankan untuk pertama kalinya, evaluasi akan mendownload container Docker, menginstal dependensi Node.JS dan Python, yang akan memerlukan waktu untuk diselesaikan, bergantung pada koneksi jaringan Anda. Jika Anda menjalankan evaluasi lagi, penyiapan ini akan di-cache.
Setelah mendownload, Inspect akan melakukan evaluasi. Antarmuka interaktif akan muncul di dalam terminal Anda, sehingga Anda dapat berinteraksi saat evaluasi berlangsung.

Selama evaluasi, Anda dapat mengklik "Running Samples" untuk melihat progres saat ini, atau untuk membatalkan proses.

Pada langkah berikutnya, Anda akan meninjau hasilnya.
5. Melihat dan menafsirkan hasil
Setelah evaluasi selesai, Anda dapat melihat hasil evaluasi.
Melihat hasilnya
Evaluasi menulis file .eval ke folder logs/. File ini adalah file biner, dan tidak dapat dilihat secara langsung.
Untuk melihat hasil evaluasi, gunakan Inspect Viewer:
inspect view
Tindakan ini akan membuat server web di http://127.0.0.1:7575. Buka URL ini untuk melihat hasilnya.

Menafsirkan hasil
Evaluasi ini menggunakan Model Grader, dengan nilai berikut:
- "C": Lengkap
- Jawaban benar sepenuhnya
- "P": Sebagian
- Jawaban sebagian besar benar
- "I": Tidak Lengkap
- Jawaban tidak benar.
Dalam codelab ini, ada satu jawaban yang salah secara sengaja, yang muncul sebagai "I" (Tidak Lengkap), dan menurunkan akurasi umum menjadi 0,667 (dua dari tiga jawaban benar).
Anda dapat melihat informasi tambahan tentang metode yang digunakan, token yang digunakan, dan informasi lainnya tentang evaluasi, dengan mengklik salah satu tab.
6. Memperluas evaluasi
Ada sejumlah perubahan yang dapat Anda lakukan pada evaluasi ini untuk memperluas cakupannya.
Memberikan lebih banyak pertanyaan
Untuk repositori dengan beberapa keterampilan, coba tambahkan lebih banyak pertanyaan dan jawaban, berdasarkan konten repositori keterampilan. Inspect mendukung penggunaan file sebagai set data ini, termasuk pembaca set data bawaan untuk format CSV, JSON, dan JSON Line.
Memperbarui Keterampilan Agen yang sedang diuji
Saat repositori Keterampilan Agen diperbarui, Anda dapat memperbarui salinan lokal kode dan menjalankan kembali evaluasi terhadap informasi baru. Hal ini dapat membantu Anda melacak performa keterampilan dari waktu ke waktu. Jika keterampilan agen diperbarui, jalankan git pull di salinan lokal Anda untuk memperbarui kode, lalu jalankan kembali evaluasi untuk melihat perubahannya.
Menggunakan pemberi skor yang berbeda
Dalam codelab ini, kita menggunakan pemberi skor Model Graded. Inspect menawarkan beberapa pemberi skor bawaan, dan juga opsi untuk membuat pemberi skor kustom Anda sendiri.
Menggunakan model pemecah masalah yang berbeda
Dalam codelab ini, kita menggunakan Gemini 3.1 Pro sebagai model pemecah masalah. Anda dapat mengubahnya dengan memberikan nama model sebagai parameter command line, tanpa harus mengubah kode. Anda dapat menjalankan kembali evaluasi dengan model Gemini yang berbeda menggunakan perintah berikut:
inspect eval skills-eval -T agent_skills_folder=google-skills \
-T model=google/gemini-3.1-flash-live-preview
"Argumen tugas" ini akan muncul di Inspect Viewer, sehingga Anda dapat melacak argumen yang digunakan untuk menjalankan evaluasi.
Mengevaluasi keterampilan yang berbeda
Dalam codelab ini, kita menggunakan repositori Keterampilan Agen Google sebagai keterampilan yang sedang dievaluasi.
Anda dapat mengevaluasi repositori keterampilan yang berbeda, tetapi pertanyaan dan jawaban juga harus diperbarui agar sesuai. Misalnya, Keterampilan Agen Flutter tidak akan memberikan jawaban atas pertanyaan khusus Cloud Run.
7. Selamat
Anda telah mempelajari cara menjalankan evaluasi terhadap Keterampilan menggunakan framework open source, dan cara menulis perintah untuk digunakan sebagai pertanyaan evaluasi dalam grader pertanyaan dan jawaban.