1. Giriş
Genel Bakış
Bu codelab'de, bir dizi Agent Skills'e karşı değerlendirme yapmak için açık kaynaklı Inspect çerçevesini nasıl kullanacağınızı öğreneceksiniz. Bu değerlendirmeyi Docker kapsayıcılarını kullanarak kendi makinenizde çalıştıracaksınız. Değerlendirmeyi yapmak için Inspect SWE aracılığıyla yazılım mühendisliği aracısı olarak Gemini CLI kullanılır.
Yapacaklarınız
Özel istem değerlendirmelerini kullanarak bir dizi temsilci becerisine karşı değerlendirme yapın.
Öğrenecekleriniz
- Açık kaynak çerçevelerini kullanarak becerilere karşı değerlendirme çalıştırma
- Soru-cevap notlandırma araçlarında değerlendirme sorusu olarak kullanılacak istemleri yazma
2. Başlamadan önce
Gemini API'yi ayarlama
Gemini API'yi kullanmak için Google AI Studio'da API anahtarı oluşturun.
İsteğe bağlı: Anahtarınızı test etme
curl ile komut satırına erişiminiz varsa anahtarınızı aşağıdaki bloğun ilk satırına ekleyin ve ardından API anahtarını test etmek için terminalinizde uygulayın.
export GEMINI_API_KEY=Paste_your_API_key_here
curl "https://generativelanguage.googleapis.com/v1beta/models?key=${GEMINI_API_KEY}"
JSON biçiminde bir model listesi (ör. models/gemini-3.1-pro-preview) görmeniz gerekir. Bu, işlemin başarılı olduğu anlamına gelir.
Sistem bağımlılıklarını yükleme
Bu eğitimi tamamlamak için makinenize aşağıdaki yazılımları yüklemeniz gerekir:
- Docker
- Bu, değerlendirmeyi korumalı alan ortamında çalıştırmak için kullanılır.
- Python
- Bu, İncele'nin yazıldığı programlama dilidir.
- Node.js ve NPM
- Bu, Gemini KSA'nın yazıldığı programlama dilidir.
- git
- Bu, değerlendirilen beceri deposunun bir kopyasını almak için kullanılır.
3. Değerlendirilecek becerileri belirleme
Agent Skills (Aracı Becerileri), yapay zeka aracılarına yeni yetenekler ve uzmanlıklar kazandırmanın standartlaştırılmış bir yoludur.
Bu codelab'de örnek olarak Google Agent Skills deposu (https://github.com/google/skills) kullanılacak ancak bunu, ajan becerileri içeren herhangi bir GitHub deposuyla değiştirebilirsiniz.
Deponun içeriğine bağlı olarak, beceri setinde yer aldığını bildiğimiz bir dizi istem sorusu ve yanıtı kullanırız. Bu sorular ve yanıtlar, sağlanan becerilerin verilen soruyu yanıtlayıp yanıtlayamayacağını kontrol etmek için yazılım mühendisliği temsilcisi tarafından kullanılır.
Google Agent Skills deposunda Cloud Run'a özel bir beceri bulunur. Bu nedenle, aşağıdaki soruyu sorabiliriz:
"Yerel makinemdeki kodu kullanarak Cloud Run'a nasıl hizmet dağıtabilirim?"
Bu sorunun cevabı "gcloud run deploy". Bu soruyu ve yanıtı, becerilerin GitHub deposuyla birlikte değerlendiriciye iletiriz. Değerlendirici, sağlanan aracı becerileriyle sorunun yanıtlanıp yanıtlanamayacağını onaylar.
4. Değerlendirmeyi çalıştırma
Bu adımda örnek bir değerlendirme çalıştıracaksınız.
Python bağımlılıklarını yükleme
Yerel makinenizde, Python bağımlılıklarını yüklemek için aşağıdaki komutu çalıştırın.
pip install inspect-ai inspect-swe google-genai
Beceri deposunun bir kopyasını oluşturma
Google Agent Skills deposunun yerel bir kopyasını google-skills adlı bir klasöre oluşturun.
git clone https://github.com/google/skills.git --depth 1 google-skills
Python uygulamasını inceleme
Çalıştıracağınız değerlendirme şudur:
from pathlib import Path
import os
from inspect_ai import Task, task
from inspect_ai.dataset import Sample
from inspect_ai.scorer import model_graded_qa
from inspect_swe import gemini_cli
if "GEMINI_API_KEY" not in os.environ:
raise ValueError("Missing GEMINI_API_KEY. Please set GEMINI_API_KEY environment variable.")
@task
def skills_eval(agent_skills_folder, model="google/gemini-3.1-pro-preview"):
# For the provided folder, find all folders containing skills
skill_files = (Path.cwd() / agent_skills_folder).rglob("SKILL.md")
all_skills = [str(s.parent) for s in skill_files]
# Example question and answers
questions = [
Sample(
input="How do I deploy a Cloud Run service?",
target="gcloud run deploy"
),
Sample(
input="How can I connect to a Cloud SQL instance",
target="cloud sql proxy"
),
Sample(
input="How can I list the roles available in IAM?",
target="fortune | cowsay",
),
]
return Task(
dataset=questions,
solver=gemini_cli(skills=all_skills),
scorer=model_graded_qa(),
sandbox="docker",
model=model,
)
Bu dosyayı skills-eval.py olarak kaydedin.
Bu kodda, aşağıdaki mantığı kullanan süslenmiş bir işlev skills_eval bulunur:
- Sağlanan dizini alın ve bu depodaki tüm beceri dosyalarının listesini oluşturun.
- Veri kümesi olarak bir dizi statik soru ve yanıt kullanma
- Not: Sorulardan birinde kasıtlı olarak yanlış cevap verilmiştir.
- Aşağıdakileri kullanarak değerlendirmeyi çalıştırın:
- Çözücü olarak Gemini CLI
- Puanlayıcı olarak Model Grader Kalite Güvencesi
- Korumalı alan olarak Docker
- Model olarak Gemini Pro 3.1.
Bu değerlendirmeyi çalıştırmak için bir sonraki adımda İncele'yi kullanacaksınız.
Değerlendirmeyi çalıştırma
Değerlendirmeyi çalıştırmak için aşağıdaki komutu kullanın:
inspect eval skills-eval.py -T agent_skills_folder=google-skills
Bu değerlendirme ilk kez çalıştırıldığında Docker kapsayıcıları indirir, Node.JS ve Python bağımlılıklarını yükler. Bu işlemlerin tamamlanması, ağ bağlantınıza bağlı olarak biraz zaman alabilir. Değerlendirmeyi tekrar çalıştırırsanız bu kurulum önbelleğe alınır.
İndirme işleminden sonra Inspect değerlendirmeyi gerçekleştirir. Terminalinizde etkileşimli bir arayüz görünür. Bu arayüz, değerlendirme ilerledikçe etkileşim kurmanıza olanak tanır.

Değerlendirme sırasında mevcut ilerleme durumunu görmek veya işlemi iptal etmek için "Çalışan Örnekler"i tıklayabilirsiniz.

Sonraki adımda sonuçları inceleyeceksiniz.
5. Sonuçları görüntüleme ve yorumlama
Değerlendirme tamamlandıktan sonra değerlendirme sonuçlarını görüntüleyebilirsiniz.
Sonuçları görüntüle
Değerlendirme, .eval dosyasını logs/ klasörüne yazdı. Bu, ikili program dosyası olduğundan doğrudan görüntülenemez.
Değerlendirme sonuçlarını görüntülemek için İnceleme Görüntüleyici'yi kullanın:
inspect view
Bu işlem, http://127.0.0.1:7575 adresinde bir web sunucusu oluşturur. Sonuçları görüntülemek için bu URL'yi açın.

Sonuçları yorumlama
Bu değerlendirmede, aşağıdaki notların verildiği bir Model Notlandırma Aracı kullanıldı:
- "C": Tamamlandı
- Yanıt tamamen doğruydu
- "P": Kısmi
- Yanıt çoğunlukla doğruydu
- "I": Eksik
- Yanıt doğru değildi.
Bu codelab'de, "E" (Eksik) olarak görünen ve genel doğruluğu 0,667'ye (üçte iki doğru) düşüren kasıtlı olarak yanlış bir yanıt var.
Alınan yöntem, kullanılan jetonlar ve değerlendirmeyle ilgili diğer bilgiler hakkında daha fazla bilgi edinmek için sekmelerden herhangi birini tıklayabilirsiniz.
6. Değerlendirmeyi uzatma
Kapsamı genişletmek için bu değerlendirmede yapabileceğiniz çeşitli değişiklikler vardır.
Daha fazla soru sağlama
Birden fazla beceri içeren depolar için beceri deposunun içeriğine göre daha fazla soru ve yanıt eklemeyi deneyin. İnceleme, CSV, JSON ve JSON Line biçimleri için yerleşik veri kümesi okuyucuları da dahil olmak üzere dosyaların bu veri kümeleri olarak kullanılmasını destekler.
Test edilen temsilci becerilerini güncelleme
Agent Skills depoları güncellendikçe kodun yerel kopyanızı güncelleyebilir ve değerlendirmeyi yeni bilgilere göre yeniden çalıştırabilirsiniz. Bu sayede becerilerin zaman içindeki performansını takip edebilirsiniz. Bir aracı becerisi güncellenirse kodu güncellemek için yerel kopyanızda git pull komutunu çalıştırın, ardından değişiklikleri görmek için değerlendirmeyi yeniden çalıştırın.
Farklı puanlayıcılar kullanma
Bu codelab'de Model Graded puanlayıcısı kullanılmıştır. Inspect'te birden fazla yerleşik puanlayıcı bulunur ve kendi özel puanlayıcınızı oluşturma seçeneği de sunulur.
Farklı çözücü modelleri kullanma
Bu codelab'de, çözücü modeli olarak Gemini 3.1 Pro'yu kullandık. Kodu değiştirmenize gerek kalmadan model adını komut satırı parametresi olarak sağlayarak bunu değiştirebilirsiniz. Değerlendirmeyi aşağıdaki komutla farklı bir Gemini modeliyle yeniden çalıştırabilirsiniz:
inspect eval skills-eval -T agent_skills_folder=google-skills \
-T model=google/gemini-3.1-flash-live-preview
Bu "görev argümanı", incelemeyi çalıştırmak için kullanılan argümanları takip etmenize olanak tanıyarak İnceleme Görüntüleyici'de görünür.
Farklı becerileri değerlendirme
Bu codelab'de, değerlendirilen beceriler olarak Google Agent Skills deposunu kullandık.
Farklı beceri depolarını değerlendirebilirsiniz ancak soruların ve yanıtların da buna uygun şekilde güncellenmesi gerekir. Örneğin, Flutter Agent Skills, Cloud Run'a özel soruların yanıtlarını vermez.
7. Tebrikler
Açık kaynaklı çerçeveleri kullanarak becerilere karşı değerlendirme yapmayı ve soru-cevap puanlayıcılarında değerlendirme sorusu olarak kullanılacak istemler yazmayı öğrendiniz.