Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Açık kaynak çerçevelerini kullanarak temsilci becerilerini değerlendirme

1. Giriş

Genel Bakış

Bu codelab'de, bir dizi Agent Skills'e karşı değerlendirme yapmak için açık kaynaklı Inspect çerçevesini nasıl kullanacağınızı öğreneceksiniz. Bu değerlendirmeyi Docker kapsayıcılarını kullanarak kendi makinenizde çalıştıracaksınız. Değerlendirmeyi yapmak için Inspect SWE aracılığıyla yazılım mühendisliği aracısı olarak Gemini CLI kullanılır.

Yapacaklarınız

Özel istem değerlendirmelerini kullanarak bir dizi temsilci becerisine karşı değerlendirme yapın.

Öğrenecekleriniz

Açık kaynak çerçevelerini kullanarak becerilere karşı değerlendirme çalıştırma
Soru-cevap notlandırma araçlarında değerlendirme sorusu olarak kullanılacak istemleri yazma

2. Başlamadan önce

Gemini API'yi ayarlama

Gemini API'yi kullanmak için Google AI Studio'da API anahtarı oluşturun.

İsteğe bağlı: Anahtarınızı test etme

curl ile komut satırına erişiminiz varsa anahtarınızı aşağıdaki bloğun ilk satırına ekleyin ve ardından API anahtarını test etmek için terminalinizde uygulayın.

export GEMINI_API_KEY=Paste_your_API_key_here
curl "https://generativelanguage.googleapis.com/v1beta/models?key=${GEMINI_API_KEY}"

JSON biçiminde bir model listesi (ör. models/gemini-3.1-pro-preview) görmeniz gerekir. Bu, işlemin başarılı olduğu anlamına gelir.

Sistem bağımlılıklarını yükleme

Bu eğitimi tamamlamak için makinenize aşağıdaki yazılımları yüklemeniz gerekir:

Docker
- Bu, değerlendirmeyi korumalı alan ortamında çalıştırmak için kullanılır.
Python
- Bu, İncele'nin yazıldığı programlama dilidir.
Node.js ve NPM
- Bu, Gemini KSA'nın yazıldığı programlama dilidir.
git
- Bu, değerlendirilen beceri deposunun bir kopyasını almak için kullanılır.

3. Değerlendirilecek becerileri belirleme

Agent Skills (Aracı Becerileri), yapay zeka aracılarına yeni yetenekler ve uzmanlıklar kazandırmanın standartlaştırılmış bir yoludur.

Bu codelab'de örnek olarak Google Agent Skills deposu (https://github.com/google/skills) kullanılacak ancak bunu, ajan becerileri içeren herhangi bir GitHub deposuyla değiştirebilirsiniz.

Deponun içeriğine bağlı olarak, beceri setinde yer aldığını bildiğimiz bir dizi istem sorusu ve yanıtı kullanırız. Bu sorular ve yanıtlar, sağlanan becerilerin verilen soruyu yanıtlayıp yanıtlayamayacağını kontrol etmek için yazılım mühendisliği temsilcisi tarafından kullanılır.

Google Agent Skills deposunda Cloud Run'a özel bir beceri bulunur. Bu nedenle, aşağıdaki soruyu sorabiliriz:

"Yerel makinemdeki kodu kullanarak Cloud Run'a nasıl hizmet dağıtabilirim?"

Bu sorunun cevabı "gcloud run deploy". Bu soruyu ve yanıtı, becerilerin GitHub deposuyla birlikte değerlendiriciye iletiriz. Değerlendirici, sağlanan aracı becerileriyle sorunun yanıtlanıp yanıtlanamayacağını onaylar.

4. Değerlendirmeyi çalıştırma

Bu adımda örnek bir değerlendirme çalıştıracaksınız.

Python bağımlılıklarını yükleme

Yerel makinenizde, Python bağımlılıklarını yüklemek için aşağıdaki komutu çalıştırın.

pip install inspect-ai inspect-swe google-genai

Beceri deposunun bir kopyasını oluşturma

Google Agent Skills deposunun yerel bir kopyasını google-skills adlı bir klasöre oluşturun.

git clone https://github.com/google/skills.git --depth 1 google-skills

Python uygulamasını inceleme

Çalıştıracağınız değerlendirme şudur:

from pathlib import Path
import os

from inspect_ai import Task, task
from inspect_ai.dataset import Sample
from inspect_ai.scorer import model_graded_qa
from inspect_swe import gemini_cli

if "GEMINI_API_KEY" not in os.environ:
  raise ValueError("Missing GEMINI_API_KEY. Please set GEMINI_API_KEY environment variable.")

@task
def skills_eval(agent_skills_folder, model="google/gemini-3.1-pro-preview"):

    # For the provided folder, find all folders containing skills
    skill_files = (Path.cwd() / agent_skills_folder).rglob("SKILL.md")
    all_skills = [str(s.parent) for s in skill_files]

    # Example question and answers
    questions = [
        Sample(
            input="How do I deploy a Cloud Run service?",
            target="gcloud run deploy"
        ),
        Sample(
            input="How can I connect to a Cloud SQL instance",
            target="cloud sql proxy"
        ),
        Sample(
            input="How can I list the roles available in IAM?",
            target="fortune | cowsay",
        ),
    ]

    return Task(
        dataset=questions,
        solver=gemini_cli(skills=all_skills),
        scorer=model_graded_qa(),
        sandbox="docker",
        model=model,
    )

Bu dosyayı skills-eval.py olarak kaydedin.

Bu kodda, aşağıdaki mantığı kullanan süslenmiş bir işlev skills_eval bulunur:

Sağlanan dizini alın ve bu depodaki tüm beceri dosyalarının listesini oluşturun.
Veri kümesi olarak bir dizi statik soru ve yanıt kullanma
- Not: Sorulardan birinde kasıtlı olarak yanlış cevap verilmiştir.
Aşağıdakileri kullanarak değerlendirmeyi çalıştırın:
- Çözücü olarak Gemini CLI
- Puanlayıcı olarak Model Grader Kalite Güvencesi
- Korumalı alan olarak Docker
- Model olarak Gemini Pro 3.1.

Bu değerlendirmeyi çalıştırmak için bir sonraki adımda İncele'yi kullanacaksınız.

Değerlendirmeyi çalıştırma

Değerlendirmeyi çalıştırmak için aşağıdaki komutu kullanın:

inspect eval skills-eval.py -T agent_skills_folder=google-skills

Bu değerlendirme ilk kez çalıştırıldığında Docker kapsayıcıları indirir, Node.JS ve Python bağımlılıklarını yükler. Bu işlemlerin tamamlanması, ağ bağlantınıza bağlı olarak biraz zaman alabilir. Değerlendirmeyi tekrar çalıştırırsanız bu kurulum önbelleğe alınır.

İndirme işleminden sonra Inspect değerlendirmeyi gerçekleştirir. Terminalinizde etkileşimli bir arayüz görünür. Bu arayüz, değerlendirme ilerledikçe etkileşim kurmanıza olanak tanır.

Çalışan görevler

Değerlendirme sırasında mevcut ilerleme durumunu görmek veya işlemi iptal etmek için "Çalışan Örnekler"i tıklayabilirsiniz.

Koşu örnekleri

Sonraki adımda sonuçları inceleyeceksiniz.

5. Sonuçları görüntüleme ve yorumlama

Değerlendirme tamamlandıktan sonra değerlendirme sonuçlarını görüntüleyebilirsiniz.

Sonuçları görüntüle

Değerlendirme, .eval dosyasını logs/ klasörüne yazdı. Bu, ikili program dosyası olduğundan doğrudan görüntülenemez.

Değerlendirme sonuçlarını görüntülemek için İnceleme Görüntüleyici'yi kullanın:

inspect view

Bu işlem, http://127.0.0.1:7575 adresinde bir web sunucusu oluşturur. Sonuçları görüntülemek için bu URL'yi açın.

İnceleme görünümü

Sonuçları yorumlama

Bu değerlendirmede, aşağıdaki notların verildiği bir Model Notlandırma Aracı kullanıldı:

"C": Tamamlandı
- Yanıt tamamen doğruydu
"P": Kısmi
- Yanıt çoğunlukla doğruydu
"I": Eksik
- Yanıt doğru değildi.

Bu codelab'de, "E" (Eksik) olarak görünen ve genel doğruluğu 0,667'ye (üçte iki doğru) düşüren kasıtlı olarak yanlış bir yanıt var.

Alınan yöntem, kullanılan jetonlar ve değerlendirmeyle ilgili diğer bilgiler hakkında daha fazla bilgi edinmek için sekmelerden herhangi birini tıklayabilirsiniz.

6. Değerlendirmeyi uzatma

Kapsamı genişletmek için bu değerlendirmede yapabileceğiniz çeşitli değişiklikler vardır.

Daha fazla soru sağlama

Birden fazla beceri içeren depolar için beceri deposunun içeriğine göre daha fazla soru ve yanıt eklemeyi deneyin. İnceleme, CSV, JSON ve JSON Line biçimleri için yerleşik veri kümesi okuyucuları da dahil olmak üzere dosyaların bu veri kümeleri olarak kullanılmasını destekler.

Test edilen temsilci becerilerini güncelleme

Agent Skills depoları güncellendikçe kodun yerel kopyanızı güncelleyebilir ve değerlendirmeyi yeni bilgilere göre yeniden çalıştırabilirsiniz. Bu sayede becerilerin zaman içindeki performansını takip edebilirsiniz. Bir aracı becerisi güncellenirse kodu güncellemek için yerel kopyanızda git pull komutunu çalıştırın, ardından değişiklikleri görmek için değerlendirmeyi yeniden çalıştırın.

Farklı puanlayıcılar kullanma

Bu codelab'de Model Graded puanlayıcısı kullanılmıştır. Inspect'te birden fazla yerleşik puanlayıcı bulunur ve kendi özel puanlayıcınızı oluşturma seçeneği de sunulur.

Farklı çözücü modelleri kullanma

Bu codelab'de, çözücü modeli olarak Gemini 3.1 Pro'yu kullandık. Kodu değiştirmenize gerek kalmadan model adını komut satırı parametresi olarak sağlayarak bunu değiştirebilirsiniz. Değerlendirmeyi aşağıdaki komutla farklı bir Gemini modeliyle yeniden çalıştırabilirsiniz:

inspect eval skills-eval -T agent_skills_folder=google-skills \
  -T model=google/gemini-3.1-flash-live-preview

Bu "görev argümanı", incelemeyi çalıştırmak için kullanılan argümanları takip etmenize olanak tanıyarak İnceleme Görüntüleyici'de görünür.

Farklı becerileri değerlendirme

Bu codelab'de, değerlendirilen beceriler olarak Google Agent Skills deposunu kullandık.

Farklı beceri depolarını değerlendirebilirsiniz ancak soruların ve yanıtların da buna uygun şekilde güncellenmesi gerekir. Örneğin, Flutter Agent Skills, Cloud Run'a özel soruların yanıtlarını vermez.

7. Tebrikler

Açık kaynaklı çerçeveleri kullanarak becerilere karşı değerlendirme yapmayı ve soru-cevap puanlayıcılarında değerlendirme sorusu olarak kullanılacak istemler yazmayı öğrendiniz.