1. Giới thiệu
Tổng quan
Trong lớp học lập trình này, bạn sẽ tìm hiểu cách sử dụng khung mã nguồn mở Inspect để thực hiện các hoạt động đánh giá dựa trên một nhóm Kỹ năng của trợ lý ảo. Bạn sẽ chạy quy trình đánh giá này trên máy của mình bằng cách sử dụng các vùng chứa Docker. Gemini CLI sẽ được dùng làm tác nhân kỹ thuật phần mềm để thực hiện quy trình đánh giá thông qua Inspect SWE (Kiểm tra SWE)
Bạn sẽ thực hiện
Chạy quy trình đánh giá dựa trên một nhóm Kỹ năng của nhân viên hỗ trợ, bằng cách sử dụng các tiêu chí đánh giá câu lệnh tuỳ chỉnh.
Kiến thức bạn sẽ học được
- Cách chạy quy trình đánh giá đối với Skills bằng cách sử dụng các khung nguồn mở.
- Cách viết câu lệnh để sử dụng làm câu hỏi đánh giá trong công cụ chấm điểm câu hỏi và câu trả lời.
2. Trước khi bắt đầu
Thiết lập Gemini API
Để sử dụng Gemini API, hãy tạo khoá API trong Google AI Studio.
Không bắt buộc: Kiểm thử khoá
Nếu bạn có quyền truy cập vào một dòng lệnh có curl, hãy thêm khoá của bạn vào dòng đầu tiên của khối sau, sau đó chạy khoá đó trong thiết bị đầu cuối để kiểm thử khoá API.
export GEMINI_API_KEY=Paste_your_API_key_here
curl "https://generativelanguage.googleapis.com/v1beta/models?key=${GEMINI_API_KEY}"
Bạn sẽ thấy danh sách các mô hình ở định dạng JSON, chẳng hạn như models/gemini-3.1-pro-preview. Điều này có nghĩa là bạn đã thành công.
Cài đặt các phần phụ thuộc của hệ thống
Bạn cần cài đặt phần mềm sau trên máy để hoàn thành hướng dẫn này:
- Docker
- Thao tác này sẽ được dùng để chạy quy trình đánh giá trong môi trường hộp cát
- Python
- Đây là ngôn ngữ lập trình mà Inspect được viết bằng
- Node.js và NPM
- Đây là ngôn ngữ lập trình mà Gemini CLI được viết bằng.
- git
- Dữ liệu này sẽ được dùng để lấy bản sao của kho lưu trữ kỹ năng đang được đánh giá
3. Xác định những kỹ năng cần đánh giá
Kỹ năng của trợ lý ảo là một cách tiêu chuẩn hoá để cung cấp cho trợ lý ảo dựa trên AI các khả năng và kiến thức chuyên môn mới.
Lớp học lập trình này sẽ sử dụng kho lưu trữ Kỹ năng của tác nhân của Google (https://github.com/google/skills) làm ví dụ, nhưng bạn có thể thay đổi kho lưu trữ này thành bất kỳ kho lưu trữ nào trên GitHub có chứa kỹ năng của tác nhân.
Dựa trên nội dung của kho lưu trữ, chúng tôi sẽ sử dụng một loạt câu hỏi và câu trả lời trong câu lệnh mà chúng tôi biết là có trong bộ kỹ năng. Những câu hỏi và câu trả lời này sẽ được tác nhân kỹ thuật phần mềm sử dụng để kiểm tra xem các kỹ năng được cung cấp có thể trả lời câu hỏi đã cho hay không.
Kho lưu trữ Google Agent Skills chứa một kỹ năng dành riêng cho Cloud Run, vì vậy chúng ta có thể đặt câu hỏi sau:
"Làm cách nào để triển khai một dịch vụ lên Cloud Run, khi có mã trên máy cục bộ của tôi?"
Câu trả lời cho câu hỏi này là "gcloud run deploy". Chúng tôi sẽ cung cấp câu hỏi và câu trả lời này, cũng như kho lưu trữ GitHub về các kỹ năng cho người đánh giá. Sau đó, người đánh giá sẽ xác nhận xem các kỹ năng của tác nhân được cung cấp có thể trả lời câu hỏi này hay không.
4. Chạy quy trình đánh giá
Trong bước này, bạn sẽ chạy một ví dụ về quy trình đánh giá.
Cài đặt các phần phụ thuộc Python
Trên máy cục bộ, hãy chạy lệnh sau để cài đặt các phần phụ thuộc python.
pip install inspect-ai inspect-swe google-genai
Tạo bản sao của kho lưu trữ kỹ năng
Tạo một bản sao cục bộ của kho lưu trữ Google Agent Skills vào một thư mục có tên là google-skills.
git clone https://github.com/google/skills.git --depth 1 google-skills
Xem xét ứng dụng Python
Bạn sẽ chạy quy trình đánh giá sau đây:
from pathlib import Path
import os
from inspect_ai import Task, task
from inspect_ai.dataset import Sample
from inspect_ai.scorer import model_graded_qa
from inspect_swe import gemini_cli
if "GEMINI_API_KEY" not in os.environ:
raise ValueError("Missing GEMINI_API_KEY. Please set GEMINI_API_KEY environment variable.")
@task
def skills_eval(agent_skills_folder, model="google/gemini-3.1-pro-preview"):
# For the provided folder, find all folders containing skills
skill_files = (Path.cwd() / agent_skills_folder).rglob("SKILL.md")
all_skills = [str(s.parent) for s in skill_files]
# Example question and answers
questions = [
Sample(
input="How do I deploy a Cloud Run service?",
target="gcloud run deploy"
),
Sample(
input="How can I connect to a Cloud SQL instance",
target="cloud sql proxy"
),
Sample(
input="How can I list the roles available in IAM?",
target="fortune | cowsay",
),
]
return Task(
dataset=questions,
solver=gemini_cli(skills=all_skills),
scorer=model_graded_qa(),
sandbox="docker",
model=model,
)
Lưu tệp này dưới dạng skills-eval.py.
Mã này chứa một hàm được trang trí skills_eval, sử dụng logic sau:
- Lấy thư mục được cung cấp và tạo danh sách tất cả các tệp kỹ năng trong kho lưu trữ đó.
- Sử dụng một bộ câu hỏi và câu trả lời tĩnh làm tập dữ liệu
- Lưu ý: một trong các câu hỏi có câu trả lời sai có chủ ý.
- Chạy quy trình đánh giá bằng cách sử dụng:
- Gemini CLI là công cụ giải quyết vấn đề
- Model Grader QA làm người chấm điểm
- Docker làm hộp cát
- Gemini Pro 3.1 là mô hình.
Trong bước tiếp theo, bạn sẽ sử dụng Inspect để chạy quy trình đánh giá này.
Chạy quy trình đánh giá
Để chạy quy trình đánh giá, hãy dùng lệnh sau:
inspect eval skills-eval.py -T agent_skills_folder=google-skills
Lần đầu tiên chạy quy trình đánh giá này, quy trình sẽ tải các vùng chứa Docker xuống, cài đặt các phần phụ thuộc Node.JS và Python. Quá trình này sẽ mất một khoảng thời gian để hoàn tất, tuỳ thuộc vào kết nối mạng của bạn. Nếu bạn chạy lại quy trình đánh giá, chế độ thiết lập này sẽ được lưu vào bộ nhớ đệm.
Sau khi tải xuống, Inspect sẽ thực hiện quy trình đánh giá. Một giao diện tương tác sẽ xuất hiện trong thiết bị đầu cuối, cho phép bạn tương tác khi quá trình đánh giá diễn ra.

Trong quá trình đánh giá, bạn có thể nhấp vào "Running Samples" (Đang chạy mẫu) để xem tiến trình hiện tại hoặc huỷ quy trình.

Trong bước tiếp theo, bạn sẽ xem xét kết quả.
5. Xem và diễn giải kết quả
Sau khi quá trình đánh giá hoàn tất, bạn có thể xem kết quả đánh giá.
Xem kết quả
Quy trình đánh giá đã ghi tệp .eval vào thư mục logs/. Đây là tệp nhị phân và không xem được trực tiếp.
Để xem kết quả đánh giá, hãy sử dụng Inspect Viewer:
inspect view
Thao tác này sẽ tạo một máy chủ web tại http://127.0.0.1:7575. Mở URL này để xem kết quả.

Diễn giải kết quả
Quy trình đánh giá này sử dụng một Trình chấm điểm mô hình, trong đó các điểm số sau đây được đưa ra:
- "C": Hoàn tất
- Câu trả lời hoàn toàn chính xác
- "P": Một phần
- Câu trả lời gần như chính xác
- "I": Chưa hoàn thành
- Câu trả lời không chính xác.
Trong lớp học lập trình này, có một câu trả lời cố tình không chính xác, xuất hiện dưới dạng "I" (Không đầy đủ) và làm giảm độ chính xác chung xuống 0,667 (2/3 câu trả lời chính xác).
Bạn có thể xem thêm thông tin về phương thức được sử dụng, các mã thông báo đã dùng và những thông tin khác về quá trình đánh giá bằng cách nhấp vào bất kỳ thẻ nào.
6. Kéo dài thời gian đánh giá
Bạn có thể thực hiện một số thay đổi đối với quy trình đánh giá này để mở rộng phạm vi.
Cung cấp thêm câu hỏi
Đối với các kho lưu trữ có nhiều kỹ năng, hãy thử thêm nhiều câu hỏi và câu trả lời hơn dựa trên nội dung của kho lưu trữ kỹ năng. Inspect hỗ trợ việc sử dụng các tệp làm tập dữ liệu này, bao gồm cả trình đọc tập dữ liệu tích hợp cho các định dạng CSV, JSON và JSON Line.
Cập nhật Kỹ năng của nhân viên hỗ trợ đang được kiểm thử
Khi kho lưu trữ Kỹ năng của trợ lý được cập nhật, bạn có thể cập nhật bản sao mã cục bộ và chạy lại quy trình đánh giá dựa trên thông tin mới. Điều này có thể giúp bạn theo dõi hiệu suất của các kỹ năng theo thời gian. Nếu kỹ năng của nhân viên hỗ trợ được cập nhật, hãy chạy git pull trong bản sao cục bộ để cập nhật mã, sau đó chạy lại quy trình đánh giá để xem các thay đổi.
Sử dụng nhiều người chấm điểm
Trong lớp học lập trình này, chúng ta đã sử dụng trình tính điểm Model Graded. Inspect cung cấp nhiều trình tính điểm tích hợp, cũng như lựa chọn tạo trình tính điểm tuỳ chỉnh của riêng bạn.
Sử dụng các mô hình trình giải khác nhau
Trong lớp học lập trình này, chúng ta đã sử dụng Gemini 3.1 Pro làm mô hình giải quyết. Bạn có thể thay đổi điều này bằng cách cung cấp tên mô hình dưới dạng tham số dòng lệnh mà không cần thay đổi mã. Bạn có thể chạy lại quy trình đánh giá bằng một mô hình Gemini khác bằng lệnh sau:
inspect eval skills-eval -T agent_skills_folder=google-skills \
-T model=google/gemini-3.1-flash-live-preview
"Đối số tác vụ" này sẽ xuất hiện trong Trình xem kiểm tra, cho phép bạn theo dõi các đối số được dùng để chạy quy trình đánh giá.
Đánh giá các kỹ năng khác nhau
Trong lớp học lập trình này, chúng ta đã sử dụng kho lưu trữ Google Agent Skills làm các kỹ năng được đánh giá.
Bạn có thể đánh giá các kho lưu trữ kỹ năng khác nhau, nhưng câu hỏi và câu trả lời cũng phải được cập nhật cho phù hợp. Ví dụ: Kỹ năng của tác nhân Flutter sẽ không trả lời các câu hỏi cụ thể về Cloud Run.
7. Xin chúc mừng
Bạn đã tìm hiểu cách chạy quy trình đánh giá đối với các Kỹ năng bằng cách sử dụng các khung mã nguồn mở và cách viết câu lệnh để dùng làm câu hỏi đánh giá trong các công cụ chấm điểm hỏi và đáp.