مقدمه‌ای بر جعبه ابزار ADK Gemini Live API

۱. بیدی استریمینگ چیست؟

استریمینگ دوطرفه (bidi-streaming) امکان ارتباط همزمان دوطرفه بین برنامه شما و مدل‌های هوش مصنوعی را فراهم می‌کند. برخلاف الگوهای سنتی درخواست-پاسخ که در آن‌ها یک پیام کامل ارسال می‌کنید و منتظر پاسخ کامل هستید، استریمینگ دوطرفه امکان موارد زیر را فراهم می‌کند:

  • ورودی مداوم : پخش صدا، تصویر یا متن همزمان با ضبط
  • خروجی بلادرنگ : پاسخ‌های هوش مصنوعی را همزمان با تولید دریافت کنید
  • وقفه طبیعی : کاربران می‌توانند درست مانند مکالمه انسانی، پاسخ هوش مصنوعی را در حین مکالمه قطع کنند.

6e82a81aa114e116.png

چرا این موضوع مهم است: پخش بیدی باعث می‌شود مکالمات هوش مصنوعی طبیعی به نظر برسند. هوش مصنوعی می‌تواند در حالی که شما هنوز در حال ارائه توضیحات هستید، پاسخ دهد و شما می‌توانید وقتی به اندازه کافی شنیدید، آن را قطع کنید - درست مانند صحبت کردن با یک انسان.

جعبه ابزار ADK Gemini Live API چیست؟

کیت توسعه عامل (ADK) یک انتزاع سطح بالا بر روی API Gemini Live ارائه می‌دهد و لوله‌کشی پیچیده استریمینگ بلادرنگ را مدیریت می‌کند تا بتوانید روی ساخت برنامه خود تمرکز کنید.

b0066935f4c245d2.png

جعبه ابزار ADK Gemini Live API موارد زیر را مدیریت می‌کند:

  • چرخه عمر اتصال : ایجاد، نگهداری و بازیابی اتصالات WebSocket
  • مسیریابی پیام : هدایت صدا، متن و تصاویر به سمت کنترل‌کننده‌های مناسب
  • وضعیت جلسه : حفظ تاریخچه مکالمات در طول اتصال‌های مجدد
  • اجرای ابزار : فراخوانی خودکار و از سرگیری فراخوانی‌های تابع

چرا ADK به جای API زنده خام؟

شما می‌توانید مستقیماً روی Gemini Live API کار کنید، اما ADK زیرساخت پیچیده را مدیریت می‌کند تا بتوانید روی برنامه خود تمرکز کنید:

61c685c2703e3aac.png

قابلیت

API زنده خام

جعبه ابزار ADK Gemini Live API

چارچوب عامل

از ابتدا بسازید

تک/چند عامله با ابزارها، ارزیابی، امنیت

اجرای ابزار

جابجایی دستی

اجرای موازی خودکار

مدیریت اتصال

اتصال مجدد دستی

از سرگیری جلسه شفاف

مدل رویداد

سازه‌های سفارشی

اشیاء رویداد یکپارچه و تایپ شده

چارچوب ناهمگام

هماهنگی دستی

مولد LiveRequestQueue + run_live()

ماندگاری جلسه

پیاده‌سازی دستی

SQL داخلی، هوش مصنوعی Vertex یا حافظه داخلی

نکته‌ی اصلی: ADK ماه‌ها توسعه‌ی زیرساخت را به روزهای توسعه‌ی اپلیکیشن کاهش می‌دهد. شما روی کاری که نماینده‌تان انجام می‌دهد تمرکز می‌کنید، نه نحوه‌ی کار استریمینگ.

موارد استفاده در دنیای واقعی

  • خدمات مشتری : مشتری دستگاه قهوه‌ساز معیوب خود را از طریق دوربین تلفن همراه نشان می‌دهد و در حین توضیح مشکل، هوش مصنوعی مدل و نقطه خرابی را شناسایی می‌کند و مشتری می‌تواند در حین مکالمه، صحبت را قطع کرده و جزئیات را اصلاح کند.
  • تجارت الکترونیک : یک خریدار لباس را جلوی وب‌کم خود می‌گیرد و می‌پرسد: «کفش‌هایی پیدا کنید که با این شلوار ست باشند.» نماینده مدل را بررسی می‌کند و با سرعت بالا و پایین می‌رود: «یک چیز غیررسمی‌تر نشانم بده» → «این کفش‌های کتانی چطورند؟» → «کفش‌های آبی سایز ۱۰ را هم اضافه کن.»
  • خدمات میدانی : یک تکنسین که عینک هوشمند به چشم دارد، تصویر را به صورت زنده پخش می‌کند و می‌پرسد: «من صدای عجیبی از این کمپرسور می‌شنوم - آیا می‌توانید آن را شناسایی کنید؟» این کارشناس، راهنمایی گام به گام را بدون دخالت دست ارائه می‌دهد.
  • مراقبت‌های بهداشتی : یک بیمار ویدیوی زنده‌ای از یک بیماری پوستی را به اشتراک می‌گذارد. هوش مصنوعی تجزیه و تحلیل اولیه را انجام می‌دهد، سوالات شفاف می‌پرسد و مراحل بعدی را راهنمایی می‌کند.
  • خدمات مالی : مشتری سبد سهام خود را بررسی می‌کند در حالی که نماینده نمودارها را نمایش می‌دهد و تأثیرات تجاری را شبیه‌سازی می‌کند. مشتری می‌تواند صفحه نمایش خود را برای بحث در مورد مقالات خبری خاص به اشتراک بگذارد.

نسخه آزمایشی Shopper's Concierge 2 : نسخه آزمایشی Agentic RAG در لحظه برای تجارت الکترونیک، ساخته شده با ADK Gemini Live API Toolkit و Vertex AI Vector Search، Embeddings، Feature Store و Ranking API:

نسخه آزمایشی دربان خریدار ۲

بیشتر بدانید: راهنمای توسعه‌دهندگان

برای بررسی عمیق و جامع، به راهنمای توسعه‌دهندگان ADK Gemini Live API Toolkit مراجعه کنید - یک مجموعه ۵ قسمتی که معماری تا استقرار در محیط عملیاتی را پوشش می‌دهد:

قسمت

تمرکز

آنچه یاد خواهید گرفت

قسمت ۱

بنیاد

معماری، پلتفرم‌های API زنده، چرخه حیات ۴ مرحله‌ای

قسمت ۲

بالادست

ارسال متن، صدا، ویدیو از طریق LiveRequestQueue

قسمت ۳

پایین‌دست

مدیریت رویدادها، اجرای ابزار، گردش‌های کاری چندعاملی

قسمت ۴

پیکربندی

مدیریت جلسه، سهمیه‌بندی، کنترل‌های تولید

قسمت ۵

چندوجهی

مشخصات صوتی، معماری مدل، ویژگی‌های پیشرفته

۲. مرور کلی کارگاه

آنچه خواهید ساخت

در این کارگاه عملی، شما یک برنامه هوش مصنوعی جریان دو طرفه کامل را از ابتدا خواهید ساخت. در پایان، یک هوش مصنوعی صوتی کارآمد خواهید داشت که می‌تواند:

  • پذیرش ورودی متن، صدا و تصویر
  • با متن جاری یا گفتار طبیعی پاسخ دهید
  • وقفه‌ها را به طور طبیعی مدیریت کنید
  • از ابزارهایی مانند جستجوی گوگل استفاده کنید

برخلاف خواندن مستندات، شما هر جزء را گام به گام بررسی خواهید کرد و خواهید فهمید که چگونه قطعات در حین ساخت تدریجی به هم متصل می‌شوند.

نسخه آزمایشی جعبه ابزار ADK Gemini Live API

رویکرد یادگیری

ما از یک رویکرد ساخت تدریجی پیروی می‌کنیم:

  • مرحله ۱: سرور وب سوکت مینیمال → پاسخ "Hello World"
  • مرحله ۲: اضافه کردن عامل → تعریف رفتار و ابزارهای هوش مصنوعی
  • مرحله ۳: مقداردهی اولیه برنامه → سرویس اجراکننده و جلسه
  • مرحله ۴: مقداردهی اولیه جلسه → RunConfig و LiveRequestQueue
  • مرحله ۵: وظیفه بالادستی → ارتباط از کلاینت به صف
  • مرحله 6: وظیفه پایین‌دستی → رویدادها برای جریان‌سازی کلاینت
  • مرحله ۷: افزودن صدا → ورودی و خروجی صدا
  • مرحله ۸: اضافه کردن ورودی تصویر → هوش مصنوعی چندوجهی

هر مرحله بر اساس مرحله قبلی بنا می‌شود. شما بعد از هر مرحله آزمایش خواهید کرد تا پیشرفت خود را ببینید.

پیش‌نیازها

  • حساب Google Cloud با قابلیت پرداخت
  • دانش پایه پایتون و برنامه‌نویسی غیرهمزمان (async/await)
  • مرورگر وب با دسترسی به میکروفون و دوربین وب (کروم توصیه می‌شود)

تخمین زمان

  • کل کارگاه : حدود ۹۰ دقیقه
  • نسخه سریع (فقط مراحل ۱ تا ۴): حدود ۴۵ دقیقه

۳. کارگاه آموزشی

کارگاه را با دنبال کردن دستورالعمل‌های اینجا شروع کنید:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

۴. جمع‌بندی و نکات کلیدی

آنچه ساختید

شما یک برنامه هوش مصنوعی استریمینگ دوطرفه کامل را از ابتدا ساختید. این برنامه ورودی متن، صدا و تصویر را با پاسخ‌های استریمینگ بلادرنگ مدیریت می‌کند - پایه و اساس ساخت هوش مصنوعی مکالمه‌ای آماده برای تولید.

کامپوننت

چه کاری انجام می‌دهد؟

قدم

عامل

شخصیت، دستورالعمل‌ها و ابزارهای موجود هوش مصنوعی (مثلاً جستجوی گوگل) را تعریف می‌کند.

مرحله ۲

سرویس جلسه

تاریخچه مکالمات را در طول اتصال مجدد حفظ می‌کند

مرحله ۳

دونده

چرخه حیات استریمینگ را هماهنگ می‌کند، عامل را به Live API متصل می‌کند

مرحله ۳

اجرای پیکربندی

پیکربندی نحوه پاسخ (متن/صوت)، رونویسی، از سرگیری جلسه

مرحله ۴

صف درخواست زنده

رابط یکپارچه برای ارسال متن، صدا و تصاویر به مدل

مرحله ۵

اجرا_زنده()

مولد ناهمگام که رویدادهای استریمینگ را از مدل تولید می‌کند

مرحله ۶

ارسال_زمان_واقعی()

حباب‌های صوتی/تصویری را برای ورودی جریان مداوم ارسال می‌کند.

مرحله ۷-۸

منابع

با این منابع رسمی به یادگیری ادامه دهید. راهنمای جعبه ابزار ADK Gemini Live API پوشش عمیق‌تری از همه موارد موجود در این کارگاه ارائه می‌دهد.

منبع

آدرس اینترنتی

مستندات ADK

https://google.github.io/adk-docs/

راهنمای جعبه ابزار ADK Gemini Live API

https://google.github.io/adk-docs/streaming/dev-guide/

رابط برنامه‌نویسی زنده Gemini

https://ai.google.dev/gemini-api/docs/live

رابط برنامه‌نویسی زنده Vertex AI

https://cloud.google.com/vertex-ai/generative-ai/docs/live-api

مخزن نمونه‌های ADK

https://github.com/google/adk-samples