۱. بیدی استریمینگ چیست؟
استریمینگ دوطرفه (bidi-streaming) امکان ارتباط همزمان دوطرفه بین برنامه شما و مدلهای هوش مصنوعی را فراهم میکند. برخلاف الگوهای سنتی درخواست-پاسخ که در آنها یک پیام کامل ارسال میکنید و منتظر پاسخ کامل هستید، استریمینگ دوطرفه امکان موارد زیر را فراهم میکند:
- ورودی مداوم : پخش صدا، تصویر یا متن همزمان با ضبط
- خروجی بلادرنگ : پاسخهای هوش مصنوعی را همزمان با تولید دریافت کنید
- وقفه طبیعی : کاربران میتوانند درست مانند مکالمه انسانی، پاسخ هوش مصنوعی را در حین مکالمه قطع کنند.

چرا این موضوع مهم است: پخش بیدی باعث میشود مکالمات هوش مصنوعی طبیعی به نظر برسند. هوش مصنوعی میتواند در حالی که شما هنوز در حال ارائه توضیحات هستید، پاسخ دهد و شما میتوانید وقتی به اندازه کافی شنیدید، آن را قطع کنید - درست مانند صحبت کردن با یک انسان.
جعبه ابزار ADK Gemini Live API چیست؟
کیت توسعه عامل (ADK) یک انتزاع سطح بالا بر روی API Gemini Live ارائه میدهد و لولهکشی پیچیده استریمینگ بلادرنگ را مدیریت میکند تا بتوانید روی ساخت برنامه خود تمرکز کنید.

جعبه ابزار ADK Gemini Live API موارد زیر را مدیریت میکند:
- چرخه عمر اتصال : ایجاد، نگهداری و بازیابی اتصالات WebSocket
- مسیریابی پیام : هدایت صدا، متن و تصاویر به سمت کنترلکنندههای مناسب
- وضعیت جلسه : حفظ تاریخچه مکالمات در طول اتصالهای مجدد
- اجرای ابزار : فراخوانی خودکار و از سرگیری فراخوانیهای تابع
چرا ADK به جای API زنده خام؟
شما میتوانید مستقیماً روی Gemini Live API کار کنید، اما ADK زیرساخت پیچیده را مدیریت میکند تا بتوانید روی برنامه خود تمرکز کنید:

قابلیت | API زنده خام | جعبه ابزار ADK Gemini Live API |
چارچوب عامل | از ابتدا بسازید | تک/چند عامله با ابزارها، ارزیابی، امنیت |
اجرای ابزار | جابجایی دستی | اجرای موازی خودکار |
مدیریت اتصال | اتصال مجدد دستی | از سرگیری جلسه شفاف |
مدل رویداد | سازههای سفارشی | اشیاء رویداد یکپارچه و تایپ شده |
چارچوب ناهمگام | هماهنگی دستی | مولد LiveRequestQueue + run_live() |
ماندگاری جلسه | پیادهسازی دستی | SQL داخلی، هوش مصنوعی Vertex یا حافظه داخلی |
نکتهی اصلی: ADK ماهها توسعهی زیرساخت را به روزهای توسعهی اپلیکیشن کاهش میدهد. شما روی کاری که نمایندهتان انجام میدهد تمرکز میکنید، نه نحوهی کار استریمینگ.
موارد استفاده در دنیای واقعی
- خدمات مشتری : مشتری دستگاه قهوهساز معیوب خود را از طریق دوربین تلفن همراه نشان میدهد و در حین توضیح مشکل، هوش مصنوعی مدل و نقطه خرابی را شناسایی میکند و مشتری میتواند در حین مکالمه، صحبت را قطع کرده و جزئیات را اصلاح کند.
- تجارت الکترونیک : یک خریدار لباس را جلوی وبکم خود میگیرد و میپرسد: «کفشهایی پیدا کنید که با این شلوار ست باشند.» نماینده مدل را بررسی میکند و با سرعت بالا و پایین میرود: «یک چیز غیررسمیتر نشانم بده» → «این کفشهای کتانی چطورند؟» → «کفشهای آبی سایز ۱۰ را هم اضافه کن.»
- خدمات میدانی : یک تکنسین که عینک هوشمند به چشم دارد، تصویر را به صورت زنده پخش میکند و میپرسد: «من صدای عجیبی از این کمپرسور میشنوم - آیا میتوانید آن را شناسایی کنید؟» این کارشناس، راهنمایی گام به گام را بدون دخالت دست ارائه میدهد.
- مراقبتهای بهداشتی : یک بیمار ویدیوی زندهای از یک بیماری پوستی را به اشتراک میگذارد. هوش مصنوعی تجزیه و تحلیل اولیه را انجام میدهد، سوالات شفاف میپرسد و مراحل بعدی را راهنمایی میکند.
- خدمات مالی : مشتری سبد سهام خود را بررسی میکند در حالی که نماینده نمودارها را نمایش میدهد و تأثیرات تجاری را شبیهسازی میکند. مشتری میتواند صفحه نمایش خود را برای بحث در مورد مقالات خبری خاص به اشتراک بگذارد.
نسخه آزمایشی Shopper's Concierge 2 : نسخه آزمایشی Agentic RAG در لحظه برای تجارت الکترونیک، ساخته شده با ADK Gemini Live API Toolkit و Vertex AI Vector Search، Embeddings، Feature Store و Ranking API:

بیشتر بدانید: راهنمای توسعهدهندگان
برای بررسی عمیق و جامع، به راهنمای توسعهدهندگان ADK Gemini Live API Toolkit مراجعه کنید - یک مجموعه ۵ قسمتی که معماری تا استقرار در محیط عملیاتی را پوشش میدهد:
قسمت | تمرکز | آنچه یاد خواهید گرفت |
بنیاد | معماری، پلتفرمهای API زنده، چرخه حیات ۴ مرحلهای | |
بالادست | ارسال متن، صدا، ویدیو از طریق LiveRequestQueue | |
پاییندست | مدیریت رویدادها، اجرای ابزار، گردشهای کاری چندعاملی | |
پیکربندی | مدیریت جلسه، سهمیهبندی، کنترلهای تولید | |
چندوجهی | مشخصات صوتی، معماری مدل، ویژگیهای پیشرفته |
۲. مرور کلی کارگاه
آنچه خواهید ساخت
در این کارگاه عملی، شما یک برنامه هوش مصنوعی جریان دو طرفه کامل را از ابتدا خواهید ساخت. در پایان، یک هوش مصنوعی صوتی کارآمد خواهید داشت که میتواند:
- پذیرش ورودی متن، صدا و تصویر
- با متن جاری یا گفتار طبیعی پاسخ دهید
- وقفهها را به طور طبیعی مدیریت کنید
- از ابزارهایی مانند جستجوی گوگل استفاده کنید
برخلاف خواندن مستندات، شما هر جزء را گام به گام بررسی خواهید کرد و خواهید فهمید که چگونه قطعات در حین ساخت تدریجی به هم متصل میشوند.

رویکرد یادگیری
ما از یک رویکرد ساخت تدریجی پیروی میکنیم:
- مرحله ۱: سرور وب سوکت مینیمال → پاسخ "Hello World"
- مرحله ۲: اضافه کردن عامل → تعریف رفتار و ابزارهای هوش مصنوعی
- مرحله ۳: مقداردهی اولیه برنامه → سرویس اجراکننده و جلسه
- مرحله ۴: مقداردهی اولیه جلسه → RunConfig و LiveRequestQueue
- مرحله ۵: وظیفه بالادستی → ارتباط از کلاینت به صف
- مرحله 6: وظیفه پاییندستی → رویدادها برای جریانسازی کلاینت
- مرحله ۷: افزودن صدا → ورودی و خروجی صدا
- مرحله ۸: اضافه کردن ورودی تصویر → هوش مصنوعی چندوجهی
هر مرحله بر اساس مرحله قبلی بنا میشود. شما بعد از هر مرحله آزمایش خواهید کرد تا پیشرفت خود را ببینید.
پیشنیازها
- حساب Google Cloud با قابلیت پرداخت
- دانش پایه پایتون و برنامهنویسی غیرهمزمان (async/await)
- مرورگر وب با دسترسی به میکروفون و دوربین وب (کروم توصیه میشود)
تخمین زمان
- کل کارگاه : حدود ۹۰ دقیقه
- نسخه سریع (فقط مراحل ۱ تا ۴): حدود ۴۵ دقیقه
۳. کارگاه آموزشی
کارگاه را با دنبال کردن دستورالعملهای اینجا شروع کنید:
https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md
۴. جمعبندی و نکات کلیدی
آنچه ساختید
شما یک برنامه هوش مصنوعی استریمینگ دوطرفه کامل را از ابتدا ساختید. این برنامه ورودی متن، صدا و تصویر را با پاسخهای استریمینگ بلادرنگ مدیریت میکند - پایه و اساس ساخت هوش مصنوعی مکالمهای آماده برای تولید.
کامپوننت | چه کاری انجام میدهد؟ | قدم |
عامل | شخصیت، دستورالعملها و ابزارهای موجود هوش مصنوعی (مثلاً جستجوی گوگل) را تعریف میکند. | مرحله ۲ |
سرویس جلسه | تاریخچه مکالمات را در طول اتصال مجدد حفظ میکند | مرحله ۳ |
دونده | چرخه حیات استریمینگ را هماهنگ میکند، عامل را به Live API متصل میکند | مرحله ۳ |
اجرای پیکربندی | پیکربندی نحوه پاسخ (متن/صوت)، رونویسی، از سرگیری جلسه | مرحله ۴ |
صف درخواست زنده | رابط یکپارچه برای ارسال متن، صدا و تصاویر به مدل | مرحله ۵ |
اجرا_زنده() | مولد ناهمگام که رویدادهای استریمینگ را از مدل تولید میکند | مرحله ۶ |
ارسال_زمان_واقعی() | حبابهای صوتی/تصویری را برای ورودی جریان مداوم ارسال میکند. | مرحله ۷-۸ |
منابع
با این منابع رسمی به یادگیری ادامه دهید. راهنمای جعبه ابزار ADK Gemini Live API پوشش عمیقتری از همه موارد موجود در این کارگاه ارائه میدهد.
منبع | آدرس اینترنتی |
مستندات ADK | |
راهنمای جعبه ابزار ADK Gemini Live API | |
رابط برنامهنویسی زنده Gemini | |
رابط برنامهنویسی زنده Vertex AI | https://cloud.google.com/vertex-ai/generative-ai/docs/live-api |
مخزن نمونههای ADK |