ADK জেমিনি লাইভ API টুলকিটের পরিচিতি

১. বিড়ি-স্ট্রিমিং বলতে কী বোঝায়?

দ্বিমুখী স্ট্রিমিং (বিডি-স্ট্রিমিং) আপনার অ্যাপ্লিকেশন এবং এআই মডেলের মধ্যে একযোগে দ্বিমুখী যোগাযোগ সক্ষম করে। প্রচলিত অনুরোধ-প্রতিক্রিয়া পদ্ধতির বিপরীতে, যেখানে আপনি একটি সম্পূর্ণ বার্তা পাঠান এবং একটি সম্পূর্ণ উত্তরের জন্য অপেক্ষা করেন, বিডি-স্ট্রিমিং নিম্নলিখিত সুবিধাগুলো দেয়:

  • অবিচ্ছিন্ন ইনপুট : অডিও, ভিডিও বা টেক্সট ধারণ করার সাথে সাথেই তা স্ট্রিম করুন।
  • রিয়েল-টাইম আউটপুট : এআই প্রতিক্রিয়াগুলো তৈরি হওয়ার সাথে সাথেই গ্রহণ করুন।
  • স্বাভাবিক বাধা : ব্যবহারকারীরা মানুষের কথোপকথনের মতোই এআই-এর উত্তরের মাঝপথে তাকে বাধা দিতে পারেন।

6e82a81aa114e116.png

কেন এটি গুরুত্বপূর্ণ: বিডি-স্ট্রিমিং এআই কথোপকথনকে স্বাভাবিক করে তোলে। আপনি যখন প্রাসঙ্গিক তথ্য দিচ্ছেন, তখনও এআই উত্তর দিতে পারে এবং আপনার যথেষ্ট শোনা হয়ে গেলে আপনি তাকে থামিয়ে দিতে পারেন—ঠিক যেন একজন মানুষের সাথে কথা বলছেন।

ADK Gemini Live API Toolkit বলতে কী বোঝায়?

এজেন্ট ডেভেলপমেন্ট কিট (ADK) জেমিনি লাইভ এপিআই (Gemini Live API)- এর উপর একটি উচ্চ-স্তরের অ্যাবস্ট্রাকশন প্রদান করে, যা রিয়েল-টাইম স্ট্রিমিংয়ের জটিল অভ্যন্তরীণ প্রক্রিয়াগুলো পরিচালনা করে, ফলে আপনি আপনার অ্যাপ্লিকেশন তৈরিতে মনোযোগ দিতে পারেন।

b0066935f4c245d2.png

ADK Gemini Live API Toolkit পরিচালনা করে:

  • সংযোগের জীবনচক্র : ওয়েবসকেট সংযোগ স্থাপন, রক্ষণাবেক্ষণ এবং পুনরুদ্ধার
  • বার্তা রাউটিং : অডিও, টেক্সট এবং ছবিকে সঠিক হ্যান্ডলারদের কাছে পাঠানো।
  • সেশনের অবস্থা : পুনঃসংযোগের পরেও কথোপকথনের ইতিহাস অপরিবর্তিত থাকা
  • টুল এক্সিকিউশন : ফাংশন কল থেকে স্বয়ংক্রিয়ভাবে কল করা এবং পুনরায় শুরু করা

সরাসরি লাইভ এপিআই-এর পরিবর্তে এডিকে কেন?

আপনি সরাসরি জেমিনি লাইভ এপিআই (Gemini Live API)-এর উপর ভিত্তি করে আপনার অ্যাপ্লিকেশন তৈরি করতে পারেন, কিন্তু এডিকে (ADK) জটিল পরিকাঠামোটি পরিচালনা করে, ফলে আপনি আপনার অ্যাপ্লিকেশনের উপর মনোযোগ দিতে পারেন।

61c685c2703e3aac.png

সক্ষমতা

কাঁচা লাইভ এপিআই

ADK Gemini Live API টুলকিট

এজেন্ট ফ্রেমওয়ার্ক

একেবারে গোড়া থেকে তৈরি করুন

সরঞ্জাম, মূল্যায়ন, নিরাপত্তা সহ একক/এজেন্ট

টুল এক্সিকিউশন

ম্যানুয়াল হ্যান্ডলিং

স্বয়ংক্রিয় সমান্তরাল নির্বাহ

সংযোগ ব্যবস্থাপনা

ম্যানুয়াল পুনঃসংযোগ

স্বচ্ছ অধিবেশন পুনরায় শুরু

ইভেন্ট মডেল

কাস্টম কাঠামো

একীভূত, টাইপ করা ইভেন্ট অবজেক্ট

অ্যাসিঙ্ক ফ্রেমওয়ার্ক

ম্যানুয়াল সমন্বয়

LiveRequestQueue + run_live() জেনারেটর

সেশন স্থায়িত্ব

ম্যানুয়াল বাস্তবায়ন

বিল্ট-ইন SQL, Vertex AI, অথবা ইন-মেমরি

মূল কথা হলো: ADK কয়েক মাসের পরিকাঠামো উন্নয়নকে কয়েক দিনের অ্যাপ্লিকেশন উন্নয়নে কমিয়ে আনে। আপনি স্ট্রিমিং কীভাবে কাজ করে তার পরিবর্তে আপনার এজেন্ট কী করে, সেদিকেই মনোযোগ দেন।

বাস্তব-জগতের ব্যবহারের উদাহরণ

  • গ্রাহক পরিষেবা : একজন গ্রাহক ফোন ক্যামেরার মাধ্যমে তার ত্রুটিপূর্ণ কফি মেশিনটি দেখিয়ে সমস্যাটি ব্যাখ্যা করেন। এআই মডেল এবং ত্রুটির স্থান শনাক্ত করে, এবং গ্রাহক কথোপকথনের মাঝেই বিস্তারিত তথ্য সংশোধন করার জন্য কথা থামাতে পারেন।
  • ই-কমার্স : একজন ক্রেতা তার ওয়েবক্যামের সামনে পোশাক তুলে ধরে জিজ্ঞাসা করেন, "এই প্যান্টের সাথে মানানসই জুতো খুঁজে দিন।" এজেন্ট পোশাকটির স্টাইল বিশ্লেষণ করে এবং সাবলীলভাবে কথোপকথন চালিয়ে যান: "আমাকে আরও ক্যাজুয়াল কিছু দেখান" → "এই স্নিকারগুলো কেমন হয়?" → "সাইজ ১০-এর নীল জুতোটা যোগ করুন।"
  • ফিল্ড সার্ভিস : স্মার্ট গ্লাস পরা একজন টেকনিশিয়ান তার দৃশ্য স্ট্রিম করার সময় জিজ্ঞাসা করেন, "আমি এই কম্প্রেসার থেকে একটি অদ্ভুত শব্দ শুনতে পাচ্ছি—আপনি কি এটি শনাক্ত করতে পারবেন?" এজেন্ট হ্যান্ডসফ্রি পদ্ধতিতে ধাপে ধাপে নির্দেশনা প্রদান করেন।
  • স্বাস্থ্যসেবা : একজন রোগী তার ত্বকের অবস্থার একটি লাইভ ভিডিও শেয়ার করেন। এআই প্রাথমিক বিশ্লেষণ করে, স্পষ্টীকরণের জন্য প্রশ্ন জিজ্ঞাসা করে এবং পরবর্তী পদক্ষেপের বিষয়ে নির্দেশনা দেয়।
  • আর্থিক পরিষেবা : একজন গ্রাহক তার পোর্টফোলিও পর্যালোচনা করেন এবং এজেন্ট চার্ট প্রদর্শন করে ও ট্রেডের প্রভাব অনুকরণ করে দেখান। গ্রাহক নির্দিষ্ট সংবাদ নিবন্ধ নিয়ে আলোচনা করার জন্য তার স্ক্রিন শেয়ার করতে পারেন।

শপার্স কনসিয়ার্জ ২ ডেমো : ই-কমার্সের জন্য একটি রিয়েল-টাইম এজেন্টিক RAG ডেমো, যা ADK জেমিনি লাইভ এপিআই টুলকিট এবং ভার্টেক্স এআই ভেক্টর সার্চ, এমবেডিংস, ফিচার স্টোর ও র‍্যাঙ্কিং এপিআই দিয়ে তৈরি।

শপার্স কনসিয়ার্জ ২ ডেমো

আরও জানুন: ডেভেলপার গাইড

বিস্তারিত ও গভীর বিশ্লেষণের জন্য, ADK Gemini Live API Toolkit Developer Guide দেখুন — এটি একটি ৫-পর্বের সিরিজ যা আর্কিটেকচার থেকে প্রোডাকশন ডেপ্লয়মেন্ট পর্যন্ত সবকিছু তুলে ধরেছে:

অংশ

ফোকাস

আপনি যা শিখবেন

পর্ব ১

ফাউন্ডেশন

আর্কিটেকচার, লাইভ এপিআই প্ল্যাটফর্ম, ৪-পর্যায়ের জীবনচক্র

পর্ব ২

উজানে

LiveRequestQueue-এর মাধ্যমে টেক্সট, অডিও, ভিডিও পাঠানো

পর্ব ৩

নিম্নধারা

ইভেন্ট হ্যান্ডলিং, টুল এক্সিকিউশন, মাল্টি-এজেন্ট ওয়ার্কফ্লো

পর্ব ৪

কনফিগারেশন

সেশন ব্যবস্থাপনা, কোটা, উৎপাদন নিয়ন্ত্রণ

পর্ব ৫

মাল্টিমোডাল

অডিও স্পেসিফিকেশন, মডেল আর্কিটেকচার, উন্নত বৈশিষ্ট্য

২. কর্মশালার সংক্ষিপ্ত বিবরণ

আপনি যা তৈরি করবেন

এই হাতে-কলমে কর্মশালায়, আপনি একেবারে শুরু থেকে একটি সম্পূর্ণ দ্বিমুখী স্ট্রিমিং এআই অ্যাপ্লিকেশন তৈরি করবেন। কর্মশালা শেষে, আপনার কাছে একটি কার্যকরী ভয়েস এআই থাকবে যা নিম্নলিখিত কাজগুলো করতে পারবে:

  • টেক্সট, অডিও এবং ছবি ইনপুট গ্রহণ করুন
  • চলমান টেক্সট বা স্বাভাবিক কথাবার্তার মাধ্যমে উত্তর দিন।
  • বাধাগুলো স্বাভাবিকভাবে সামলান।
  • গুগল সার্চের মতো টুল ব্যবহার করুন

ডকুমেন্টেশন পড়ার থেকে ভিন্নভাবে, আপনি প্রতিটি উপাদান ধাপে ধাপে পরীক্ষা করবেন এবং ক্রমান্বয়ে তৈরি করার সাথে সাথে অংশগুলো কীভাবে একে অপরের সাথে যুক্ত হয় তা বুঝতে পারবেন।

ADK Gemini লাইভ এপিআই টুলকিট ডেমো

শেখার পদ্ধতি

আমরা একটি ক্রমবর্ধমান নির্মাণ পদ্ধতি অনুসরণ করি:

  • ধাপ ১: ন্যূনতম ওয়েবসকেট সার্ভার → "হ্যালো ওয়ার্ল্ড" প্রতিক্রিয়া
  • ধাপ ২: এজেন্ট যোগ করুন → এআই-এর আচরণ এবং টুলস নির্ধারণ করুন
  • ধাপ ৩: অ্যাপ্লিকেশন প্রারম্ভিককরণ → রানার এবং সেশন পরিষেবা
  • ধাপ ৪: সেশন প্রারম্ভিককরণ → রানকনফিগ এবং লাইভরিকোয়েস্টকিউ
  • ধাপ ৫: আপস্ট্রিম টাস্ক → ক্লায়েন্ট থেকে কিউ-তে যোগাযোগ
  • ধাপ ৬: পরবর্তী কাজ → ক্লায়েন্টে ইভেন্ট স্ট্রিমিং
  • ধাপ ৭: অডিও যোগ করুন → ভয়েস ইনপুট এবং আউটপুট
  • ধাপ ৮: ছবির ইনপুট যোগ করুন → মাল্টিমোডাল এআই

প্রতিটি ধাপ পূর্ববর্তী ধাপের উপর ভিত্তি করে গড়ে ওঠে। আপনার অগ্রগতি দেখার জন্য প্রতিটি ধাপের পরে পরীক্ষা করতে হবে।

পূর্বশর্ত

  • বিলিং সক্রিয় করা গুগল ক্লাউড অ্যাকাউন্ট
  • পাইথন এবং অ্যাসিঙ্ক প্রোগ্রামিং (async/await) এর প্রাথমিক জ্ঞান
  • মাইক্রোফোন এবং ওয়েব ক্যামেরা অ্যাক্সেস সহ ওয়েব ব্রাউজার (ক্রোম সুপারিশকৃত)

আনুমানিক সময়

  • সম্পূর্ণ কর্মশালা : প্রায় ৯০ মিনিট
  • সংক্ষিপ্ত সংস্করণ (শুধুমাত্র ধাপ ১-৪): প্রায় ৪৫ মিনিট

৩. কর্মশালা

এখানে দেওয়া নির্দেশাবলী অনুসরণ করে কর্মশালাটি শুরু করুন:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

৪. উপসংহার ও মূল শিক্ষাসমূহ

আপনি যা তৈরি করেছেন

আপনি একেবারে শূন্য থেকে একটি সম্পূর্ণ দ্বিমুখী স্ট্রিমিং এআই অ্যাপ্লিকেশন তৈরি করেছেন। অ্যাপ্লিকেশনটি রিয়েল-টাইম স্ট্রিমিং প্রতিক্রিয়াসহ টেক্সট, ভয়েস এবং ইমেজ ইনপুট গ্রহণ করতে পারে—যা প্রোডাকশন-রেডি কনভারসেশনাল এআই তৈরির ভিত্তি।

উপাদান

এটি যা করে

ধাপ

এজেন্ট

এআই-এর ব্যক্তিত্ব, নির্দেশাবলী এবং উপলব্ধ সরঞ্জাম (যেমন, গুগল সার্চ) সংজ্ঞায়িত করে।

ধাপ ২

সেশনসার্ভিস

পুনঃসংযোগ জুড়ে কথোপকথনের ইতিহাস টিকে থাকে

ধাপ ৩

দৌড়বিদ

স্ট্রিমিং লাইফসাইকেল পরিচালনা করে, এজেন্টকে লাইভ এপিআই-এর সাথে সংযুক্ত করে

ধাপ ৩

রানকনফিগ

প্রতিক্রিয়ার ধরণ (টেক্সট/অডিও), ট্রান্সক্রিপশন, সেশন পুনরায় শুরু করা কনফিগার করে।

ধাপ ৪

লাইভ অনুরোধ সারি

মডেলে টেক্সট, অডিও এবং ছবি পাঠানোর জন্য সমন্বিত ইন্টারফেস

ধাপ ৫

রান_লাইভ()

অ্যাসিঙ্ক জেনারেটর যা মডেল থেকে স্ট্রিমিং ইভেন্ট প্রদান করে

ধাপ ৬

send_realtime()

ক্রমাগত স্ট্রিমিং ইনপুটের জন্য অডিও/ইমেজ ব্লব পাঠায়

ধাপ ৭-৮

সম্পদ

এই অফিসিয়াল রিসোর্সগুলো থেকে শেখা চালিয়ে যান। ADK Gemini Live API Toolkit Guide-এ এই ওয়ার্কশপের সমস্ত বিষয় আরও বিশদভাবে আলোচনা করা হয়েছে।

সম্পদ

ইউআরএল

ADK ডকুমেন্টেশন

https://google.github.io/adk-docs/

ADK জেমিনি লাইভ এপিআই টুলকিট গাইড

https://google.github.io/adk-docs/streaming/dev-guide/

জেমিনি লাইভ এপিআই

https://ai.google.dev/gemini-api/docs/live

ভার্টেক্স এআই লাইভ এপিআই

https://cloud.google.com/vertex-ai/generative-ai/docs/live-api

ADK নমুনা সংগ্রহস্থল

https://github.com/google/adk-samples