ডেভেলপারদের জন্য জেমিনি

১. ভূমিকা 👋

35807388b800fbe0.png সম্পর্কে

এই কোডল্যাবে, আপনি একজন ডেভেলপার হিসেবে জেমিনি ইকোসিস্টেম সম্পর্কে আপনার যা জানা দরকার তা শিখবেন। আরও স্পষ্ট করে বলতে গেলে, আপনি বিভিন্ন জেমিনি মডেল, জেমিনি দ্বারা চালিত বিভিন্ন টুল, জেমিনির সাথে একীভূত করার জন্য গুগল জেন এআই এসডিকে সম্পর্কে জানতে পারবেন। আপনি জেমিনির বিভিন্ন বৈশিষ্ট্য যেমন এর দীর্ঘ প্রসঙ্গ, চিন্তাভাবনা মোড, স্থানিক বোঝাপড়া, লাইভ এপিআই, নেটিভ ইমেজ এবং অডিও আউটপুট এবং আরও অনেক কিছু অন্বেষণ করতে পারবেন।

এই কোডল্যাবটি শেষ করার পর, আপনার জেমিনি ইকোসিস্টেম সম্পর্কে একটি দৃঢ় ধারণা থাকা উচিত!

💡তুমি যা শিখবে

  • বিভিন্ন জেমিনি মডেল।
  • জেমিনি মডেল দ্বারা চালিত সরঞ্জাম।
  • গুগল জেন এআই এসডিকে ব্যবহার করে জেমিনির সাথে কীভাবে সংহত করবেন।
  • মিথুন রাশির দীর্ঘ প্রেক্ষাপট জানালা।
  • মিথুন রাশির চিন্তাভাবনা।
  • গুগল সার্চ, গুগল ম্যাপের মতো বিভিন্ন বিল্ট-ইন টুল।
  • ইন্টারঅ্যাকশন API ব্যবহার করে গবেষণা এজেন্টদের সাথে কীভাবে ইন্টারঅ্যাক্ট করবেন।
  • ছবি এবং টেক্সট-টু-স্পিচ জেনারেশন।
  • মিথুন রাশির স্থানিক বোধগম্যতা।
  • রিয়েল-টাইম ভয়েস এবং ভিডিও ইন্টারঅ্যাকশনের জন্য লাইভ API।

⚠️ আপনার যা প্রয়োজন হবে

  • গুগল এআই স্টুডিও নমুনার জন্য একটি API কী।
  • ভার্টেক্স এআই নমুনার জন্য বিলিং সক্ষম করা একটি গুগল ক্লাউড প্রকল্প।
  • আপনার স্থানীয় ডেভেলপমেন্ট এনভায়রনমেন্ট অথবা গুগল ক্লাউডে ক্লাউড শেল এডিটর।

২. মিথুন পরিবার 🫂

জেমিনি হল গুগলের এআই মডেল যা যেকোনো ধারণাকে বাস্তবে রূপ দেয়। এটি মাল্টিমোডাল বোঝাপড়া এবং এজেন্টিক এবং ভাইব কোডিংয়ের জন্য একটি দুর্দান্ত মডেল - সবকিছুই অত্যাধুনিক যুক্তির ভিত্তিতে তৈরি। জেমিনি মডেলের একটি দ্রুত সারসংক্ষেপের জন্য আপনি এই ভিডিওটি দেখতে পারেন:

জেমিনি কেবল একজন মডেল নন। এটি গুগলের পণ্যগুলিতে ব্যবহৃত একটি ছাতা ব্র্যান্ডও।

যা জেমিনি মডেল ব্যবহার করে। গ্রাহক-কেন্দ্রিক জেমিনি অ্যাপ এবং নোটবুকএলএম থেকে শুরু করে ডেভেলপার-কেন্দ্রিক এআই স্টুডিও থেকে শুরু করে গুগল ক্লাউডের এন্টারপ্রাইজ-কেন্দ্রিক ভার্টেক্স এআই পর্যন্ত বিভিন্ন ধরণের জেমিনি পণ্য রয়েছে। জেমিনি দ্বারা চালিত জেমিনি সিএলআই এবং গুগল অ্যান্টিগ্রাভিটির মতো ডেভেলপার সরঞ্জামও রয়েছে।

3ceb2752ccfbc149.jpeg সম্পর্কে

৩. জেমিনি চালিত সরঞ্জাম 🧰

আসুন সংক্ষেপে জেমিনি দ্বারা চালিত সরঞ্জামগুলি দেখে নেওয়া যাক।

জেমিনি অ্যাপ 💬

জেমিনি অ্যাপ ( gemini.google.com ) একটি চ্যাট-ভিত্তিক গ্রাহক অ্যাপ্লিকেশন। এটি জেমিনির সাথে যোগাযোগ করার সবচেয়ে সহজ উপায়। এতে গভীর গবেষণা, ছবি, ভিডিও, সঙ্গীত তৈরি এবং আরও অনেক কিছুর জন্য সরঞ্জাম রয়েছে। এতে সর্বশেষ জেমিনি মডেলের বিভিন্ন স্বাদও রয়েছে (দ্রুত, চিন্তাভাবনা, প্রো)। জেমিনি অ্যাপটি দৈনন্দিন ব্যবহারের জন্য উপযুক্ত।

d3800f85bafe9a4a.png

নোটবুকএলএম 📓

NotebookLM ( notebooklm.google.com ) একটি AI-চালিত গবেষণা অংশীদার। PDF, ওয়েবসাইট, YouTube ভিডিও, অডিও ফাইল, Google Docs, Google Slides এবং আরও অনেক কিছু আপলোড করুন এবং NotebookLM সেগুলি সারসংক্ষেপ করবে এবং বিষয়গুলির মধ্যে আকর্ষণীয় সংযোগ তৈরি করবে, যা সবই জেমিনির মাল্টিমোডাল বোঝার ক্ষমতার সর্বশেষ সংস্করণ দ্বারা চালিত। এটি আপনার আপলোড করা উৎস থেকে আকর্ষণীয় এবং আকর্ষণীয় অডিও ওভারভিউ, ভিডিও ওভারভিউ, ইনফোগ্রাফিক্স এবং আরও অনেক কিছু তৈরি করে।

4c3274795844251.png সম্পর্কে

গুগল এআই স্টুডিও 🎨

গুগল এআই স্টুডিও ( ai.dev ) হল জেমিনি দিয়ে তৈরি করার দ্রুততম উপায়। গুগল এআই স্টুডিওতে প্লেগ্রাউন্ড প্যানেল আপনাকে টেক্সট, ছবি, ভিডিও তৈরি করতে বিভিন্ন মডেল নিয়ে পরীক্ষা-নিরীক্ষা করতে এবং জেমিনি লাইভ এপিআই দিয়ে রিয়েল-টাইম ভয়েস এবং ভিডিও চেষ্টা করার সুযোগ দেয়। গুগল এআই স্টুডিওতে বিল্ড প্যানেল আপনাকে ওয়েব অ্যাপ্লিকেশনগুলিকে ভাইব-কোড করতে এবং সেগুলিকে ক্লাউডে স্থাপন করতে এবং গুগল ক্লাউডে রান করতে এবং কোডটি গিটহাবে পুশ করতে দেয়।

48fadc9d3d5f9500.png সম্পর্কে

ভার্টেক্স এআই স্টুডিও ☁️

Vertex AI হল Google Cloud-এ জেনারেটিভ AI তৈরি এবং ব্যবহারের জন্য একটি সম্পূর্ণরূপে পরিচালিত, একীভূত AI ডেভেলপমেন্ট প্ল্যাটফর্ম। Vertex AI Studio ( console.cloud.google.com/vertex-ai/studio ) আপনাকে এন্টারপ্রাইজ-প্রস্তুত জেনারেটিভ AI অ্যাপ্লিকেশন পরীক্ষা, সুরকরণ এবং স্থাপন করতে সহায়তা করে।

15b55a2b635d63e1.png সম্পর্কে

জেমিনি সিএলআই ⚙️

জেমিনি সিএলআই ( geminicli.com ) একটি ওপেন-সোর্স এআই এজেন্ট যা জেমিনির শক্তি সরাসরি আপনার টার্মিনালে নিয়ে আসে। এটি ডেভেলপার, ইঞ্জিনিয়ার, এসআরই এবং তার বাইরেরদের জন্য টার্মিনাল-প্রথম, এক্সটেনসিবল এবং শক্তিশালী টুল হিসেবে ডিজাইন করা হয়েছে। জেমিনি সিএলআই আপনার স্থানীয় পরিবেশের সাথে একীভূত হয়। এটি আপনার প্রকল্পের প্রেক্ষাপট বজায় রেখে ফাইলগুলি পড়তে এবং সম্পাদনা করতে, শেল কমান্ড কার্যকর করতে এবং ওয়েবে অনুসন্ধান করতে পারে।

b2a7f0bf377ac7b0.png সম্পর্কে

গুগল অ্যান্টিগ্র্যাভিটি 🚀

গুগল অ্যান্টিগ্রাভিটি ( antigravity.google ) একটি এজেন্টিক ডেভেলপমেন্ট প্ল্যাটফর্ম, যা IDE কে এজেন্ট-প্রথম যুগে রূপান্তরিত করে। অ্যান্টিগ্রাভিটি ডেভেলপারদের কর্মক্ষেত্র জুড়ে উচ্চতর, টাস্ক-ভিত্তিক স্তরে ম্যানেজিং এজেন্টদের পরিচালনা করতে সক্ষম করে, একই সাথে এর মূলে একটি পরিচিত AI IDE অভিজ্ঞতা বজায় রাখে।

অ্যান্টিগ্র্যাভিটি এজেন্টদের তাদের নিজস্ব পৃষ্ঠে নিষ্কাশন করে এবং সম্পাদক, টার্মিনাল এবং ব্রাউজার জুড়ে স্বায়ত্তশাসিতভাবে কাজ করার জন্য প্রয়োজনীয় সরঞ্জাম সরবরাহ করে যা যাচাইকরণ এবং উচ্চ-স্তরের যোগাযোগের উপর জোর দেয় কাজ এবং শিল্পকর্মের মাধ্যমে। এই ক্ষমতা এজেন্টদের আরও জটিল, এন্ড-টু-এন্ড সফ্টওয়্যার কাজ পরিকল্পনা এবং সম্পাদন করতে সক্ষম করে, যা বৈশিষ্ট্য তৈরি, UI পুনরাবৃত্তি এবং বাগ সংশোধন থেকে শুরু করে গবেষণা এবং প্রতিবেদন তৈরি পর্যন্ত উন্নয়নের সমস্ত দিককে উন্নত করে।

ee964351b100df93.png সম্পর্কে

এই টুলগুলি ডাউনলোড করে খেলতে দ্বিধা করবেন না। কোন টুলটি কখন ব্যবহার করবেন সে সম্পর্কে কিছু সাধারণ নির্দেশিকা এখানে দেওয়া হল:

  • যদি আপনি সবেমাত্র শুরু করেন, তাহলে সম্ভবত প্রশ্ন জিজ্ঞাসা করতে বা কিছু মৌলিক কোড তৈরি করতে জেমিনি অ্যাপ ব্যবহার করবেন।
  • যদি আপনি একটি ওয়েব অ্যাপ্লিকেশন ভাইব-কোডিং করেন, তাহলে সম্ভবত গুগল এআই স্টুডিওই আপনার পছন্দের টুল।
  • যদি আপনি আপনার স্থানীয় উন্নয়ন পরিবেশের প্রেক্ষাপট ব্যবহার করে একটি জটিল অ্যাপ্লিকেশন তৈরি করতে চান, তাহলে আপনি জেমিনি সিএলআই অথবা গুগল অ্যান্টিগ্রাভিটি বেছে নেবেন।
  • আপনি যদি গুগল ক্লাউড স্থাপন করতে চান অথবা ইতিমধ্যেই ব্যবহার করছেন এবং এন্টারপ্রাইজ লেভেল সাপোর্ট এবং ফিচার চান, তাহলে ভার্টেক্স এআই এবং এর স্টুডিও আপনার পছন্দেরটি।

অবশ্যই, আপনি এই টুলগুলিকে মিক্স এবং ম্যাচ করতে পারেন। উদাহরণস্বরূপ, AI স্টুডিওতে ভাইব কোডিং দিয়ে শুরু করুন GitHub এ পুশ করুন এবং তারপর কোডিং চালিয়ে যেতে Antigravity ব্যবহার করুন এবং তারপর Google Cloud এ স্থাপন করুন।

৪. মিথুন মডেল 🧠

জেমিনি মডেলগুলি প্রতি কয়েক মাস অন্তর নতুন সংস্করণের সাথে ক্রমাগত উন্নত হচ্ছে। আজ (ফেব্রুয়ারী ২০২৬) পর্যন্ত, গুগল ক্লাউডে ভার্টেক্স এআই-এর বৈশিষ্ট্যযুক্ত মডেলগুলি হল:

d2e4a116eaccf2fc.png

আরও অনেক সাধারণভাবে উপলব্ধ জেমিনি মডেল , প্রিভিউ জেমিনি মডেল , ওপেন জেমা মডেল , এম্বেডিং মডেল , ইমেজজেন মডেল , ভিও মডেল এবং আরও অনেক কিছু রয়েছে।

বিভিন্ন ব্যবহারের ক্ষেত্রে Vertex AI-তে উপলব্ধ প্রধান মডেলগুলি অন্বেষণ করতে Google Models ডকুমেন্টেশন পৃষ্ঠাটি একবার দেখুন।

৫. গুগল জেন এআই এসডিকে 📦

আপনার অ্যাপ্লিকেশনের সাথে জেমিনিকে একীভূত করতে, আপনি Google Gen AI SDK ব্যবহার করতে পারেন।

যেমনটি আমরা আগে আলোচনা করেছি, আপনি Google AI Studio অথবা Vertex AI Studio এর মাধ্যমে Gemini মডেলগুলি অ্যাক্সেস করতে পারেন। Google Gen AI SDK Google AI API এবং Google Cloud API উভয়ের মাধ্যমে Gemini মডেলগুলিকে একটি ইউনিফাইড ইন্টারফেস প্রদান করে। কিছু ব্যতিক্রম ছাড়া, একটি প্ল্যাটফর্মে চালিত কোড উভয় প্ল্যাটফর্মেই চলবে।

485e9a003d26f8d.png সম্পর্কে

গুগল জেন এআই এসডিকে বর্তমানে পাইথন , গো , নোড , জাভা এবং সি# সমর্থন করে।

উদাহরণস্বরূপ, পাইথনে গুগল এআই-তে আপনি জেমিনির সাথে এভাবে কথা বলবেন:

client = genai.Client(
  api_key=your-gemini-api-key)

response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="Why is the sky blue?")

Vertex AI তে Gemini-এর বিরুদ্ধে একই কাজ করার জন্য, আপনাকে কেবল ক্লায়েন্ট ইনিশিয়ালাইজেশন পরিবর্তন করতে হবে এবং বাকিটা একই রকম থাকবে:

client = genai.Client(
  vertexai=True,
  project=your-google-cloud-project,
  location="us-central1")

response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="Why is the sky blue?")

এই নমুনাগুলি নিজে চালানোর জন্য, আপনি github.com/meteatamel/genai-samples/tree/main/vertexai/gemini2/hello-world ওয়েবসাইটে main.py চালাতে পারেন।

৬. ইন্টারঅ্যাকশন API 🔄

ইন্টারঅ্যাকশন API (বিটা) হল জেমিনি মডেল এবং এজেন্টদের সাথে ইন্টারঅ্যাক্ট করার জন্য একটি নতুন ইউনিফাইড ইন্টারফেস। generateContent API-এর একটি উন্নত বিকল্প হিসেবে, এটি স্টেট ম্যানেজমেন্ট, টুল অর্কেস্ট্রেশন এবং দীর্ঘমেয়াদী কাজগুলিকে সহজ করে তোলে।

নতুন API এর সাথে আপনার মৌলিক মিথস্ক্রিয়া এভাবেই হবে:

interaction =  client.interactions.create(
    model="gemini-3-flash-preview",
    input="Tell me a short joke."
)
print(interaction.outputs[-1].text)

পূর্ববর্তী ইন্টারঅ্যাকশন থেকে ইন্টারঅ্যাকশন আইডিটি পাস করে আপনি একটি স্টেটফুল কথোপকথন করতে পারেন:

interaction1 = client.interactions.create(
    model="gemini-3-flash-preview",
    input="Hi, my name is Phil."
)
print(f"Model: {interaction1.outputs[-1].text}")

interaction2 = client.interactions.create(
    model="gemini-3-flash-preview",
    input="What is my name?",
    previous_interaction_id=interaction1.id
)
print(f"Model: {interaction2.outputs[-1].text}")

ইন্টারঅ্যাকশন API এজেন্ট তৈরি এবং তাদের সাথে ইন্টারঅ্যাক্ট করার জন্য ডিজাইন করা হয়েছে এবং এতে ফাংশন কলিং, বিল্ট-ইন টুল, স্ট্রাকচার্ড আউটপুট এবং মডেল কনটেক্সট প্রোটোকল (MCP) এর জন্য সমর্থন রয়েছে। ডিপ রিসার্চ এজেন্টের সাথে এটি কীভাবে ব্যবহার করা যেতে পারে তা দেখতে, নীচের এজেন্ট 🤖 ধাপটি দেখুন।

এই নমুনাগুলি নিজে চালানোর জন্য, আপনি github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api ওয়েবসাইটে main.py চালাতে পারেন।

৭. লম্বা প্রসঙ্গ উইন্ডো 🪟

অনেক জেমিনি মডেলে ১০ লক্ষ বা তার বেশি টোকেনের বৃহৎ কনটেক্সট উইন্ডো থাকে। ঐতিহাসিকভাবে, বৃহৎ ল্যাঙ্গুয়েজ মডেল (LLM) এক সময়ে মডেলটিতে পাঠানো যেতে পারে এমন টেক্সট (বা টোকেন) এর পরিমাণ দ্বারা উল্লেখযোগ্যভাবে সীমিত ছিল। জেমিনি লং কনটেক্সট উইন্ডো অনেক নতুন ব্যবহারের কেস এবং ডেভেলপার প্যারাডিজম আনলক করে।

3fb7123fc45e7cdf.png সম্পর্কে

দীর্ঘ প্রসঙ্গ উইন্ডোটি কার্যকর দেখতে, আপনি Vertex AI Studio Prompt Gallery- এ যেতে পারেন এবং Extract Video Chapters প্রম্পটটি বেছে নিতে পারেন। এই প্রম্পটটি ভিডিও বিষয়বস্তুকে অধ্যায়গুলিতে ভাগ করে এবং প্রতিটি অধ্যায়ের জন্য একটি সারাংশ প্রদান করে।

সরবরাহকৃত ভিডিওটি দিয়ে এটি চালানোর পরে, আপনি নিম্নলিখিতগুলির মতো একটি আউটপুট পাবেন:

[
  {
    "timecode": "00:00",
    "chapterSummary": "The video opens with scenic views of Rio de Janeiro, introducing the \"Marvelous City\" and its famous beaches like Ipanema and Copacabana, before pivoting to the existence of the favelas."
  },
  {
    "timecode": "00:20",
    "chapterSummary": "The narrator describes the favelas, home to one in five Rio residents, highlighting that while often associated with crime and poverty, this is only a small part of their story."
  },
  {
    "timecode": "00:36",
    "chapterSummary": "Google introduces its project to map the favelas, emphasizing that providing addresses to these uncharted areas is a crucial step in giving residents an identity."
  },
  {
    "timecode": "00:43",
    "chapterSummary": "The video concludes by focusing on the people of the favelas, inviting viewers to go beyond the map and explore their world through a 360-degree experience."
  }
]

এটি কেবল মিথুন রাশির দীর্ঘ প্রসঙ্গ জানালার জন্যই সম্ভব!

৮. চিন্তাভাবনা মোড 🧠

জেমিনি মডেলগুলি একটি অভ্যন্তরীণ চিন্তা প্রক্রিয়া ব্যবহার করে যা জটিল কাজের জন্য তাদের যুক্তিকে উল্লেখযোগ্যভাবে উন্নত করে। চিন্তাভাবনার স্তর (জেমিনি 3) এবং বাজেট (জেমিনি 2.5) চিন্তাভাবনার আচরণ নিয়ন্ত্রণ করে। মডেলের কাঁচা চিন্তাভাবনা দেখতে আপনি include_thoughts পতাকাটিও সক্ষম করতে পারেন।

চিন্তাভাবনার ধরণটি কীভাবে কার্যকর হয় তা দেখতে, আসুন গুগল এআই স্টুডিও ( ai.dev ) খুলি এবং একটি নতুন চ্যাট শুরু করি। ডান পাশের প্যানেলে, আপনি চিন্তাভাবনার স্তর সেট করতে পারেন:

382b0c617ab5940e.png সম্পর্কে

উপরের ডানদিকে Get code বোতামে ক্লিক করলে, আপনি কোডে চিন্তাভাবনার স্তর কীভাবে সেট করতে পারেন তাও দেখতে পাবেন, যা এরকম কিছু:

response = client.models.generate_content(
    model="gemini-3-pro-preview",
    contents="How does AI work?",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
          thinking_level="low",
          include_thoughts=True
        )
    ),
)

মডেলের আচরণ দেখার জন্য বিভিন্ন প্রম্পট এবং বিভিন্ন চিন্তাভাবনার স্তর নিয়ে খেলুন।

৯. সরঞ্জাম 🧰

জেমিনিতে গুগল সার্চ, গুগল ম্যাপস, কোড এক্সিকিউশন, কম্পিউটার ব্যবহার, ফাইল সার্চ এবং আরও অনেক কিছুর মতো বিল্ট-ইন টুল রয়েছে। আপনি ফাংশন কলিং এর মাধ্যমে আপনার কাস্টম টুলগুলিও সংজ্ঞায়িত করতে পারেন। আসুন সংক্ষেপে সেগুলি কীভাবে ব্যবহার করবেন তা দেখে নেওয়া যাক।

গুগল সার্চ 🔎

আরও সঠিক, হালনাগাদ এবং প্রাসঙ্গিক প্রতিক্রিয়ার জন্য আপনি Google অনুসন্ধানের ফলাফলে মডেল প্রতিক্রিয়াগুলি গ্রাউন্ড করতে পারেন।

Vertex AI Studio ( console.cloud.google.com/vertex-ai/studio ), অথবা Google AI Studio ( ai.dev ) তে, আপনি একটি নতুন চ্যাট শুরু করতে পারেন এবং নিশ্চিত করতে পারেন যে Google Search গ্রাউন্ডিং বন্ধ আছে:

fb694a21e7eb7d5a.png সম্পর্কে

তারপর, আপনি আপনার অবস্থানের আজকের আবহাওয়া সম্পর্কে একটি প্রশ্ন জিজ্ঞাসা করতে পারেন। উদাহরণস্বরূপ:

How's the weather in London today?

মডেলটির সর্বশেষ তথ্যে অ্যাক্সেস না থাকার কারণে আপনি সাধারণত একদিন আগে একটি প্রতিক্রিয়া পান। উদাহরণস্বরূপ:

In London today (Friday, May 24, 2025), the weather is a bit of a mixed bag, typical for late May.

এখন, গুগল সার্চ গ্রাউন্ডিং সক্ষম করুন এবং একই প্রশ্ন জিজ্ঞাসা করুন। গ্রাউন্ডিং উৎসের লিঙ্ক সহ আপনার হালনাগাদ আবহাওয়ার তথ্য পাওয়া উচিত:

In London today (Wednesday, February 11, 2026), the weather is cool and mostly cloudy with a chance of light rain.

আপনার কোডে গুগল সার্চ গ্রাউন্ডিং এভাবেই থাকবে। গ্রাউন্ডিং নমুনা পেতে আপনি ভার্টেক্স এআই স্টুডিওতে কোড বোতামে ক্লিক করতে পারেন:

google_search_tool = Tool(google_search=GoogleSearch())
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="How's the weather like today in London?",
    config=GenerateContentConfig(tools=[google_search_tool])
)

গুগল ম্যাপস 🗺️

আপনি গুগল ম্যাপের সাহায্যে প্রতিক্রিয়াগুলির গ্রাউন্ড মডেল তৈরি করতে পারেন, যার ২৫০ মিলিয়নেরও বেশি স্থানের তথ্যে অ্যাক্সেস রয়েছে।

এটিকে কার্যকরভাবে দেখতে, আপনি Vertex AI স্টুডিওতে মডেল সেটিংসের গ্রাউন্ডিং বিভাগের অধীনে Google Search এর পরিবর্তে Google Maps বেছে নিতে পারেন এবং এমন একটি প্রশ্ন জিজ্ঞাসা করতে পারেন যার জন্য Maps ডেটা প্রয়োজন, উদাহরণস্বরূপ:

Can you show me some Greek restaurants and their map coordinates near me?

এর কোডটি দেখতে এরকম কিছু:

google_maps_tool = Tool(google_maps=GoogleMaps())
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=""What are the best restaurants near here?",
    config=GenerateContentConfig(tools=[google_maps_tool]),
       # Optional: Provide location context (this is in Los Angeles)
        tool_config=ToolConfig(
          retrieval_config=types.RetrievalConfig(
            lat_lng=types.LatLng(
                latitude=34.050481, longitude=-118.248526))),
)

কোড এক্সিকিউশন 🧑‍💻

জেমিনি সমর্থিত লাইব্রেরির তালিকা (pandas, numpy, PyPDF2, ইত্যাদি) দিয়ে পাইথন কোড তৈরি এবং চালাতে পারে। এটি এমন অ্যাপ্লিকেশনগুলির জন্য কার্যকর যারা কোড-ভিত্তিক যুক্তি থেকে উপকৃত হয় (যেমন সমীকরণ সমাধান করা)।

এটি চেষ্টা করার জন্য, Google AI Studio-তে স্যুইচ করুন, একটি নতুন চ্যাট শুরু করুন এবং নিশ্চিত করুন যে Code execution টগল চালু আছে। তারপর, একটি প্রশ্ন জিজ্ঞাসা করুন যেখানে কোড এক্সিকিউশন টুলটি কার্যকর হতে পারে। উদাহরণস্বরূপ:

What is the sum of the first 50 prime numbers? 

জেমিনিকে কিছু পাইথন কোড তৈরি করে রান করাতে হবে। শেষ পর্যন্ত, সঠিক উত্তর হল 5117।

আপনি কোডটি থেকে কোড এক্সিকিউশন টুলটি নিম্নরূপে চালাতে পারেন:

code_execution_tool = Tool(code_execution=ToolCodeExecution())
response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="What is the sum of the first 50 prime numbers?",
  config=GenerateContentConfig(
    tools=[code_execution_tool],
    temperature=0))

কম্পিউটার ব্যবহার 🖥️

জেমিনি কম্পিউটার ইউজ মডেল (প্রিভিউ) আপনাকে কাজগুলি স্বয়ংক্রিয় করার জন্য ব্রাউজার নিয়ন্ত্রণ এজেন্ট তৈরি করতে সক্ষম করে। এটি এই লুপে কাজ করে:

de6edbd0163e6ee3.png

এটিকে কার্যকরভাবে দেখতে, আপনি github.com/google-gemini/computer-use-previewmain.py চালাতে পারেন।

উদাহরণস্বরূপ, আপনি গুগল এআই স্টুডিও থেকে আপনার API কী পেতে পারেন এবং জেমিনিকে আপনার জন্য ফ্লাইট অনুসন্ধান করতে বলতে পারেন:

export GEMINI_API_KEY=your-api-key

python main.py --query "Find me top 5 fights sorted by price with the following constraints:

Flight site to use: www.google.com/travel/flights
From: London
To: Larnaca
One-way or roundtrip: One way
Date to leave: Sometime next week
Date to return: N/A
Travel preferences:
-Direct flights
-No flights before 10am
-Carry-on luggage"

তুমি দেখতে পাবে জেমিনি একটি ছদ্মবেশী ব্রাউজার খুলে তোমার জন্য ফ্লাইট খোঁজা শুরু করবে!

ফাইল অনুসন্ধান 📁

ফাইল সার্চ টুলটি অনায়াসে পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) সক্ষম করে। আপনার ফাইলগুলি আপলোড করুন এবং এটি আপনার জন্য চাঙ্কিং, এম্বেডিং, পুনরুদ্ধারের সমস্ত RAG বিবরণ করে।

এটিকে কার্যকরভাবে দেখতে, আপনি github.com/meteatamel/genai-beyond-basics/blob/main/samples/grounding/file-search-toolmain.py চালাতে পারেন।

গুগল এআই স্টুডিও থেকে আপনার API কীটি পান এবং একটি ফাইল অনুসন্ধান স্টোর তৈরি করুন:

export GEMINI_API_KEY=your-gemini-api-key

python main.py create_store my-file-search-store

দোকানে একটি পিডিএফ আপলোড করুন:

python main.py upload_to_store fileSearchStores/myfilesearchstore-5a9x71ifjge9 cymbal-starlight-2024.pdf

দোকানের দিকে নির্দেশিত PDF সম্পর্কে একটি প্রশ্ন জিজ্ঞাসা করুন:

python main.py generate_content "What's the cargo capacity of Cymbal Starlight?" fileSearchStores/myfilesearchstore-5a9x71ifjge9

আপনার PDF এর উপর ভিত্তি করে একটি প্রতিক্রিয়া পাওয়া উচিত:

Generating content with file search store: fileSearchStores/myfilesearchstore-5a9x71ifjge9
Response: The Cymbal Starlight 2024 has a cargo capacity of 13.5 cubic feet, which is located in the trunk of the vehicle. It is important to distribute the weight evenly and not overload the trunk, as this could impact the vehicle's handling and stability. The vehicle can also accommodate up to two suitcases in the trunk, and it is recommended to use soft-sided luggage to maximize space and cargo straps to secure it while driving.
Grounding sources:  cymbal-starlight-2024.pdf

ফাংশন কলিং 📲

যদি বিল্ট-ইন টুলগুলি যথেষ্ট না হয়, তাহলে আপনি জেমিনিতে আপনার নিজস্ব টুল (ফাংশন) সংজ্ঞায়িত করতে পারেন। আপনি কেবল একটি পাইথন ফাংশনকে একটি টুল হিসেবে জমা দিতে পারেন (ফাংশনের বিস্তারিত OpenAPI স্পেসিফিকেশন জমা দেওয়ার পরিবর্তে)। এটি স্বয়ংক্রিয়ভাবে মডেল এবং SDK দ্বারা একটি টুল হিসেবে ব্যবহৃত হয়।

উদাহরণস্বরূপ, আপনার কাছে একটি ফাংশন থাকতে পারে যা একটি অবস্থানের অক্ষাংশ এবং দ্রাঘিমাংশ ফেরত দেয়:

def location_to_lat_long(location: str):
    """Given a location, returns the latitude and longitude

    Args:
        location: The location for which to get the weather.

    Returns:
        The latitude and longitude information in JSON.
    """
    logger.info(f"Calling location_to_lat_long({location})")
    url = f"https://geocoding-api.open-meteo.com/v1/search?name={location}&count=1"
    return api_request(url)

অক্ষাংশ এবং দ্রাঘিমাংশ থেকে আবহাওয়ার তথ্য ফেরত দেওয়ার জন্য আপনার একটি ফাংশনও থাকতে পারে:

def lat_long_to_weather(latitude: str, longitude: str):
    """Given a latitude and longitude, returns the weather information

    Args:
        latitude: The latitude of a location
        longitude: The longitude of a location

    Returns:
        The weather information for the location in JSON.
    """
    logger.info(f"Calling lat_long_to_weather({latitude}, {longitude})")
    url = (f"https://api.open-meteo.com/v1/forecast?latitude={latitude}&longitude={longitude}&current=temperature_2m,"
           f"relative_humidity_2m,surface_pressure,wind_speed_10m,wind_direction_10m&forecast_days=1")
    return api_request(url)

এখন, আপনি এই দুটি ফাংশনকে টুল হিসেবে জেমিনিকে দিতে পারেন এবং এটিকে কোনও অবস্থানের আবহাওয়ার তথ্য আনতে ব্যবহার করতে দিতে পারেন:

def generate_content_with_function_calls():
    client = genai.Client(
        vertexai=True,
        project=PROJECT_ID,
        location=LOCATION)

    response = client.models.generate_content(
        model=MODEL_ID,
        contents=PROMPT,
        config=GenerateContentConfig(
            system_instruction=[
                "You are a helpful weather assistant.",
                "Your mission is to provide weather information for different cities."
                "Make sure your responses are in plain text format (no markdown) and include all the cities asked.",
            ],
            tools=[location_to_lat_long, lat_long_to_weather],
            temperature=0),
    )

    print(response.text)
    #print(response.automatic_function_calling_history)

এটিকে কার্যকরভাবে দেখতে, আপনি github.com/meteatamel/genai-beyond-basics/blob/main/samples/function-calling/weather ওয়েবসাইটে main_genaisdk.py চালাতে পারেন।

১০. এজেন্ট 🤖

জেমিনির ইন্টারঅ্যাকশন API এজেন্ট তৈরি এবং তাদের সাথে ইন্টারঅ্যাক্ট করার জন্য ডিজাইন করা হয়েছে। আপনি জেমিনি ডিপ রিসার্চ এজেন্টের মতো বিশেষায়িত এজেন্ট ব্যবহার করতে পারেন। জেমিনি ডিপ রিসার্চ এজেন্ট স্বায়ত্তশাসিতভাবে বহু-পদক্ষেপ গবেষণা কার্য পরিকল্পনা, সম্পাদন এবং সংশ্লেষণ করে। এটি ওয়েব অনুসন্ধান এবং আপনার নিজস্ব ডেটা ব্যবহার করে জটিল তথ্য ল্যান্ডস্কেপ নেভিগেট করে বিস্তারিত, উদ্ধৃত প্রতিবেদন তৈরি করে।

ইন্টারঅ্যাকশন API-এর সাথে আপনি কীভাবে ডিপ রিসার্চ এজেন্ট ব্যবহার করবেন তা এখানে দেওয়া হল:

interaction = client.interactions.create(
    input="Research the history of the Google TPUs.",
    agent="deep-research-pro-preview-12-2025",
    background=True
)

while True:
    if interaction.status == "completed":
        print("\nFinal Report:\n",
interaction.outputs[-1].text)
        break

এই নমুনাটি নিজে চালানোর জন্য, আপনি github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api ওয়েবসাইটে main.py চালাতে পারেন।

export GOOGLE_API_KEY=your-api-key
python main.py agent

কিছুক্ষণ পরে আপনার গবেষণাটি দেখা উচিত:

User: Research the history of the Google TPUs with a focus on 2025 and 2026

Status: in_progress
Status: in_progress
Status: in_progress
...
Model Final Report:
 # Architectural Convergence and Commercial Expansion: The History of Google TPUs (2015–2026)

## Key Findings
*   **Strategic Pivot (2025):** Google transitioned the Tensor Processing Unit (TPU) from a primarily internal differentiator to a commercial merchant-silicon competitor, epitomized by the massive "Ironwood" (TPU v7) deployment and external sales strategy.
*   **Technological Leap:** The introduction of TPU v7 "Ironwood" in 2025 marked a paradigm shift, utilizing 3nm process technology to deliver 42.5 exaFLOPS per pod, directly challenging NVIDIA's Blackwell architecture in the high-performance computing (HPC) sector.
...

১১. ইমেজ জেনারেশন 📷

ন্যানো ব্যানানা 🍌 হল জেমিনির নেটিভ ইমেজ জেনারেশন ক্ষমতার নাম। জেমিনি টেক্সট, ছবি, অথবা উভয়ের সংমিশ্রণ ব্যবহার করে কথোপকথনের মাধ্যমে ছবি তৈরি এবং প্রক্রিয়া করতে পারে। এটি আপনাকে অভূতপূর্ব নিয়ন্ত্রণের সাথে ভিজ্যুয়াল তৈরি, সম্পাদনা এবং পুনরাবৃত্তি করতে দেয়।

ন্যানো ব্যানানা বলতে জেমিনি এপিআই-তে উপলব্ধ দুটি স্বতন্ত্র মডেলকে বোঝায়:

  • ন্যানো ব্যানানা : জেমিনি ২.৫ ফ্ল্যাশ ইমেজ মডেল ( gemini-2.5-flash-image )। এই মডেলটি গতি এবং দক্ষতার জন্য ডিজাইন করা হয়েছে, উচ্চ-ভলিউম, কম-বিলম্বিত কাজের জন্য অপ্টিমাইজ করা হয়েছে।
  • ন্যানো ব্যানানা প্রো : জেমিনি ৩ প্রো ইমেজ প্রিভিউ মডেল ( gemini-3-pro-image-preview )। এই মডেলটি পেশাদার সম্পদ উৎপাদনের জন্য ডিজাইন করা হয়েছে, জটিল নির্দেশাবলী অনুসরণ করতে এবং উচ্চ-বিশ্বস্ততাপূর্ণ টেক্সট রেন্ডার করার জন্য উন্নত যুক্তি ব্যবহার করে।

এখানে কোডের একটি স্নিপেট দেওয়া হল যেখানে আপনি একটি বিদ্যমান ছবি পাস করতে পারেন এবং Nano Banana কে ছবিটি সম্পাদনা করতে বলতে পারেন:

from google import genai
from google.genai import types
from PIL import Image

client = genai.Client()

prompt = (
    "Create a picture of my cat eating a nano-banana in a "
    "fancy restaurant under the Gemini constellation",
)

image = Image.open("/path/to/cat_image.png")

response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[prompt, image],
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("generated_image.png")

ন্যানো ব্যানানা জেমিনি অ্যাপ, এআই স্টুডিও, অথবা ভার্টেক্স এআই স্টুডিওতে পাওয়া যায়। এটি ব্যবহার করে দেখার সবচেয়ে সহজ উপায় হল জেমিনি অ্যাপ। জেমিনি অ্যাপে ( gemini.google.com ), Tools অধীনে 🍌 Create images নির্বাচন করুন। তারপর, একটি ছবি আপলোড করুন এবং মজাদার কিছু চেষ্টা করুন। উদাহরণস্বরূপ, আপনি বলতে পারেন:

Can you transform this picture of mine to a nice beach on a tropical island?

41a830bea8cf3c9f.png সম্পর্কেঅনুসরণ

১২. টেক্সট-টু-স্পিচ জেনারেশন 🎶

জেমিনি টেক্সট-টু-স্পিচ (TTS) জেনারেশন ক্ষমতা ব্যবহার করে টেক্সট ইনপুটকে একক স্পিকার বা মাল্টি-স্পিকার অডিওতে রূপান্তর করতে পারে। TTS জেনারেশন নিয়ন্ত্রণযোগ্য, যার অর্থ আপনি ইন্টারঅ্যাকশন গঠন করতে এবং অডিওর স্টাইল, উচ্চারণ, গতি এবং স্বর নির্দেশ করতে প্রাকৃতিক ভাষা ব্যবহার করতে পারেন।

TTS সমর্থন করে এমন 2টি মডেল রয়েছে:

টিটিএস ক্ষমতা লাইভ এপিআই-এর মাধ্যমে প্রদত্ত স্পিচ জেনারেশন থেকে আলাদা, যা ইন্টারেক্টিভ, আনস্ট্রাকচার্ড অডিও এবং মাল্টিমোডাল ইনপুট এবং আউটপুটগুলির জন্য ডিজাইন করা হয়েছে। লাইভ এপিআই গতিশীল কথোপকথনের প্রেক্ষাপটে উৎকৃষ্ট হলেও, জেমিনি এপিআই-এর মাধ্যমে টিটিএস এমন পরিস্থিতির জন্য তৈরি করা হয়েছে যেখানে পডকাস্ট বা অডিওবুক জেনারেশনের মতো স্টাইল এবং শব্দের উপর সূক্ষ্ম নিয়ন্ত্রণ সহ সঠিক পাঠ্য আবৃত্তির প্রয়োজন হয়।

এখানে একক-স্পিকার TTS-এর কোডের একটি স্নিপেট দেওয়া হল:

from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents="Say cheerfully: Have a wonderful day!",
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(
               voice_name='Kore',
            )
         )
      ),
   )
)

data = response.candidates[0].content.parts[0].inline_data.data

file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory

আপনি টেক্সট-টু-স্পিচ জেনারেশন (TTS) ডকুমেন্টেশনে আরও নমুনা দেখতে পারেন।

আপনি গুগল এআই স্টুডিও খেলার মাঠে স্পিচ জেনারেটিং করার চেষ্টা করতে পারেন। জেনারেট-স্পিচ অ্যাপে বিভিন্ন প্রম্পট দিয়ে খেলুন:

6eb20d8a20e571fb.png সম্পর্কে

১৩. স্থানিক বোঝাপড়া 🌐

মিথুন রাশির উন্নত বস্তু সনাক্তকরণ এবং স্থানিক বোধগম্যতা রয়েছে।

এটি বোঝার সবচেয়ে সহজ উপায় হল এটিকে বাস্তবে দেখা। AI স্টুডিওতে Spatial Understanding Starter অ্যাপে যান। কিছু ছবি বেছে নিন এবং Gemini দিয়ে ছবিতে কিছু জিনিস সনাক্ত করার চেষ্টা করুন।

উদাহরণস্বরূপ, আপনি বিভিন্ন ছবিতে "ছায়া" বা "ফল" সনাক্ত করতে পারেন:

6a521c961664339.png সম্পর্কে2260ab81a8c9a5e8.png সম্পর্কে

বিভিন্ন ছবি নিয়ে খেলুন এবং দেখুন জেমিনি কতটা ভালোভাবে বিভিন্ন বস্তু সনাক্ত করে এবং লেবেল করে।

১৪. লাইভ এপিআই 🎤

লাইভ এপিআই জেমিনির সাথে কম-বিলম্বিত, রিয়েল-টাইম ভয়েস এবং ভিডিও ইন্টারঅ্যাকশন সক্ষম করে। এটি তাৎক্ষণিক, মানুষের মতো কথ্য প্রতিক্রিয়া প্রদানের জন্য অডিও, ভিডিও বা টেক্সটের ক্রমাগত স্ট্রিম প্রক্রিয়া করে, যা আপনার ব্যবহারকারীদের জন্য একটি স্বাভাবিক কথোপকথনের অভিজ্ঞতা তৈরি করে।

9ada309ba0cd0888.png দ্বারা পোস্ট করা 1 অনুবাদ, বিস্তারিত সব অনুবাদ

গুগল এআই স্টুডিওতে লাইভ এপিআই অথবা ভার্টেক্স এআই স্টুডিওতে লাইভ এপিআই ব্যবহার করে দেখুন। উভয় অ্যাপেই আপনি আপনার ভয়েস, ভিডিও এবং স্ক্রিন শেয়ার করতে পারবেন এবং জেমিনির সাথে লাইভ কথোপকথন করতে পারবেন।

8b4901d2aecc5b62.png সম্পর্কে

এগিয়ে যান এবং আপনার ভিডিও বা স্ক্রিন শেয়ার করা শুরু করুন, এবং জেমিনিকে ভয়েসের মাধ্যমে সাধারণ জিনিস জিজ্ঞাসা করুন। উদাহরণস্বরূপ:

Can you describe what you see on the screen?

মিথুন রাশির জাতক জাতিকাদের প্রতিক্রিয়া কতটা স্বাভাবিক শোনাবে তা দেখে আপনি অবাক হবেন।

১৫. উপসংহার

এই কোডল্যাবে, আমরা জেমিনি ইকোসিস্টেম কভার করেছি, জেমিনি পণ্য পরিবারের সাথে শুরু করে এবং ইউনিফাইড গুগল জেন এআই এসডিকে ব্যবহার করে আমাদের অ্যাপ্লিকেশনগুলিতে মডেলগুলিকে কীভাবে একীভূত করতে হয় তা শিখেছি। আমরা জেমিনির অত্যাধুনিক বৈশিষ্ট্যগুলি অন্বেষণ করেছি, যার মধ্যে রয়েছে লং কনটেক্সট উইন্ডো, থিংকিং মোড, বিল্ট-ইন গ্রাউন্ডিং টুলস, লাইভ এপিআই এবং স্পেশিয়াল আন্ডারস্ট্যান্ডিং। আমরা আপনাকে রেফারেন্স ডকুমেন্টগুলির আরও গভীরে ডুব দিতে এবং জেমিনির পূর্ণ সম্ভাবনা নিয়ে পরীক্ষা চালিয়ে যেতে উৎসাহিত করছি।

তথ্যসূত্র