এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

মাল্টিমোডাল টুল ইন্টারঅ্যাকশন সহ ADK : পার্ট 2 (টুল কলব্যাক সহ MCP টুলসেট)

১. 📖 ভূমিকা

পূর্ববর্তী কোডল্যাবে , আপনি ADK-তে মাল্টিমোডাল ডেটা ইন্টারঅ্যাকশন কীভাবে ডিজাইন করতে হয় সে সম্পর্কে শিখবেন। এখন আমরা MCP টুলসেট ব্যবহার করে MCP সার্ভারের সাথে মাল্টিমোডাল ডেটা ইন্টারঅ্যাকশন কীভাবে ডিজাইন করতে হয় সে সম্পর্কে আরও একটি পদক্ষেপ নেব। আমরা পূর্বে উন্নত পণ্য ফটো এডিটর এজেন্টের ক্ষমতা প্রসারিত করব যাতে Veo মডেল ব্যবহার করে Veo MCP সার্ভার ব্যবহার করে ছোট ভিডিও তৈরি করা যায়।

কোডল্যাবের মাধ্যমে, আপনি নিম্নরূপ ধাপে ধাপে পদ্ধতি ব্যবহার করবেন:

গুগল ক্লাউড প্রজেক্ট এবং বেস এজেন্ট ডিরেক্টরি প্রস্তুত করুন
একটি MCP সার্ভার কনফিগার করুন যার জন্য ইনপুট হিসেবে ফাইল ডেটা প্রয়োজন
ADK এজেন্টকে MCP সার্ভারের সাথে সংযোগ স্থাপনের জন্য সজ্জিত করা
MCP টুলসেটে ফাংশন কল রিকোয়েস্ট পরিবর্তন করার জন্য একটি প্রম্পট কৌশল এবং কলব্যাক ফাংশন ডিজাইন করুন।
MCP টুলসেট থেকে মাল্টিমোডাল ডেটা প্রতিক্রিয়া পরিচালনা করার জন্য একটি কলব্যাক ফাংশন ডিজাইন করুন।

স্থাপত্যের সংক্ষিপ্ত বিবরণ

এই কোডল্যাবের সামগ্রিক মিথস্ক্রিয়া নিম্নলিখিত চিত্রে দেখানো হয়েছে

93fe3107e0946ddd.jpeg সম্পর্কে

পূর্বশর্ত

পাইথনের সাথে কাজ করা আরামদায়ক
(ঐচ্ছিক) এজেন্ট ডেভেলপমেন্ট কিট (ADK) সম্পর্কে মৌলিক কোডল্যাব

(ঐচ্ছিক) ADK মাল্টিমোডাল টুল পার্ট ১ কোডল্যাব : goo.gle/adk-multimodal-tool-1

তুমি কি শিখবে

প্রম্পট এবং ইমেজ স্টার্টার সহ Veo 3.1 ব্যবহার করে কীভাবে ছোট ভিডিও তৈরি করবেন
ফাস্টএমসিপি ব্যবহার করে মাল্টিমোডাল এমসিপি সার্ভার কীভাবে তৈরি করবেন
MCP টুলসেট ব্যবহার করার জন্য ADK কিভাবে সেটআপ করবেন
টুল কলব্যাকের মাধ্যমে MCP টুলসেটে টুল কল কীভাবে পরিবর্তন করবেন
টুল কলব্যাকের মাধ্যমে MCP টুলসেট থেকে টুল রেসপন্স কীভাবে পরিবর্তন করবেন

তোমার যা লাগবে

ক্রোম ওয়েব ব্রাউজার
একটি জিমেইল অ্যাকাউন্ট
বিলিং অ্যাকাউন্ট সক্ষম থাকা একটি ক্লাউড প্রজেক্ট

সকল স্তরের ডেভেলপারদের জন্য (নতুনদের সহ) তৈরি এই কোডল্যাবটি তার নমুনা অ্যাপ্লিকেশনে পাইথন ব্যবহার করে। তবে, উপস্থাপিত ধারণাগুলি বোঝার জন্য পাইথন জ্ঞানের প্রয়োজন নেই।

২. 🚀 (ঐচ্ছিক) কর্মশালা উন্নয়ন সেটআপ প্রস্তুত করা

গুরুত্বপূর্ণ নোট:

এই টিউটোরিয়ালের জন্য একটি সক্রিয় বিলিং অ্যাকাউন্ট সহ একটি Google Cloud Project প্রয়োজন। যদি আপনার এখনও একটি না থাকে, তাহলে এই টিউটোরিয়ালের জন্য ব্যবহার করা যেতে পারে এমন একটি ট্রায়াল বিলিং অ্যাকাউন্ট পেতে নীচের ধাপগুলি অনুসরণ করুন:

ছদ্মবেশী উইন্ডো খুলুন
যদি আপনি কোনও কর্মশালা অধিবেশনে যোগদান করেন, তাহলে সাধারণত সেশনে রিডেম্পশন পোর্টালের URL প্রদান করা হবে, অন্যথায় আপনি এই ট্রায়াল বিলিং অ্যাকাউন্ট রিডেম্পশন পোর্টালে যেতে পারেন।
আপনার ব্যক্তিগত জিমেইল অ্যাকাউন্ট ব্যবহার করে লগ ইন করুন (গুগল ওয়ার্কস্পেস / অন্যান্য ইমেল কাজ করবে না!)
এই টিউটোরিয়ালের জন্য পূর্বে দাবি করা ট্রায়াল বিলিং অ্যাকাউন্টের সাথে লিঙ্ক করা একটি নতুন গুগল ক্লাউড প্রকল্প সফলভাবে তৈরি করতে ধাপে ধাপে রিডেম্পশন নির্দেশাবলী অনুসরণ করুন।

ধাপ ১: ক্লাউড কনসোলে অ্যাক্টিভ প্রজেক্ট নির্বাচন করুন

গুগল ক্লাউড কনসোলে , প্রজেক্ট সিলেক্টর পৃষ্ঠায়, একটি গুগল ক্লাউড প্রোজেক্ট নির্বাচন করুন বা তৈরি করুন (আপনার কনসোলের উপরের বাম অংশটি দেখুন)

6069be756af6452b.png সম্পর্কে

এটিতে ক্লিক করুন, এবং আপনি আপনার সমস্ত প্রকল্পের তালিকা দেখতে পাবেন যেমন এই উদাহরণে,

অনুসরণ

লাল বাক্সে যে মানটি নির্দেশিত তা হল PROJECT ID এবং এই মানটি পুরো টিউটোরিয়াল জুড়ে ব্যবহার করা হবে।

আপনার ক্লাউড প্রোজেক্টের জন্য বিলিং সক্ষম আছে কিনা তা নিশ্চিত করুন। এটি পরীক্ষা করতে, আপনার উপরের বাম বারে বার্গার আইকন ☰ এ ক্লিক করুন যা নেভিগেশন মেনু দেখায় এবং বিলিং মেনুটি খুঁজে বের করুন।

db07810b26fc61d6.png সম্পর্কে

যদি আপনি বিলিং / ওভারভিউ শিরোনামের অধীনে "গুগল ক্লাউড প্ল্যাটফর্ম ট্রায়াল বিলিং অ্যাকাউন্ট" দেখতে পান ( আপনার ক্লাউড কনসোলের উপরের বাম অংশ ), তাহলে আপনার প্রকল্পটি এই টিউটোরিয়ালের জন্য ব্যবহারের জন্য প্রস্তুত। যদি না হয়, তাহলে এই টিউটোরিয়ালের শুরুতে ফিরে যান এবং ট্রায়াল বিলিং অ্যাকাউন্টটি রিডিম করুন।

45539d4ac57dd995.png সম্পর্কে

ধাপ ২: ক্লাউড শেলের সাথে পরিচিত হোন

আপনি বেশিরভাগ টিউটোরিয়ালের জন্য ক্লাউড শেল ব্যবহার করবেন, গুগল ক্লাউড কনসোলের উপরে অ্যাক্টিভেট ক্লাউড শেল ক্লিক করুন। যদি এটি আপনাকে অনুমোদনের জন্য অনুরোধ করে, তাহলে অনুমোদনে ক্লিক করুন।

26f20e837ff06119.png সম্পর্কে

79b06cc89a99f840.png সম্পর্কে

ক্লাউড শেলের সাথে সংযুক্ত হয়ে গেলে, আমাদের পরীক্ষা করতে হবে যে শেল (অথবা টার্মিনাল) ইতিমধ্যেই আমাদের অ্যাকাউন্টের সাথে প্রমাণীকরণ করা হয়েছে কিনা।

gcloud auth list

যদি আপনি নীচের উদাহরণের মতো আপনার ব্যক্তিগত জিমেইল আউটপুট দেখতে পান, তাহলে সবকিছু ঠিক আছে।

Credentialed Accounts

ACTIVE: *
ACCOUNT: alvinprayuda@gmail.com

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

যদি না হয়, তাহলে আপনার ব্রাউজার রিফ্রেশ করার চেষ্টা করুন এবং অনুরোধ করা হলে Authorize- এ ক্লিক করুন (সংযোগ সমস্যার কারণে এটি ব্যাহত হতে পারে)

এরপর, আমাদের এটাও পরীক্ষা করতে হবে যে শেলটি ইতিমধ্যেই আপনার কাছে থাকা সঠিক PROJECT ID- তে কনফিগার করা আছে কিনা। যদি আপনি দেখেন যে টার্মিনালে $ আইকনের আগে ( ) এর ভিতরে একটি মান আছে (নীচের স্ক্রিনশটে, মানটি "adk-multimodal-tool" ) তাহলে এই মানটি আপনার সক্রিয় শেল সেশনের জন্য কনফিগার করা প্রকল্পটি দেখায়।

10a99ff80839b635.png সম্পর্কে

যদি দেখানো মানটি ইতিমধ্যেই সঠিক থাকে, তাহলে আপনি পরবর্তী কমান্ডটি এড়িয়ে যেতে পারেন। তবে যদি এটি সঠিক না হয় বা অনুপস্থিত থাকে, তাহলে নিম্নলিখিত কমান্ডটি চালান।

gcloud config set project <YOUR_PROJECT_ID>

তারপর, Github থেকে এই কোডল্যাবের জন্য টেমপ্লেট ওয়ার্কিং ডিরেক্টরিটি ক্লোন করুন, নিম্নলিখিত কমান্ডটি চালান। এটি adk-multimodal-tool ডিরেক্টরিতে ওয়ার্কিং ডিরেক্টরি তৈরি করবে।

git clone https://github.com/alphinside/adk-mcp-multimodal.git adk-multimodal-tool

ধাপ ৩: ক্লাউড শেল এডিটরের সাথে পরিচিত হোন এবং অ্যাপ্লিকেশন ওয়ার্কিং ডিরেক্টরি সেটআপ করুন

এখন, আমরা কিছু কোডিং কাজ করার জন্য আমাদের কোড এডিটর সেট আপ করতে পারি। এর জন্য আমরা ক্লাউড শেল এডিটর ব্যবহার করব।

ওপেন এডিটর বোতামে ক্লিক করুন, এটি একটি ক্লাউড শেল এডিটর খুলবে। 168eacea651b086c.png - [অনলাইন].

এরপর, ক্লাউড শেল এডিটরের উপরের অংশে যান এবং File->Open Folder এ ক্লিক করুন, আপনার ব্যবহারকারীর নাম ডিরেক্টরিটি খুঁজুন এবং adk-multimodal-tool ডিরেক্টরিটি খুঁজুন তারপর OK বোতামে ক্লিক করুন। এটি নির্বাচিত ডিরেক্টরিটিকে প্রধান কার্যকরী ডিরেক্টরি হিসাবে পরিণত করবে। এই উদাহরণে, ব্যবহারকারীর নাম হল alvinprayuda , তাই ডিরেক্টরি পাথটি নীচে দেখানো হয়েছে।

8eb3f593141dbcbf.png সম্পর্কে

a4860f6be228d864.png সম্পর্কে

এখন, আপনার ক্লাউড শেল এডিটর ওয়ার্কিং ডিরেক্টরিটি দেখতে এইরকম হওয়া উচিত ( adk-multimodal-tool এর ভিতরে)

aa2edaf29303167f.png সম্পর্কে

এবার এডিটরের জন্য টার্মিনাল খুলুন। মেনু বারে Terminal -> New Terminal এ ক্লিক করে অথবা Ctrl + Shift + C ব্যবহার করে এটি করতে পারেন। এটি ব্রাউজারের নীচের অংশে একটি টার্মিনাল উইন্ডো খুলবে।

74d314f6ff34965b.png সম্পর্কে

আপনার বর্তমান সক্রিয় টার্মিনালটি adk-multimodal-tool ওয়ার্কিং ডিরেক্টরির ভিতরে থাকা উচিত। আমরা এই কোডল্যাবে Python 3.12 ব্যবহার করব এবং Python সংস্করণ এবং ভার্চুয়াল পরিবেশ তৈরি এবং পরিচালনা করার প্রয়োজনীয়তা সহজ করার জন্য uv python প্রজেক্ট ম্যানেজার ব্যবহার করব। এই uv প্যাকেজটি ইতিমধ্যেই ক্লাউড শেলে প্রি-ইন্সটল করা আছে।

.venv ডিরেক্টরিতে ভার্চুয়াল পরিবেশের জন্য প্রয়োজনীয় নির্ভরতা ইনস্টল করতে এই কমান্ডটি চালান।

uv sync --frozen

এই টিউটোরিয়ালের জন্য ঘোষিত নির্ভরতাগুলি দেখতে pyproject.toml চেক করুন, যা হল google-adk, and python-dotenv ।

এখন, আমাদের নীচে দেখানো কমান্ডের মাধ্যমে প্রয়োজনীয় API গুলি সক্রিয় করতে হবে। এতে কিছুটা সময় লাগতে পারে।

gcloud services enable aiplatform.googleapis.com

কমান্ডটি সফলভাবে কার্যকর করার পরে, আপনি নীচের দেখানো বার্তার মতো একটি বার্তা দেখতে পাবেন:

Operation "operations/..." finished successfully.

ক্লোন করা রিপোজিটরির part2_starter_agent ডিরেক্টরিতে টেমপ্লেট এজেন্ট স্ট্রাকচারটি ইতিমধ্যেই আপনার জন্য সরবরাহ করা হয়েছে। এখন, এই টিউটোরিয়ালের জন্য প্রস্তুত হওয়ার জন্য আমাদের প্রথমে এটির নাম পরিবর্তন করতে হবে।

mv part1_ckpt_agent product_photo_editor

এরপর, product_photo_editor/.env.example টি product_photo_editor/.env তে কপি করুন।

cp product_photo_editor/.env.example product_photo_editor/.env

যখন আপনি product_photo_editor/.env ফাইলটি খুলবেন, তখন আপনি নীচের চিত্রের মতো সামগ্রী দেখতে পাবেন।

GOOGLE_GENAI_USE_VERTEXAI=1
GOOGLE_CLOUD_PROJECT=your-project-id
GOOGLE_CLOUD_LOCATION=global

তারপর, আপনাকে your-project-id মানটি আপনার নিজস্ব প্রজেক্ট আইডি দিয়ে আপডেট করতে হবে। এখন আমরা পরবর্তী ধাপের জন্য প্রস্তুত।

৩. 🚀 Veo MCP সার্ভারটি চালু করুন

প্রথমে, এই কমান্ডটি ব্যবহার করে MCP পরিষেবা ডিরেক্টরি তৈরি করা যাক।

mkdir veo_mcp

তারপর, এই কমান্ডটি ব্যবহার করে veo_mcp/main.py তৈরি করুন

touch veo_mcp/main.py

এরপর নিচের কোডটি কপি করুন veo_mcp/main.py

from fastmcp import FastMCP
from typing import Annotated
from pydantic import Field
import base64
import asyncio
import os
from google import genai
from google.genai import types
from dotenv import load_dotenv
import logging

# Load environment variables from .env file
load_dotenv()

mcp = FastMCP("Veo MCP Server")


@mcp.tool
async def generate_video_with_image(
    prompt: Annotated[
        str, Field(description="Text description of the video to generate")
    ],
    image_data: Annotated[
        str, Field(description="Base64-encoded image data to use as starting frame")
    ],
    negative_prompt: Annotated[
        str | None,
        Field(description="Things to avoid in the generated video"),
    ] = None,
) -> dict:
    """Generates a professional product marketing video from text prompt and starting image using Google's Veo API.

    This function uses an image as the first frame of the generated video and automatically
    enriches your prompt with professional video production quality guidelines to create
    high-quality marketing assets suitable for commercial use.

    AUTOMATIC ENHANCEMENTS APPLIED:
    - 4K cinematic quality with professional color grading
    - Smooth, stabilized camera movements
    - Professional studio lighting setup
    - Shallow depth of field for product focus
    - Commercial-grade production quality
    - Marketing-focused visual style

    PROMPT WRITING TIPS:
    Describe what you want to see in the video. Focus on:
    - Product actions/movements (e.g., "rotating slowly", "zooming into details")
    - Desired camera angles (e.g., "close-up of the product", "wide shot")
    - Background/environment (e.g., "minimalist white backdrop", "lifestyle setting")
    - Any specific details about the product presentation

    The system will automatically enhance your prompt with professional production quality.

    Args:
        prompt: Description of the video to generate. Focus on the core product presentation
                you want. The system will automatically add professional quality enhancements.
        image_data: Base64-encoded image data to use as the starting frame
        negative_prompt: Optional prompt describing what to avoid in the video

    Returns:
        dict: A dictionary containing:
            - status: 'success' or 'error'
            - message: Description of the result
            - video_data: Base64-encoded video data (on success only)
    """
    try:
        # Initialize the Gemini client
        client = genai.Client(
            vertexai=True,
            project=os.getenv("GOOGLE_CLOUD_PROJECT"),
            location=os.getenv("GOOGLE_CLOUD_LOCATION"),
        )

        # Decode the image
        image_bytes = base64.b64decode(image_data)
        print(f"Successfully decoded image data: {len(image_bytes)} bytes")

        # Create image object
        image = types.Image(image_bytes=image_bytes, mime_type="image/png")

        # Prepare the config
        config = types.GenerateVideosConfig(
            duration_seconds=8,
            number_of_videos=1,
        )

        if negative_prompt:
            config.negative_prompt = negative_prompt

        # Enrich the prompt for professional marketing quality
        enriched_prompt = enrich_prompt_for_marketing(prompt)

        # Generate the video (async operation)
        operation = client.models.generate_videos(
            model="veo-3.1-generate-preview",
            prompt=enriched_prompt,
            image=image,
            config=config,
        )

        # Poll until the operation is complete
        poll_count = 0
        while not operation.done:
            poll_count += 1
            print(f"Waiting for video generation to complete... (poll {poll_count})")
            await asyncio.sleep(5)
            operation = client.operations.get(operation)

        # Download the video and convert to base64
        video = operation.response.generated_videos[0]

        # Get video bytes and encode to base64
        video_bytes = video.video.video_bytes
        video_base64 = base64.b64encode(video_bytes).decode("utf-8")

        print(f"Video generated successfully: {len(video_bytes)} bytes")

        return {
            "status": "success",
            "message": f"Video with image generated successfully after {poll_count * 5} seconds",
            "complete_prompt": enriched_prompt,
            "video_data": video_base64,
        }
    except Exception as e:
        logging.error(e)
        return {
            "status": "error",
            "message": f"Error generating video with image: {str(e)}",
        }


def enrich_prompt_for_marketing(user_prompt: str) -> str:
    """Enriches user prompt with professional video production quality enhancements.

    Adds cinematic quality, professional lighting, smooth camera work, and marketing-focused
    elements to ensure high-quality product marketing videos.
    """
    enhancement_prefix = """Create a high-quality, professional product marketing video with the following characteristics:

TECHNICAL SPECIFICATIONS:
- 4K cinematic quality with professional color grading
- Smooth, stabilized camera movements
- Professional studio lighting setup with soft, even illumination
- Shallow depth of field for product focus
- High dynamic range (HDR) for vibrant colors

VISUAL STYLE:
- Clean, minimalist aesthetic suitable for premium brand marketing
- Elegant and sophisticated presentation
- Commercial-grade production quality
- Attention to detail in product showcase

USER'S SPECIFIC REQUIREMENTS:
"""

    enhancement_suffix = """

ADDITIONAL QUALITY GUIDELINES:
- Ensure smooth transitions and natural motion
- Maintain consistent lighting throughout
- Keep the product as the clear focal point
- Use professional camera techniques (slow pans, tracking shots, or dolly movements)
- Apply subtle motion blur for cinematic feel
- Ensure brand-appropriate tone and style"""

    return f"{enhancement_prefix}{user_prompt}{enhancement_suffix}"


if __name__ == "__main__":
    mcp.run()

নিম্নলিখিত কোডটি নিম্নলিখিত কাজগুলি করে:

একটি FastMCP সার্ভার তৈরি করে যা ADK এজেন্টদের কাছে একটি Veo 3.1 ভিডিও জেনারেশন টুল প্রকাশ করে।
বেস৬৪-এনকোডেড ছবি, টেক্সট প্রম্পট এবং নেগেটিভ প্রম্পট ইনপুট হিসেবে গ্রহণ করে।
Veo 3.1 API-তে অনুরোধ জমা দিয়ে এবং সম্পূর্ণ না হওয়া পর্যন্ত প্রতি 5 সেকেন্ডে পোলিং করে অ্যাসিঙ্ক্রোনাসভাবে 8-সেকেন্ডের ভিডিও তৈরি করে
সমৃদ্ধ প্রম্পটের সাথে base64-এনকোডেড ভিডিও ডেটা ফেরত পাঠায়।

এই Veo MCP টুলটির জন্য আমাদের এজেন্টের সাথে একই পরিবেশ ভেরিয়েবলের প্রয়োজন হবে, তাই আমরা কেবল .env ফাইলটি কপি পেস্ট করতে পারি। এটি করার জন্য নিম্নলিখিত কমান্ডটি চালান।

cp product_photo_editor/.env veo_mcp/

এখন, আমরা এই কমান্ডটি চালিয়ে MCP সার্ভারটি সঠিকভাবে চলছে কিনা তা পরীক্ষা করতে পারি।

uv run veo_mcp/main.py

এবং এটি কনসোল লগটি এভাবে দেখাবে

╭────────────────────────────────────────────────────────────────────────────╮
│                                                                            │
│        _ __ ___  _____           __  __  _____________    ____    ____     │
│       _ __ ___ .'____/___ ______/ /_/  |/  / ____/ __ \  |___ \  / __ \    │
│      _ __ ___ / /_  / __ `/ ___/ __/ /|_/ / /   / /_/ /  ___/ / / / / /    │
│     _ __ ___ / __/ / /_/ (__  ) /_/ /  / / /___/ ____/  /  __/_/ /_/ /     │
│    _ __ ___ /_/    \____/____/\__/_/  /_/\____/_/      /_____(*)____/      │
│                                                                            │
│                                                                            │
│                                FastMCP  2.0                                │
│                                                                            │
│                                                                            │
│                 🖥️  Server name:     Veo MCP Server                         │
│                 📦 Transport:       STDIO                                  │
│                                                                            │
│                 🏎️  FastMCP version: 2.12.5                                 │
│                 🤝 MCP SDK version: 1.16.0                                 │
│                                                                            │
│                 📚 Docs:            https://gofastmcp.com                  │
│                 🚀 Deploy:          https://fastmcp.cloud                  │
│                                                                            │
╰────────────────────────────────────────────────────────────────────────────╯


[10/22/25 08:28:53] INFO     Starting MCP server 'Veo MCP Server' with          server.py:1502
                             transport 'stdio'

এখন CTRL+C ব্যবহার করে MCP পরিষেবা প্রক্রিয়াটি বন্ধ করুন। এই কমান্ডটি পরে ADK MCP টুলসেট থেকে ব্যবহার করা হবে। আমাদের এজেন্টকে এই MCP টুলগুলি ব্যবহার করার অনুমতি দেওয়ার জন্য আমরা পরবর্তী ধাপে যেতে পারি।

৪. 🚀 Veo MCP সার্ভারকে ADK এজেন্টের সাথে সংযুক্ত করুন

এখন, আসুন Veo MCP সার্ভারটি সংযুক্ত করি যাতে এটি আমাদের এজেন্ট দ্বারা ব্যবহার করা যায়। প্রথমে, টুলসেট ধারণ করার জন্য একটি ভিন্ন স্ক্রিপ্ট তৈরি করি, নিম্নলিখিত কমান্ডটি চালান।

touch product_photo_editor/mcp_tools.py

তারপর, নিম্নলিখিত কোডটি product_photo_editor/mcp_tools.py তে কপি করুন।

from google.adk.tools.mcp_tool.mcp_toolset import MCPToolset
from google.adk.tools.mcp_tool.mcp_session_manager import StdioConnectionParams
from mcp import StdioServerParameters


mcp_toolset = MCPToolset(
    connection_params=StdioConnectionParams(
        server_params=StdioServerParameters(
            command="uv",
            args=[
                "run",
                "veo_mcp/main.py",
            ],
        ),
        timeout=120, # seconds
    ),
)

# Option to connect to remote MCP server

# from google.adk.tools.mcp_tool.mcp_session_manager import StreamableHTTPConnectionParams

# mcp_toolset = MCPToolset(
#     connection_params=StreamableHTTPConnectionParams(
#         url="http://localhost:8000/mcp",
#         timeout=120,
#     ),
# )

উপরের কোডটি দেখায় কিভাবে আমরা ADK MCPToolset ব্যবহার করে একটি MCP সার্ভারের সাথে সংযোগ করতে পারি। এই উদাহরণে আমরা STDIO যোগাযোগ চ্যানেল ব্যবহার করে MCP সার্ভারের সাথে সংযোগ স্থাপন করি। কমান্ডে আমরা MCP সার্ভারটি কীভাবে চালাতে পারি এবং টাইমআউট প্যারামিটার সেট করতে পারি তা নির্দিষ্ট করি।

৫. 🚀 টুল কল প্যারামিটার পরিবর্তন

MCP সার্ভার টুল ঘোষণায়, আমরা generate_video_with_image টুল ডিজাইন করেছি যা টুল প্যারামিটার হিসেবে base64 স্ট্রিং নির্দিষ্ট করে। আমরা LLM কে আমাদের জন্য এটি করতে বলতে পারি না, তাই এটি পরিচালনা করার জন্য আমাদের একটি নির্দিষ্ট কৌশল ডিজাইন করতে হবে।

পূর্ববর্তী ল্যাবে, আমরা before_model_callback এ ব্যবহারকারীর আপলোড করা এবং টুল রেসপন্স ইমেজটি একটি আর্টিফ্যাক্ট হিসেবে সংরক্ষণ করার জন্য পরিচালনা করি, যা পূর্বে প্রস্তুত করা এজেন্ট টেমপ্লেটেও প্রতিফলিত হয়। আমরা এটি ব্যবহার করব এবং নিম্নলিখিত কৌশলগুলি করব:

যদি নির্দিষ্ট টুল প্যারামিটারের জন্য base64 স্ট্রিং ডেটা পাঠানোর প্রয়োজন হয়, তাহলে LLM-কে সর্বদা artifact_id মান পাঠাতে নির্দেশ দিন।
before_tool_callback এ টুল কল ইনভোকেশনটি ইন্টারসেপ্ট করুন এবং আর্টিফ্যাক্ট লোড করে প্যারামিটারটিকে artifact_id থেকে তার বাইট কন্টেন্টে রূপান্তর করুন এবং টুল আর্গুমেন্টগুলি ওভাররাইট করুন।

আমরা যে অংশটি আটকাব তার ভিজ্যুয়ালাইজেশনের জন্য নীচের ছবিটি দেখুন।

2d6142cf5d96830e.png সম্পর্কে

প্রথমে, before_tool_callback ফাংশনটি প্রস্তুত করা যাক, নিম্নলিখিত কমান্ডটি চালিয়ে একটি নতুন ফাইল product_photo_editor/tool_callbacks.py তৈরি করুন।

touch product_photo_editor/tool_callbacks.py

তারপর, ফাইলটিতে নিম্নলিখিত কোডটি কপি করুন

# product_photo_editor/tool_callbacks.py

from google.genai.types import Part
from typing import Any
from google.adk.tools.tool_context import ToolContext
from google.adk.tools.base_tool import BaseTool
from google.adk.tools.mcp_tool.mcp_tool import McpTool
import base64
import logging
import json
from mcp.types import CallToolResult


async def before_tool_modifier(
    tool: BaseTool, args: dict[str, Any], tool_context: ToolContext
):
    # Identify which tool input should be modified
    if isinstance(tool, McpTool) and tool.name == "generate_video_with_image":
        logging.info("Modify tool args for artifact: %s", args["image_data"])
        # Get the artifact filename from the tool input argument
        artifact_filename = args["image_data"]
        artifact = await tool_context.load_artifact(filename=artifact_filename)
        file_data = artifact.inline_data.data

        # Convert byte data to base64 string
        base64_data = base64.b64encode(file_data).decode("utf-8")

        # Then modify the tool input argument
        args["image_data"] = base64_data

উপরের কোডটি নিম্নলিখিত ধাপগুলি দেখায়:

পরীক্ষা করুন যে ইনভোক করা টুলটি একটি McpTool অবজেক্ট কিনা এবং এটি সেই টার্গেটেড টুল কল কিনা যা আমরা পরিবর্তন করতে চাই।
image_data আর্গুমেন্টের মান পান যেখানে base64 ফর্ম্যাটে অনুরোধ করা আর্গুমেন্টটি রয়েছে কিন্তু আমরা LLM কে এতে artifact_id ফেরত দেওয়ার জন্য অনুরোধ করি।
tool_context এ আর্টিফ্যাক্ট পরিষেবা ব্যবহার করে আর্টিফ্যাক্টটি লোড করুন।
base64 ডেটা দিয়ে image_data আর্গুমেন্টগুলি ওভাররাইট করুন।

এখন, আমাদের এই কলব্যাকটি এজেন্টে যোগ করতে হবে এবং নির্দেশাবলীতে কিছুটা পরিবর্তন করতে হবে যাতে এজেন্ট সর্বদা base64 টুল আর্গগুলিতে আর্টিফ্যাক্ট আইডি দিয়ে পূরণ করে।

product_photo_editor/agent.py খুলুন এবং নিম্নলিখিত কোড ব্যবহার করে কন্টেন্ট পরিবর্তন করুন।

# product_photo_editor/agent.py

from google.adk.agents.llm_agent import Agent
from product_photo_editor.custom_tools import edit_product_asset
from product_photo_editor.mcp_tools import mcp_toolset
from product_photo_editor.model_callbacks import before_model_modifier
from product_photo_editor.tool_callbacks import before_tool_modifier
from product_photo_editor.prompt import AGENT_INSTRUCTION

root_agent = Agent(
    model="gemini-2.5-flash",
    name="product_photo_editor",
    description="""A friendly product photo editor assistant that helps small business 
owners edit and enhance their product photos. Perfect for improving photos of handmade 
goods, food products, crafts, and small retail items""",
    instruction=AGENT_INSTRUCTION
    + """
**IMPORTANT: Base64 Argument Rule on Tool Call**

If you found any tool call arguments that requires base64 data,
ALWAYS provide the artifact_id of the referenced file to 
the tool call. NEVER ask user to provide base64 data. 
Base64 data encoding process is out of your 
responsibility and will be handled in another part of the system.
""",
    tools=[
        edit_product_asset,
        mcp_toolset,
    ],
    before_model_callback=before_model_modifier,
    before_tool_callback=before_tool_modifier,
)

ঠিক আছে, এবার এই পরিবর্তনটি পরীক্ষা করার জন্য এজেন্টের সাথে যোগাযোগ করার চেষ্টা করা যাক। ওয়েব ডেভেলপার UI চালানোর জন্য নিম্নলিখিত কমান্ডটি চালান।

uv run adk web --port 8080

এটি নিম্নলিখিত উদাহরণের মতো আউটপুট তৈরি করবে, যার অর্থ আমরা ইতিমধ্যেই ওয়েব ইন্টারফেস অ্যাক্সেস করতে পারছি।

INFO:     Started server process [xxxx]
INFO:     Waiting for application startup.

+-----------------------------------------------------------------------------+
| ADK Web Server started                                                      |
|                                                                             |
| For local testing, access at http://127.0.0.1:8080.                         |
+-----------------------------------------------------------------------------+

INFO:     Application startup complete.
INFO:     Uvicorn running on http://127.0.0.1:8080 (Press CTRL+C to quit)

এখন, এটি পরীক্ষা করার জন্য আপনি URL-এ Ctrl + ক্লিক করতে পারেন অথবা আপনার Cloud Shell Editor-এর উপরের অংশে Web Preview বোতামে ক্লিক করতে পারেন এবং Preview on port 8080 নির্বাচন করতে পারেন।

edc73e971b9fc60c.png সম্পর্কে

আপনি নিম্নলিখিত ওয়েব পৃষ্ঠাটি দেখতে পাবেন যেখানে আপনি উপরের বাম দিকের ড্রপ ডাউন বোতামে (আমাদের ক্ষেত্রে এটি product_photo_editor হওয়া উচিত) উপলব্ধ এজেন্ট নির্বাচন করতে এবং বটের সাথে ইন্টারঅ্যাক্ট করতে পারবেন।

তারপর, নিচের ছবিটি আপলোড করুন এবং এজেন্টকে এটি থেকে প্রচারমূলক ক্লিপ তৈরি করতে বলুন।

Generate a slow zoom in and moving from left and right animation

অনুসরণ

আপনি নিম্নলিখিত ত্রুটির সম্মুখীন হবেন

6728902ed0b7cc55.png সম্পর্কে

কেন? যেহেতু টুলটি সরাসরি base64 স্ট্রিং আকারে ফলাফল প্রদান করেছে, তাই এটি সর্বোচ্চ টোকেন অতিক্রম করবে। এখন, পরবর্তী বিভাগে এই ত্রুটিটি পরিচালনা করা যাক।

৬. 🚀 টুল রেসপন্স মডিফিকেশন

এই বিভাগে, আমরা MCP প্রতিক্রিয়া থেকে টুল প্রতিক্রিয়া পরিচালনা করব। আমরা নিম্নলিখিত জিনিসগুলি করব:

টুলটির মাধ্যমে ভিডিও প্রতিক্রিয়াটি আর্টিফ্যাক্ট পরিষেবাতে সংরক্ষণ করুন।
এজেন্টের পরিবর্তে আর্টিফ্যাক্ট শনাক্তকারীটি ফেরত দিন।

মনে করিয়ে দেওয়ার জন্য আমরা নিম্নলিখিত এজেন্ট রানটাইমে ট্যাপ করব

2d6142cf5d96830e.png সম্পর্কে

প্রথমে, কলব্যাক ফাংশনটি বাস্তবায়ন করা যাক, product_photo_editor/tool_callbacks.py খুলুন এবং after_tool_modifier বাস্তবায়নের জন্য এটি পরিবর্তন করুন।

# product_photo_editor/tool_callbacks.py

from google.genai.types import Part
from typing import Any
from google.adk.tools.tool_context import ToolContext
from google.adk.tools.base_tool import BaseTool
from google.adk.tools.mcp_tool.mcp_tool import McpTool
import base64
import logging
import json
from mcp.types import CallToolResult


async def before_tool_modifier(
    tool: BaseTool, args: dict[str, Any], tool_context: ToolContext
):
    # Identify which tool input should be modified
    if isinstance(tool, McpTool) and tool.name == "generate_video_with_image":
        logging.info("Modify tool args for artifact: %s", args["image_data"])
        # Get the artifact filename from the tool input argument
        artifact_filename = args["image_data"]
        artifact = await tool_context.load_artifact(filename=artifact_filename)
        file_data = artifact.inline_data.data

        # Convert byte data to base64 string
        base64_data = base64.b64encode(file_data).decode("utf-8")

        # Then modify the tool input argument
        args["image_data"] = base64_data


async def after_tool_modifier(
    tool: BaseTool,
    args: dict[str, Any],
    tool_context: ToolContext,
    tool_response: dict | CallToolResult,
):
    if isinstance(tool, McpTool) and tool.name == "generate_video_with_image":
        tool_result = json.loads(tool_response.content[0].text)

        # Get the expected response field which contains the video data
        video_data = tool_result["video_data"]
        artifact_filename = f"video_{tool_context.function_call_id}.mp4"

        # Convert base64 string to byte data
        video_bytes = base64.b64decode(video_data)

        # Save the video as artifact
        await tool_context.save_artifact(
            filename=artifact_filename,
            artifact=Part(inline_data={"mime_type": "video/mp4", "data": video_bytes}),
        )

        # Remove the video data from the tool response
        tool_result.pop("video_data")

        # Then modify the tool response to include the artifact filename and remove the base64 string
        tool_result["video_artifact_id"] = artifact_filename
        logging.info(
            "Modify tool response for artifact: %s", tool_result["video_artifact_id"]
        )

        return tool_result

এরপর, আমাদের এজেন্টকে এই ফাংশনটি দিয়ে সজ্জিত করতে হবে। product_photo_editor/agent.py খুলুন এবং এটিকে নিম্নলিখিত কোডে পরিবর্তন করুন।

# product_photo_editor/agent.py

from google.adk.agents.llm_agent import Agent
from product_photo_editor.custom_tools import edit_product_asset
from product_photo_editor.mcp_tools import mcp_toolset
from product_photo_editor.model_callbacks import before_model_modifier
from product_photo_editor.tool_callbacks import (
    before_tool_modifier,
    after_tool_modifier,
)
from product_photo_editor.prompt import AGENT_INSTRUCTION

root_agent = Agent(
    model="gemini-2.5-flash",
    name="product_photo_editor",
    description="""A friendly product photo editor assistant that helps small business 
owners edit and enhance their product photos. Perfect for improving photos of handmade 
goods, food products, crafts, and small retail items""",
    instruction=AGENT_INSTRUCTION
    + """
**IMPORTANT: Base64 Argument Rule on Tool Call**

If you found any tool call arguments that requires base64 data,
ALWAYS provide the artifact_id of the referenced file to 
the tool call. NEVER ask user to provide base64 data. 
Base64 data encoding process is out of your 
responsibility and will be handled in another part of the system.
""",
    tools=[
        edit_product_asset,
        mcp_toolset,
    ],
    before_model_callback=before_model_modifier,
    before_tool_callback=before_tool_modifier,
    after_tool_callback=after_tool_modifier,
)

এটি সম্পন্ন হয়েছে, এখন আপনি এজেন্টকে কেবল ছবি সম্পাদনা করার জন্যই নয়, আপনার জন্য ভিডিও তৈরি করতেও সাহায্য করতে বলতে পারেন! নিম্নলিখিত কমান্ডটি আবার চালান।

uv run adk web --port 8080

তারপর, এই ছবিটি ব্যবহার করে ভিডিও তৈরি করার চেষ্টা করুন।

Generate a slow zoom in and moving from left and right animation

অনুসরণ

আপনি নীচে দেখানো উদাহরণের মতো তৈরি করা ভিডিওটি দেখতে পাবেন এবং ইতিমধ্যেই আর্টিফ্যাক্ট হিসেবে সংরক্ষিত আছে।

29150fa84f85d2fd.png সম্পর্কে

৭. ⭐ সারাংশ

এবার আসুন এই কোডল্যাবের সময় আমরা ইতিমধ্যে কী করেছি তা আবার দেখি, এখানে মূল শিক্ষাটি দেওয়া হল:

মাল্টিমোডাল ডেটা হ্যান্ডলিং (টুল I/O) : সরাসরি কাঁচা বাইট ডেটা পাস করার পরিবর্তে ADK-এর আর্টিফ্যাক্টস পরিষেবা এবং বিশেষায়িত কলব্যাক ব্যবহার করে টুল ইনপুট এবং আউটপুটের জন্য মাল্টিমোডাল ডেটা (যেমন ছবি এবং ভিডিও) পরিচালনা করার কৌশলকে শক্তিশালী করা হয়েছে।
MCP টুলসেট ইন্টিগ্রেশন : এজেন্টে ভিডিও জেনারেশন ক্ষমতা যোগ করার জন্য ADK MCP টুলসেটের মাধ্যমে FastMCP ব্যবহার করে একটি বহিরাগত Veo MCP সার্ভার তৈরি এবং সংহত করা হয়েছে।
টুল ইনপুট মডিফিকেশন (before_tool_callback) : generate_video_with_image টুল কলটি আটকানোর জন্য একটি কলব্যাক বাস্তবায়ন করা হয়েছে, যা ফাইলের আর্টিফ্যাক্ট_আইডি (LLM দ্বারা নির্বাচিত) কে MCP সার্ভারের ইনপুটের জন্য প্রয়োজনীয় বেস64-এনকোডেড ইমেজ ডেটাতে রূপান্তরিত করে।
টুল আউটপুট মডিফিকেশন (after_tool_callback) : MCP সার্ভার থেকে বৃহৎ base64-এনকোডেড ভিডিও রেসপন্স আটকাতে, ভিডিওটিকে একটি নতুন আর্টিফ্যাক্ট হিসেবে সংরক্ষণ করতে এবং LLM-এ একটি পরিষ্কার video_artifact_id রেফারেন্স ফেরত দিতে একটি কলব্যাক বাস্তবায়ন করা হয়েছে।

৮. 🧹 পরিষ্কার করা

এই কোডল্যাবে ব্যবহৃত রিসোর্সের জন্য আপনার Google ক্লাউড অ্যাকাউন্টে চার্জ এড়াতে, এই পদক্ষেপগুলি অনুসরণ করুন:

গুগল ক্লাউড কনসোলে, রিসোর্স পরিচালনা পৃষ্ঠায় যান।
প্রকল্পের তালিকায়, আপনি যে প্রকল্পটি মুছতে চান তা নির্বাচন করুন এবং তারপরে মুছুন ক্লিক করুন।
ডায়ালগে, প্রজেক্ট আইডি টাইপ করুন, এবং তারপর প্রজেক্টটি মুছে ফেলতে Shut down এ ক্লিক করুন।