এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

Antigravity (AGY) CLI, BrowserMCP, Playwright, এবং Browser Agent ব্যবহার করে স্বয়ংক্রিয় UI টেস্টিং

১. ভূমিকা

এজেন্টিক এআই বিপ্লব আমাদের সফটওয়্যার তৈরির পদ্ধতিকে বদলে দিচ্ছে, যা পুরো প্রক্রিয়াটিকে অত্যন্ত আকর্ষণীয়, উত্তেজনাপূর্ণ এবং সহজলভ্য করে তুলছে। যে কাজ বা প্রকল্পগুলো সম্পন্ন করতে আগে ডেভেলপারদের কয়েক মাস সময় লাগত, সেগুলো এখন এজেন্টিক টুল ব্যবহার করে একটি মাত্র সেশনেই সম্পন্ন করা যায়।

এই এজেন্টিক রূপান্তরের জন্য একটি উপযুক্ত ক্ষেত্র হলো ওয়েব অ্যাপ্লিকেশন টেস্টিং। ঐতিহ্যগতভাবে, ওয়েব অ্যাপ পরীক্ষা করা একটি ঝামেলার কাজ এবং ভঙ্গুরতার বিরুদ্ধে এক নিরন্তর সংগ্রাম। কিন্তু কেমন হতো যদি আপনি সেই জটিলতাকে পুরোপুরি এড়িয়ে যেতে পারতেন? কেমন হতো যদি আপনি কোনো এজেন্টকে সহজ, স্বাভাবিক ভাষায় বলে দিতে পারতেন যে কী পরীক্ষা করতে হবে, এবং এজেন্টকেই তা সম্পাদনের উপায় বের করতে দিতেন?

এই কোডল্যাবে, আমরা দেখব কীভাবে এজেন্ট স্কিল এবং ব্রাউজারএমসিপি-র মতো মাল্টিমোডাল এমসিপি টুলের সাথে অ্যান্টিগ্র্যাভিটি সিএলআই ব্যবহার করতে হয়। আপনি দেখবেন কীভাবে স্বাভাবিক ভাষা ব্যবহার করে স্বয়ংক্রিয় ইউআই টেস্ট তৈরি ও রান করতে হয়, যা দেখাবে কীভাবে এজেন্টিক টুলগুলো জটিল কাজ সামলাতে পারে এবং একজন নির্মাতা হিসেবে আপনাকে অসাধারণ ক্ষমতা দিতে পারে।

গুরুত্বপূর্ণ বিষয় হলো, যদিও এই কোডল্যাবটি UI অটোমেশন এবং ব্রাউজার রিমোট কন্ট্রোলের নির্দিষ্ট ব্যবহারিক ক্ষেত্রগুলোর উপর আলোকপাত করে, এর অন্তর্নিহিত নীতিগুলো এবং সেগুলোর মাধ্যমে উন্মোচিত হওয়া সম্ভাবনার বিশাল জগৎই প্রকৃত অর্থে গুরুত্বপূর্ণ। এজেন্টদের স্থানীয় CLI এবং MCP সার্ভার ব্যবহার করতে শেখানোর মাধ্যমে, আমরা এমন সব জটিল ওয়ার্কফ্লো অর্পণ করতে পারি, যা অন্যথায় আমাদের নিজেদের সামলানোর মতো সময় বা বিশেষ দক্ষতা থাকত না।

আপনি যা শিখবেন

অ্যান্টিগ্র্যাভিটি সিএলআই কী এবং এটি অ্যান্টিগ্র্যাভিটি ইকোসিস্টেমে কীভাবে কাজ করে।
মডেল কনটেক্সট প্রোটোকল (MCP) কী এবং কেন এটি একটি যুগান্তকারী পরিবর্তন।
BrowserMCP কীভাবে এআই এজেন্টদের ওয়েব ব্রাউজার নিয়ন্ত্রণ করতে সক্ষম করে।
Antigravity CLI থেকে কীভাবে স্বয়ংক্রিয় UI টেস্ট চালানো যায়
এজেন্টদের দক্ষতা এবং এর সুবিধাগুলো বোঝা।
একজন এজেন্টকে দক্ষতার সাথে প্লেরাইট ব্যবহার করতে শেখানো।
অ্যান্টিগ্র্যাভিটির অন্তর্নির্মিত ব্রাউজার এজেন্ট বোঝা।
ব্রাউজার নিয়ন্ত্রণের অন্যান্য ব্যবহার।

আপনি যা করবেন

এই কোডল্যাবটিতে অ্যান্টিগ্র্যাভিটি সিএলআই, এমসিপি টুলস, এজেন্ট স্কিলস এবং একটি রিয়্যাক্ট ডেমো অ্যাপ্লিকেশন ব্যবহার করা হয়েছে।

আপনি করবেন:

আপনার ডেভেলপমেন্ট এনভায়রনমেন্ট সেট আপ করুন।
পরীক্ষার প্রয়োজন এমন একটি ডেমো অ্যাপ্লিকেশন অন্বেষণ করুন।
BrowserMCP-এর মাধ্যমে অ্যাপ্লিকেশনটির সাথে ইন্টারঅ্যাক্ট করতে Antigravity CLI ব্যবহার করুন।
আপনার এজেন্টকে এজেন্ট স্কিলের মাধ্যমে প্লেরাইট ব্যবহার করতে শেখান।

২. অ্যান্টিগ্র্যাভিটি ইকোসিস্টেম

২০২৬ সালের মে মাসে গুগল নতুন অ্যান্টিগ্র্যাভিটি স্যুটটি প্রকাশ করেছে। এটি ছিল অ্যান্টিগ্র্যাভিটির একটি বড় ধরনের সংস্কার এবং এটিকে চারটি পণ্যে বিভক্ত করা হয়েছে:

অ্যান্টিগ্র্যাভিটি ২.০, যা এখন আপনার ডেস্কটপের জন্য একটি বিশেষ এজেন্ট-কেন্দ্রিক "বিল্ডার" পরিবেশ। উল্লেখযোগ্যভাবে, এর মধ্যে নিজে থেকে কোনো IDE অন্তর্ভুক্ত নেই। পরিবর্তে, আমরা এখন শুধুমাত্র এজেন্ট ম্যানেজারের সাথে কাজ করি। এই প্ল্যাটফর্মটির লক্ষ্য হলো কোড নিয়ে চিন্তা না করে, এজেন্ট ব্যবহার করে "ধারণা থেকে পণ্য" তৈরির যুগের সূচনা করা। কোডিং ব্যাকগ্রাউন্ড নেই এমন অনেক বিল্ডার এটি পছন্দ করবেন।
অ্যান্টিগ্র্যাভিটি আইডিই আমাদেরকে আরও পরিচিত ভিএস কোডের মতো কোডিং পরিবেশ দেয়, যা অ্যান্টিগ্র্যাভিটি এজেন্ট হারনেস দ্বারা সমর্থিত। এখানে আমরা এজেন্ট-সহায়তায় ডেভেলপমেন্ট করতে পারি এবং সবসময় কোড দেখতে পাই। কোডাররা এখানে স্বাচ্ছন্দ্য বোধ করবেন।
অ্যান্টিগ্র্যাভিটি এসডিকে, যা আপনাকে অ্যান্টিগ্র্যাভিটি পরিচালনার জন্য প্রয়োজনীয় হারনেস এবং টুলস প্রদান করে, কিন্তু এটি একটি পাইথন এজেন্ট এসডিকে হিসেবে উপলব্ধ। google.antigravity থেকে ইম্পোর্ট করার মাধ্যমে আমরা প্রোগ্রাম্যাটিকভাবে অ্যান্টিগ্র্যাভিটির সক্ষমতাগুলো কাজে লাগাতে পারি।
অ্যান্টিগ্র্যাভিটি সিএলআই, যা অত্যন্ত চমৎকার জেমিনি সিএলআই-এর পরবর্তী সংস্করণ। জেমিনি মডেলগুলোর সাথে যোগাযোগের জন্য এটি এখনও একটি টার্মিনাল-কেন্দ্রিক পরিবেশ। কিন্তু নতুন অ্যান্টিগ্র্যাভিটি সিএলআই ‘গো’ (Go) ভাষায় তৈরি, এবং তা স্পষ্ট বোঝা যায়; এটি চালু হওয়ার সময় এবং সাধারণ ব্যবহার, উভয় ক্ষেত্রেই জেমিনি সিএলআই-এর চেয়ে অনেক দ্রুত বলে মনে হয়। এটি অ্যান্টিগ্র্যাভিটি ২.০ এবং আইডিই-এর মতোই একই এজেন্ট ‘হারনেস’ ব্যবহার করে, এবং এর ফলে অ্যান্টিগ্র্যাভিটি স্যুটের সব মডেলে একই সেটিংস ও কনফিগারেশন ব্যবহার করা যায়।

যদিও এই ল্যাবে Antigravity CLI ব্যবহারের উপর আলোকপাত করা হয়েছে, এখানকার সবকিছু Agy IDE বা Agy 2.0 দিয়েও করা সম্ভব।

৩. পূর্বশর্তসমূহ

আকর্ষণীয় বিষয়গুলোতে যাওয়ার আগে, চলুন নিশ্চিত হয়ে নিই যে আপনার প্রয়োজনীয় সবকিছু আছে।

সরঞ্জাম

এই ল্যাবটি ধরে নেয় যে আপনার কাছে ইতিমধ্যেই নিম্নলিখিত বিষয়গুলো রয়েছে:

Antigravity CLI ব্যবহার করার জন্য, আপনাকে Google-এর মাধ্যমে প্রমাণীকরণ করতে হবে। আপনি যখন প্রথমবার agy চালু করবেন, তখন এটি স্বয়ংক্রিয়ভাবে আপনার ডিফল্ট ওয়েব ব্রাউজারের মাধ্যমে Google সাইন-ইন করার জন্য অনুরোধ করবে। এই বিকল্পটির সাথে Gemini ব্যবহারের একটি উল্লেখযোগ্য পরিমাণ বিনামূল্যে কোটা পাওয়া যায় এবং এর জন্য কোনো Google Cloud প্রজেক্টের প্রয়োজন হয় না। যদি আপনার একটি Gemini API কী বা Google Cloud প্রজেক্ট থাকে, তবে আপনি এটিও কনফিগার করতে পারেন।

এই নির্দেশাবলী ধরে নেওয়া হয়েছে যে আপনি লিনাক্স (বা WSL) অথবা ম্যাকওএস পরিবেশে কাজ করছেন। আপনি যদি উইন্ডোজ ব্যবহার করেন (আমার মতো), তাহলে WSL ব্যবহার করে এটি অনুসরণ করতে পারেন।

(উল্লেখ্য যে, Google Cloud Shell থেকে BrowserMCP কাজ করবে না, কারণ এটি শুধুমাত্র একই মেশিনে চলমান একটি স্থানীয় ব্রাউজারের সাথে সংযোগ স্থাপন করে।)

উন্নয়ন পরিবেশ সেটআপ করুন

আমি গিটহাবে একটি ডেমো রিপো তৈরি করেছি। এতে একটি নমুনা অ্যাপ্লিকেশন রয়েছে যা আমরা আমাদের UI পরীক্ষার জন্য ব্যবহার করতে পারি। আপনার লোকাল টার্মিনাল থেকে এটি চালিয়ে অ্যাপ্লিকেশনটি ক্লোন করুন:

git clone https://github.com/derailed-dash/agentic-ui-testing
cd agentic-ui-testing

ডেমো অ্যাপটি চালু করার জন্য পরিবেশ সেট আপ করা সহজ করতে একটি মেকফাইল রয়েছে। চলুন, আমাদের পরিবেশটি ইনিশিয়ালাইজ করতে এটি রান করি:

make install

# Or if you don't have make
npm install --prefix demo-app

৪. আমাদের ডেমো অ্যাপ্লিকেশন

আজ আমরা যে অ্যাপটি পরীক্ষা করছি তা হলো ড্যাজবো অমনি-ড্যাশ — নিরাপত্তা টেলিমেট্রি পরিচালনার জন্য একটি ভবিষ্যৎমুখী, ডার্ক-থিমযুক্ত ড্যাশবোর্ড। (হ্যাঁ, এটি ভাইব কোড করা হয়েছে!)

এই অ্যাপটি কেন?

এটি একটি বাস্তবসম্মত পরীক্ষার পৃষ্ঠতল প্রদানের জন্য তৈরি করা হয়েছে, যার বৈশিষ্ট্যগুলো হলো:

মক অথেন্টিকেশন : একটি লগইন প্রক্রিয়া যার জন্য নির্দিষ্ট ক্রেডেনশিয়াল প্রয়োজন হয়।
ডাইনামিক কন্টেন্ট : টেলিমেট্রি কার্ড এবং সিকিউরিটি লগ যা রিয়েল-টাইম ডেটা অনুকরণ করে।
ইন্টারেক্টিভ স্টেট : নেভিগেশন মেনু এবং ফর্ম ইনপুট যা ব্যবহারকারীর কার্যকলাপের উপর ভিত্তি করে পরিবর্তিত হয়।
আধুনিক প্রযুক্তি : দ্রুত ও রেসপন্সিভ অভিজ্ঞতার জন্য React এবং Vite দিয়ে নির্মিত।

অ্যাপটি চালু করা হচ্ছে

অ্যাপ্লিকেশনটি শুরু করতে, শুধু চালান:

make dev

# Or if you don't have make
npm run dev --prefix demo-app

ডেভেলপমেন্ট সার্ভারটি খুব দ্রুত চালু হয়ে যাবে এবং অ্যাপটি http://localhost:5173 ঠিকানায় পাওয়া যাবে।

আমরা শুধু লিঙ্কে ক্লিক করে আমাদের ব্রাউজারে অ্যাপ্লিকেশনটি খুলতে পারি। আপনার টার্মিনালে এই প্রসেসটি চালু রাখুন। আমরা পরবর্তী টার্মিনাল কমান্ডগুলো একটি আলাদা টার্মিনাল সেশনে চালাব।

৫. UI টেস্টিং-এর চ্যালেঞ্জ

প্রচলিত UI টেস্টিং সঠিকভাবে করা অত্যন্ত কঠিন এবং তা বজায় রাখা আরও বেশি দুরূহ। এর সাধারণ সমস্যাগুলোর মধ্যে রয়েছে:

উচ্চ শেখার প্রক্রিয়া : শুধুমাত্র একটি সাধারণ ইন্টারঅ্যাকশন স্বয়ংক্রিয় করার জন্য ডেভেলপারদের জটিল ডোমেইন-নির্দিষ্ট ভাষা এবং ফ্রেমওয়ার্ক-নির্দিষ্ট খুঁটিনাটি (যেমন Selenium বা Playwright) আয়ত্ত করতে প্রচুর সময় বিনিয়োগ করতে হয়।
ভঙ্গুর সিলেক্টর এবং অটোমেশন : প্রচলিত স্ক্রিপ্টগুলো অনমনীয় DOM কাঠামো (যেমন div > div > button ) অথবা নির্দিষ্ট টেক্সট লেবেলের উপর নির্ভর করে। কী হবে যদি আপনি একটি 'লগ আউট' বাটনের নাম পরিবর্তন করে 'লগ অফ' রাখেন? অথবা একটি বাটনকে সম্পূর্ণ ভিন্ন কোনো মেনুতে সরিয়ে নেন? কিংবা আপনার HTML-এর কাঠামো পরিবর্তন করেন? এই কাজগুলো করলে প্রচলিত টেস্টিং টুলগুলো অকার্যকর হয়ে পড়বে, যার ফলে স্ক্রিপ্টটির ক্রমাগত রক্ষণাবেক্ষণের প্রয়োজন হবে।
টেস্টের "অস্থিরতা": যে টেস্টগুলো টাইমিং সমস্যা, রেস কন্ডিশন বা অ্যাসেট লোড হতে দেরি হওয়ার কারণে এক মিনিটে পাস করে এবং পরের মিনিটেই ফেল করে।
পরিবেশগত সমতা : সহজে প্রতিলিপি করা যায় না এমন অ্যাপ্লিকেশন স্টেটগুলো সামলানো এবং টেস্ট ডেটা পরিমার্জন করার অতিরিক্ত কাজ।

অভিপ্রায় বনাম বাস্তবায়ন

এই সমস্যাগুলো সমাধান করতে, আমাদের এমন একটি পরীক্ষা পদ্ধতি প্রয়োজন যা বাস্তবায়নের পরিবর্তে অভিপ্রায়ের উপর আলোকপাত করে।

এজেন্টিক এআই টুল ব্যবহার করে আমরা এমন পুনরাবৃত্তিমূলক অটোমেশন তৈরি করতে পারি যা সামান্য UI পরিবর্তন এবং কাঠামোগত পরিবর্তন থেকে সম্পূর্ণ সুরক্ষিত থাকে। নাম, লেবেল বা অবজেক্টের সঠিক স্তরবিন্যাস হার্ড-কোড করার পরিবর্তে, এজেন্ট ব্যবহারকারীর স্বাভাবিক ভাষার অভিপ্রায়ের উপর ভিত্তি করে কাজ সম্পাদন করে। যদি কোনো বাটন সরে যায় বা তার লেবেল সামান্য পরিবর্তিত হয়, এজেন্টের মাল্টিমোডাল ক্ষমতা তাকে এলিমেন্টটি খুঁজে বের করতে এবং কাজটি সফলভাবে সম্পন্ন করতে সাহায্য করে।

৬. উদ্ধারে এমসিপি

মডেল কনটেক্সট প্রোটোকল (MCP) একটি উন্মুক্ত স্ট্যান্ডার্ড যা এআই মডেল এবং এজেন্টদের বাহ্যিক টুল, এপিআই এবং ডেটার সাথে যোগাযোগ করতে দেয়। এটিকে একটি সার্বজনীন অ্যাডাপ্টার হিসেবে ভাবা যেতে পারে, যা মডেল এবং এজেন্টদের তাদের নাগালের মধ্যে থাকা টুলগুলো খুঁজে বের করতে ও কার্যকর করতে সাহায্য করে।

ঐতিহ্যগতভাবে, লার্জ ল্যাঙ্গুয়েজ মডেল (LLM)-কে বাহ্যিক ডেটা এবং টুলের সাথে একীভূত করার জন্য ডেভেলপারদের প্রতিটি নতুন ডেটা সোর্সের জন্য কাস্টম, হার্ড-কোডেড এপিআই কানেকশন লিখতে হতো। এর ফলে একটি অস্থিতিশীল "M x N" ইন্টিগ্রেশন সমস্যার সৃষ্টি হতো, যেখানে প্রতিটি নতুন মডেল এবং টুল রক্ষণাবেক্ষণের বোঝা বহুগুণ বাড়িয়ে দিত। মডেল কনটেক্সট প্রোটোকল (MCP) এই সক্ষমতাগুলোকে সমন্বয় করার জন্য নির্দিষ্ট কোড লেখার প্রয়োজনীয়তা দূর করে এই সমস্যার সমাধান করে। জটিল এক্সিকিউশন ওয়ার্কফ্লো স্পষ্টভাবে কোড করার পরিবর্তে, ডেভেলপাররা ব্যবহারকারীর স্বাভাবিক ভাষার অনুরোধগুলো ব্যাখ্যা করতে এবং তাৎক্ষণিকভাবে কোন টুলগুলো ব্যবহার করতে হবে সে সম্পর্কে গতিশীলভাবে সিদ্ধান্ত নিতে LLM-এর উপর নির্ভর করতে পারেন।

যখন কোনো ব্যবহারকারী স্বাভাবিক ভাষায় কোনো কমান্ড দেন (যেমন "localhost:5173-এ যান, 'admin' হিসেবে লগইন করুন এবং সাবমিট বোতামে ক্লিক করুন" ), তখন LLM উপলব্ধ সক্ষমতাগুলো খুঁজে বের করে এবং একটি নির্দিষ্ট টুল চালু করার জন্য একটি কাঠামোগত অনুরোধ তৈরি করে। MCP ক্লায়েন্ট একটি অনুবাদকের মতো কাজ করে, এই অনুরোধটিকে নির্ধারিত MCP সার্ভারে পাঠিয়ে দেয়, যা কাজটি সম্পাদন করে বা ডেটা সংগ্রহ করে এবং মডেলটিতে প্রাসঙ্গিক তথ্য ফেরত পাঠায়। এটি AI-কে স্বায়ত্তশাসিতভাবে কাজ করার ক্ষমতা দেয়, যার জন্য ডেভেলপারকে নির্দিষ্ট কার্যসম্পাদনের পথ হার্ড-কোড করতে হয় না।

যেহেতু MCP একটি সার্বজনীন মান তৈরি করে — যাকে প্রায়শই "AI অ্যাপ্লিকেশনের জন্য USB-C" হিসাবে বর্ণনা করা হয় — এটি ব্যাপক রেডিমেড পুনঃব্যবহারযোগ্যতার সুযোগ করে দেয়। ডেভেলপাররা একবার একটি MCP সার্ভার তৈরি করতে পারেন, এবং যেকোনো MCP-সামঞ্জস্যপূর্ণ AI হোস্ট তাৎক্ষণিকভাবে এর সাথে সংযোগ করতে পারে, যা M x N ইন্টিগ্রেশন সমস্যার সমাধান করে। আপনাকে আর প্রতিটি প্ল্যাটফর্মের জন্য কাস্টম API ব্রিজ তৈরি করতে হবে না; পরিবর্তে, আপনি GitHub, Slack, ডেটাবেস ইত্যাদির মতো সাধারণ পরিষেবাগুলির জন্য আগে থেকে তৈরি, ওপেন-সোর্স MCP সার্ভারের ইকোসিস্টেম ব্যবহার করতে পারেন; সেগুলিকে সরাসরি আপনার এজেন্টিক ওয়ার্কফ্লোতে যুক্ত করে। এই মডুলার, প্লাগ-এন্ড-প্লে আর্কিটেকচার নিশ্চিত করে যে আপনি যদি পরে LLM প্রোভাইডার পরিবর্তন করেন বা আপনার টুলস আপগ্রেড করেন, আপনার মূল ইন্টিগ্রেশন পরিকাঠামো সম্পূর্ণ অপরিবর্তিত থাকবে।

৭. BrowserMCP দিয়ে অটোমেশন

ব্রাউজারএমসিপি (BrowserMCP) কী?

আজ আমরা প্রথম যে টুলটি নিয়ে কাজ করব, তা হলো ব্রাউজারএমসিপি (BrowserMCP)। এটি একটি এমসিপি (MCP) সার্ভার যা এআই (AI) এজেন্টদের একটি ওয়েব ব্রাউজারের সাথে ইন্টারঅ্যাক্ট করার জন্য প্রয়োজনীয় 'চোখ' এবং 'হাত' প্রদান করে। সংক্ষেপে বলতে গেলে, এটি ব্রাউজারের সাথে মানুষের মিথস্ক্রিয়াকে অনুকরণ করে। এটি ওপেন সোর্স এবং আপনি এর গিটহাব রিপোটি এখানে দেখতে পারেন। ব্রাউজারএমসিপি-এর মূল ডকুমেন্টেশনটি এখানে দেখুন।

এর কয়েকটি সক্ষমতা নিচে দেওয়া হলো:

এটি ইউআরএল-এ নেভিগেট করতে পারে।
এটি DOM পরিদর্শন করতে পারে।
এটি বোতামে ক্লিক করতে এবং ফর্মে লেখা টাইপ করতে পারে।
এটি ড্র্যাগ-অ্যান্ড-ড্রপ করা যায়।
এটি ব্রাউজার কনসোল লগ পড়তে পারে।
এটি দ্রুত: অটোমেশনটি আপনার মেশিনেই স্থানীয়ভাবে সম্পন্ন হয়।

ব্রাউজার এমসিপি ইনস্টল করা

BrowserMCP ব্যবহার করার জন্য আপনাকে দুটি কাজ করতে হবে:

Chrome (বা যেকোনো Chromium-ভিত্তিক ব্রাউজার)-এ BrowserMCP এক্সটেনশনটি ইনস্টল করুন।
আপনার অ্যান্টিগ্র্যাভিটি কনফিগারেশনে এমসিপি সার্ভারটি ম্যানুয়ালি কনফিগার করুন।

এক্সটেনশনটি ইনস্টল করতে, শুধু এখানকার নির্দেশাবলী অনুসরণ করুন। এতে মাত্র কয়েক সেকেন্ড সময় লাগবে। এবং এটি ইনস্টল হয়ে গেলে, আপনার এজেন্টকে বর্তমান ট্যাবটি নিয়ন্ত্রণ করার অনুমতি দিতে এক্সটেনশনের মধ্যে থাকা 'কানেক্ট' (Connect) বোতামে ক্লিক করুন। (অবশ্যই, আপনি চাইবেন বর্তমান ট্যাবটি যেন সেটিই হয় যেখানে ডেমো অ্যাপ্লিকেশনটি চলছে!)

এরপরে, আমরা অ্যান্টিগ্র্যাভিটিতে প্রকৃত এমসিপি সার্ভারটি কনফিগার করব। এটি করার জন্য, আমরা আমাদের গ্লোবাল mcp_config.json ফাইলে browsermcp সার্ভার ডেফিনিশনটি যোগ করব।

~/.gemini/config/mcp_config.json ফাইলটি তৈরি বা সম্পাদনা করুন এবং নিম্নলিখিত কনফিগারেশনটি যোগ করুন:

{
  "mcpServers": {
    "browsermcp": {
      "command": "npx",
      "args": [
        "-y",
        "@browsermcp/mcp@latest"
      ]
    }
  }
}

অ্যান্টিগ্র্যাভিটি ইকোসিস্টেমে এমসিপি সার্ভার এবং স্কিল সেট আপ করার বিষয়ে বিস্তারিত নির্দেশনার জন্য, এই রিসোর্সগুলো দেখুন:

ব্রাউজারএমসিপি দিয়ে পরীক্ষা করা হচ্ছে

এবার আসল জাদু। প্রথমে, একটি নতুন টার্মিনাল সেশনে Antigravity CLI চালু করা যাক (agy রান করে)। (মনে রাখবেন, ডেমো অ্যাপ্লিকেশনটি আমাদের প্রাথমিক টার্মিনাল সেশনে চলছে।) ইন্টারেক্টিভ TUI-এর ভিতরে, সক্রিয় টুলগুলির তালিকা যাচাই করতে এবং browsermcp উপলব্ধ আছে কিনা তা নিশ্চিত করতে /mcp টাইপ করুন।

আপনি যদি আগে ডেমো অ্যাপ্লিকেশনটি চালু না করে থাকেন, তবে এখন এটি চালু করুন:

make dev

যদি আপনি ইতিমধ্যে তা না করে থাকেন, তাহলে আপনাকে আপনার ক্রোম ব্রাউজারে অ্যাপটি খুলতে হবে এবং সেই ট্যাবে BrowserMCP এক্সটেনশনটি সংযুক্ত করতে হবে। run কমান্ড থেকে লিঙ্কটি অনুসরণ করুন। তারপর BrowserMCP এক্সটেনশন আইকনে ক্লিক করুন এবং "Connect"-এ ক্লিক করুন।

এখন আমরা একটি পরীক্ষা চালানোর জন্য Agy CLI ব্যবহার করতে পারি। এই প্রম্পটটি কপি করে CLI-তে পেস্ট করুন:

Using BrowserMCP, connect to the application at http://localhost:5173. If the application is not showing a login screen, first logout. Then login as 'admin' with password 'password', and verify that the dashboard title says 'System Overview'. In the main dashboard, read the telemetry values shown, and present them back to me in a markdown table.

CLI প্রথমে পরীক্ষা করে দেখতে পারে যে ডেমো অ্যাপ্লিকেশনটি নির্দিষ্ট পোর্টে চলছে কিনা। তারপর, টুলটি যে কাজগুলো করতে চায়, তা নিশ্চিত করার জন্য আপনাকে অনুরোধ করবে।

এই সেশনের জন্য CLI-কে BrowserMCP-এর সমস্ত টুল চালানোর অনুমতি দিন। তারপর ব্রাউজারে ফিরে যান এবং স্বয়ংক্রিয় কার্যকলাপগুলো ঘটতে দেখুন!

উপরের নির্দেশটি সম্পর্কে কয়েকটি বিষয় লক্ষণীয়:

অ্যাপ্লিকেশনটিতে আগে থেকেই লগ ইন করা থাকলে, আমরা এজেন্টকে লগ আউট করতে বলে শুরু করি। উল্লেখ্য যে, এজেন্টকে "Exit Gateway"-এর মতো কোনো নির্দিষ্ট লেখায় ক্লিক করতে বলার প্রয়োজন নেই। এটি কিসে ক্লিক করতে হবে তা নিজেই বুঝে নেওয়ার মতো যথেষ্ট বুদ্ধিমান।
লগ ইন করে মূল পৃষ্ঠাটি রেন্ডার করার পর, এজেন্ট টেলিমেট্রি তথ্য সংগ্রহ করে। এক্ষেত্রেও, এজেন্টকে নির্দিষ্ট টাইলে খুঁজতে বা নির্দিষ্ট শব্দ মেলাতে বলার প্রয়োজন নেই। তাই, যদি আমরা পরবর্তীতে এই পৃষ্ঠায় প্রদর্শিত তথ্য প্রসারিত বা পরিবর্তন করি, তবুও এই নির্দেশটি কাজ করবে এবং এর আউটপুট আমাদের মার্কডাউন টেবিলে সংরক্ষিত হবে।

দারুণ, তাই না?

আপাতত BrowserMCP নিয়ে আমাদের কাজ শেষ, তাই আপনার ব্রাউজারে এটি সংযোগ বিচ্ছিন্ন করুন ।

৮. স্কিলস এবং প্লেরাইটের সাহায্যে অটোমেশন

BrowserMCP-এর সীমাবদ্ধতা

BrowserMCP চমৎকার, কিন্তু এর কিছু সীমাবদ্ধতা আছে। উদাহরণস্বরূপ:

এর জন্য ব্রাউজারএমসিপি (BrowserMCP) এক্সটেনশন সংযুক্ত একটি বিদ্যমান ব্রাউজার সেশন প্রয়োজন। (এটি নতুন সেশন তৈরি করে না।)
এটি নন-ক্রোমিয়াম ব্রাউজার সমর্থন করে না।
এর জন্য একটি পৃথক ব্রাউজার প্রসেস চালু থাকা প্রয়োজন, যা সেই একই মেশিনে থাকবে যেখানে এমসিপি সার্ভারটি চলছে।
এটি স্থানীয় ফাইল সিস্টেমের সাথে কাজ করতে পারে না। উদাহরণস্বরূপ, এটি স্ক্রিনশটের প্রমাণ হিসেবে স্থানীয় ফাইল তৈরি করতে পারে না, অথবা ওয়েব অ্যাপ্লিকেশন থেকে ফাইল, যেমন ডাউনলোডযোগ্য পিডিএফ, ডাউনলোড ও সংরক্ষণ করতে পারে না।
এটি অনির্দিষ্ট। আপনি এটিকে যে কাজগুলো করতে বলবেন, এটি তা করার চেষ্টা করবে, কিন্তু স্থানীয় অবস্থা, যেমন একটি অপ্রত্যাশিত পপ-আপ, এই মিথস্ক্রিয়াটি ভেঙে দিতে পারে।
এটি "হেডলেস" অপারেশন সমর্থন করে না, অর্থাৎ এটি একটি প্রকৃত ব্রাউজার উইন্ডো ছাড়া CI/CD পাইপলাইনে চলতে পারে না।

নাট্যকার

প্লেরাইট একটি অনেক বেশি উন্নত টুল। এটি একটি সুপ্রতিষ্ঠিত, ওপেন-সোর্স ব্রাউজার অটোমেশন এবং টেস্টিং ফ্রেমওয়ার্ক। এটি এমন অনেক কাজ করতে পারে যা ব্রাউজারএমসিপি পারে না, যার মধ্যে উপরে উল্লিখিত সমস্ত বিষয়ও অন্তর্ভুক্ত।

এটি জটিল, নির্ভরযোগ্য এবং পুনরাবৃত্তিযোগ্য পরীক্ষার পরিস্থিতি চালানোর জন্য অনেক বেশি উপযুক্ত। এবং এটি দীর্ঘ সময় ধরে চলা সেশন নিয়ে কাজ করার জন্য, বা সমান্তরালভাবে একাধিক স্বাধীন সেশন চালানোর জন্য বিশেষভাবে উপযোগী।

কিন্তু এই ধরনের অতিরিক্ত সক্ষমতার সাথে শেখার প্রক্রিয়াটিও অনেক বেশি কঠিন হয়ে ওঠে।

দক্ষতা

সৌভাগ্যবশত, আমাদের সরাসরি প্লেরাইট ব্যবহার করা শিখতে হবে না। এর পরিবর্তে, আমরা একটি এজেন্ট স্কিল ব্যবহার করতে পারি।

তাহলে, এজেন্ট স্কিল আসলে কী? এটিকে ডোমেইন দক্ষতার একটি সুসংহত প্যাকেজ হিসেবে ভাবুন, যা আপনি আপনার এআই এজেন্টকে কোনো নির্দিষ্ট কাজ করার প্রয়োজন হলে তার হাতে তুলে দিতে পারেন। এতে নির্দেশাবলী, সেরা অনুশীলন এবং কখনও কখনও কোনো বিশেষ কাজের জন্য তৈরি সহায়ক স্ক্রিপ্টও থাকে।

এর আসল চালাকিটা হলো: প্রগতিশীল প্রকাশ । LLM-এর প্রাথমিক সিস্টেম প্রম্পটে সম্ভাব্য সব API ডকুমেন্টেশন এবং টেস্টিং ফ্রেমওয়ার্কের নিয়ম ঢুকিয়ে দেওয়ার পরিবর্তে—যা আপনার কনটেক্সট উইন্ডো নষ্ট করে এবং প্রচুর টোকেন খরচ করে—এজেন্ট কেবল তখনই স্কিলটি পড়ে যখন তার সত্যিই প্রয়োজন হয়। এটি বেসলাইন কনটেক্সটকে সংক্ষিপ্ত ও কার্যকর রাখে এবং ঠিক সময়ে বিস্তারিত "কীভাবে করতে হবে" তা সংগ্রহ করে। এবং হ্যাঁ, কোনো কাজ সম্পন্ন করার জন্য নির্দিষ্ট MCP সার্ভার কীভাবে ব্যবহার করতে হবে, সেই সংক্রান্ত নির্দেশাবলী একটি স্কিলে অবশ্যই অন্তর্ভুক্ত থাকতে পারে।

ব্যাপারটাকে ‘দ্য ম্যাট্রিক্স’ সিনেমার সেই দৃশ্যটার মতো করে ভাবুন: এজেন্ট একটা সমস্যা দেখে, বুঝতে পারে যে এর জন্য ‘প্লেরাইট’ জানা দরকার, দক্ষতাটা ডাউনলোড করে নেয়, আর হঠাৎ করেই বলে ওঠে: “আমি কুংফু জানি।” ব্যস। মুহূর্তেই বিশেষজ্ঞ।

দক্ষতা সম্পর্কে আরও জানতে চাইলে, নিম্নলিখিত বিষয়গুলো দেখুন:

নাট্যকারের জন্য দক্ষতা কেন উপযুক্ত

এখানে একটি স্কিল ব্যবহার করা একটি চমৎকার সিদ্ধান্ত। প্লেরাইট অত্যন্ত শক্তিশালী, কিন্তু এর সিনট্যাক্স বেশ জটিল হতে পারে। এজেন্টকে একটি প্লেরাইট স্কিল দেওয়ার মাধ্যমে, আমাদের এলএলএম-এর পুরনো সিনট্যাক্স নিয়ে বিভ্রান্ত হওয়া বা দুর্বল সিলেক্টর লেখার বিষয়ে চিন্তা করতে হয় না। আমরা তাকে প্লেরাইট ঠিক কীভাবে ব্যবহার করতে হয়, তার উপর একটি সুবিন্যস্ত ও প্রামাণ্য প্লেবুক দিচ্ছি।

আমি প্লেরাইট সিএলআই এবং এর সংশ্লিষ্ট দক্ষতাটি ব্যবহার করতে যাচ্ছি।

এই পদ্ধতিতে আমরা স্থানীয়ভাবে প্লেরাইট সিএলআই (Playwright CLI) ইনস্টল করি এবং তারপর আমাদের এজেন্টকে এটি ব্যবহার করার জন্য প্রয়োজনীয় জ্ঞান প্রদান করি। কোনো বিভ্রান্তি এড়ানোর জন্য জানিয়ে রাখি: আমি কোনো প্লেরাইট এমসিপি (Playwright MCP) সার্ভার ইনস্টল করছি না।

ইনস্টল করা

চলুন প্রথমে ওপেন সোর্স মাইক্রোসফট প্লেরাইট সিএলআই (Microsoft Playwright CLI) ইনস্টল করি। যদি আপনি ইতিমধ্যে তা না করে থাকেন, তাহলে / quit` টাইপ করে ইন্টারেক্টিভ সিএলআই (interactive CLI) থেকে বেরিয়ে আসুন। তারপর, আপনার টার্মিনালে:

# Pre-req: nodejs installed
npm install -g @playwright/cli@latest # Install Playwright CLI globally
npm install @playwright/test # Install Playwright test framework

npx playwright install-deps # Install dependencies
npx playwright install chromium chrome # Install browser binaries in Linux / WSL

এবং এখন চলুন স্কিলটি যোগ করি। এই কমান্ডটি সরাসরি গিটহাব থেকে স্কিল সাবফোল্ডারটি আমাদের জেমিনি স্কিলস ফোল্ডারে ডাউনলোড করবে:

mkdir -p ~/.gemini/skills
npx degit microsoft/playwright-cli/skills/playwright-cli ~/.gemini/skills/playwright-cli

এখন আমরা এটা পরীক্ষা করতে পারি।

# Launch Playwright CLI with visible browser
playwright-cli open https://playwright.dev --headed

এর ফলে একটি ব্রাউজার সেশন চালু হবে, যা নির্দিষ্ট ইউআরএল-এ খুলবে।

আমি আরও চাই যে জেমিনি যেন প্লেরাইটকে "হেডেড" মোডে, অর্থাৎ একটি দৃশ্যমান UI সহ ব্যবহার করতে পারে। কিন্তু স্কিলটিতে বলা নেই যে সেটা কীভাবে করতে হবে। তাই আমি ~/.gemini/skills/playwright-cli/SKILL.md ফাইলের Core সেকশনে এই লাইনগুলো যোগ করেছি:

# Add the following under the "playwright-cli open" command

# Run in headed mode so we can see the browser
playwright-cli open https://playwright.dev --headed

নাট্যকারের সাথে পরীক্ষা

আগের মতোই, আমাদের অ্যাপ্লিকেশনটি চালু করতে হবে (যদি এটি আগে থেকে চালু না থাকে)। প্রাথমিক টার্মিনাল সেশন থেকে এটি করুন:

make dev

তারপর, অন্য টার্মিনাল সেশনে, BrowserMCP সাময়িকভাবে নিষ্ক্রিয় করে দেওয়া যাক, যাতে এজেন্ট কোন টুল ব্যবহার করবে তা নিয়ে বিভ্রান্ত না হয়। Antigravity CLI ( agy ) পুনরায় চালু করুন। আমরা সরাসরি TUI-এর মাধ্যমে ব্রাউজারএমসিপি সার্ভারটি সাময়িকভাবে নিষ্ক্রিয় করতে পারি:

এমসিপি ম্যানেজমেন্ট প্যানেলটি খোলার জন্য প্রম্পট বক্সে /mcp টাইপ করুন।
browsermcp ) নির্বাচন করতে অ্যারো কী (উপর/নিচ) ব্যবহার করুন এবং এন্টার/রিটার্ন চাপুন।
Disable নির্বাচন করতে ডানদিকে যান এবং এটি বন্ধ করতে Enter চাপুন।

এখন আমরা প্লেরাইট ব্যবহার করে এজেন্টকে আমাদের অ্যাপ্লিকেশনে নেভিগেট করতে বলব। কিন্তু ব্রাউজারএমসিপি-র মতো, আমাদের প্রথমে ব্রাউজার চালু করার প্রয়োজন নেই। প্লেরাইট একটি লোকাল প্রসেসের মাধ্যমে আমাদের জন্য সেই কাজটি করে দেবে।

Agy CLI-তে এই প্রম্পটটি প্রবেশ করান:

Using Playwright, connect to the application at http://localhost:5173. Then login as 'admin' with password 'password', and verify that the dashboard title says 'System Overview'. Take a screenshot of the dashboard and save it to output/dashboard.png. In the main dashboard, read the telemetry values shown, and present them back to me in a markdown table.

(বরাবরের মতোই, যেকোনো টুল চালানোর আগে CLI অনুমতি চাইবে।)

এখানে আলাদা কী আছে?

আমাদের প্রথমে ব্রাউজার চালু করার প্রয়োজন ছিল না।
আমাদের কোনো ব্রাউজার এক্সটেনশন চালু ও সংযুক্ত করার প্রয়োজন হয়নি।
এজেন্টকে প্রথমে লগঅফ করতে বলার প্রয়োজন নেই। টেস্টটি একটি 'ক্লিন' সেশন থেকে ইনস্ট্যানশিয়েট হয়।
আমরা স্ক্রিনশট নিতে এবং সেগুলোকে স্থানীয় ফাইল হিসেবে সংরক্ষণ করতে পারি।

এর কিছুক্ষণ পরেই আপনি আউটপুট ফোল্ডারে একটি dashboard.png ফাইল দেখতে পাবেন।

লক্ষ্য করুন যে আপনি Agy CLI-তে টুল কলগুলো চলতে দেখবেন, কিন্তু ব্রাউজার UI দেখতে পাবেন না। এর কারণ হলো Playwright ডিফল্টভাবে 'হেডলেস মোডে' চলে।

কিন্তু আপনি যদি এই সংশোধিত প্রম্পটটি দিয়ে আবার চালান, তাহলে আপনি UI-টিও দেখতে পাবেন:

Using Playwright, connect to the application at http://localhost:5173 in **headed** mode, and keep the browser open when you're done. Login as 'admin' with password 'password', and verify that the dashboard title says 'System Overview'. Take a screenshot of the dashboard and save it to output/dashboard.png. In the main dashboard, read the telemetry values shown and record them. Then wait 3 seconds, read them again. Now present the data back to me in a markdown table.

Agy CLI আউটপুটটি দেখতে অনেকটা এইরকম হবে:

সেটা কী দারুণ ছিল!

৯. অ্যান্টিগ্র্যাভিটির অন্তর্নির্মিত ব্রাউজার এজেন্ট

গুগল অ্যান্টিগ্র্যাভিটি তার নিজস্ব বিল্ট-ইন ব্রাউজার এজেন্ট ( ব্রাউজার সাবএজেন্ট ) সহ আসে, যা প্লেরাইট সিএলআই-এর মতো আলাদা কোনো টুল ইনস্টল করার প্রয়োজন ছাড়াই স্বয়ংক্রিয়ভাবে ব্রাউজার অটোমেশনের সুবিধা প্রদান করে।

এটি কীভাবে কাজ করে

আপনার ব্রাউজার নিয়ন্ত্রণ করার জন্য, বিল্ট-ইন ব্রাউজার এজেন্ট সরাসরি ক্রোম ডেভটুলস প্রোটোকল (CDP)-এর মাধ্যমে কাজ করে, ফলে অ্যান্টিগ্র্যাভিটি ২.০ এবং IDE-তে কোনো ব্রাউজার এক্সটেনশন বা মধ্যবর্তী প্লাগইনের প্রয়োজন হয় না।

চালু হলে, অ্যান্টিগ্র্যাভিটি একটি ওয়েবসকেট সংযোগের মাধ্যমে স্থানীয় ডিবাগিং পোর্ট ব্যবহার করে আপনার ক্রোম ইনস্ট্যান্সের সাথে সংযুক্ত হয়। এজেন্ট থেকে আসা উচ্চ-স্তরের নির্দেশাবলী সরাসরি নিম্ন-স্তরের সিডিপি কমান্ডে রূপান্তরিত হয়, যা:

পেজের DOM পরিবর্তন করুন (যেমন এলিমেন্টে ক্লিক করা বা টেক্সট প্রবেশ করানো)।
ব্রাউজারের অবস্থা নিয়ন্ত্রণ করুন এবং নেভিগেশন চালু করুন।
রিয়েল-টাইম ফ্রেম এবং ভিজ্যুয়াল ডেটা ক্যাপচার করুন।

সরাসরি সিডিপি নিয়ন্ত্রণের সাথে ভিজ্যুয়াল, মাল্টিমোডাল বিশ্লেষণকে একত্রিত করে, সাবএজেন্ট আপনার উচ্চ-স্তরের লক্ষ্য (যেমন, "ড্যাশবোর্ডে সঠিক টেলিমেট্রি মান প্রদর্শিত হচ্ছে কিনা তা যাচাই করুন") গ্রহণ করে, কী কী পদক্ষেপ প্রয়োজন তা বের করার জন্য পৃষ্ঠাটি দৃশ্যত বিশ্লেষণ করে এবং সেগুলি নিজেই সম্পাদন করে। এটি স্বয়ংক্রিয়ভাবে তার কার্যকলাপের ভিডিও রেকর্ড করে এবং স্ক্রিনশট নেয়, এবং পরীক্ষার সম্পাদনের চাক্ষুষ প্রমাণ হিসাবে সেগুলিকে সরাসরি আপনার ওয়ার্কস্পেসে আর্টিফ্যাক্ট হিসাবে সংরক্ষণ করে।

সরঞ্জামের প্রাপ্যতা

টার্মিনাল-ভিত্তিক অ্যান্টিগ্র্যাভিটি সিএলআই (এজি সিএলআই)-তে বিল্ট-ইন ব্রাউজার এজেন্ট এখনও সমর্থিত নয়। তবে, আপনি বর্তমানে অ্যান্টিগ্র্যাভিটি আইডিই এবং অ্যান্টিগ্র্যাভিটি ২.০-তে এটি কোনো অতিরিক্ত কনফিগারেশন ছাড়াই ব্যবহার করতে পারেন। আশা করা যায়, ভবিষ্যতের কোনো রিলিজে এজি সিএলআই-তে ব্রাউজার এজেন্টের জন্য সমর্থন যুক্ত হবে!

WSL ব্যবহারকারীদের জন্য একটি বিজ্ঞপ্তি: WSL-এর অধীনে Antigravity-তে ব্রাউজার এজেন্টকে কার্যকর করা এখন আগের চেয়ে অনেক সহজ। জটিল নেটওয়ার্ক রাউটিং এবং পোর্ট ফরওয়ার্ডিং নিয়ে কাজ করার পরিবর্তে, আপনাকে কেবল আপনার WSL কনফিগারেশনে 'মিররড' নেটওয়ার্ক মোড চালু করতে হবে। একটি সম্পূর্ণ ধাপে ধাপে নির্দেশনার জন্য, "Resolving WSL Friction with Google Antigravity: The Agy 2.0 and Agy IDE Edition" গাইডটি দেখুন।

১০. ব্রাউজার অটোমেশনের অন্যান্য ব্যবহার

ব্রাউজার অটোমেশন মানে শুধু শুক্রবার বিকেলে ডেপ্লয়মেন্টের আগে আপনার লগইন বাটনটি ঠিকমতো কাজ করছে কি না, তা নিশ্চিত করা নয়। একবার যখন আপনি বুঝতে পারবেন যে একটি এলএলএম (LLM) সরাসরি ব্রাউজারের সাথে যুক্ত করা যায়, তখন আপনার নিজস্ব উদ্যোগে তৈরি ও সক্রিয় প্রকল্পের এক সম্পূর্ণ নতুন জগৎ উন্মোচিত হবে।

আপনি যদি নিজের এআই এজেন্ট তৈরি করেন, তাহলে কঠিন কাজগুলো সহজ করার জন্য BrowserMCP বা Playwright CLI-এর মতো টুল ব্যবহার করার কয়েকটি উপায় নিচে দেওয়া হলো:

ব্যক্তিগত গবেষণা সহকারী: কল্পনা করুন, আপনি আপনার এজেন্টকে একটি নির্দিষ্ট ইউআরএল দেখিয়ে কোনো একটি বিষয় নিয়ে গবেষণা করতে বললেন, কিন্তু সাইটটিতে লগ ইন করে জটিল মেনু নেভিগেট করতে হয়। এমন একটি কাস্টম ওয়েব স্ক্র্যাপার লেখার পরিবর্তে যা হয়তো পরের সপ্তাহেই বিকল হয়ে যাবে, আপনি আপনার এজেন্টকে শুধু লগ ইন করতে, ডেটা খুঁজে বের করতে এবং আপনার জন্য সেটির সারসংক্ষেপ তৈরি করে দিতে বললেন।
"সুইভেল-চেয়ার" ইন্টিগ্রেটর: আমাদের সবারই এমন পুরোনো ইন্ট্রানেট সিস্টেম আছে যেগুলোতে এপিআই (API) নেই। আপনি নিশ্চয়ই সেগুলো চেনেন — যেখানে আপনাকে সিস্টেম ‘এ’ থেকে ডেটা ম্যানুয়ালি কপি করে সিস্টেম ‘বি’-এর একটি ফর্মে পেস্ট করতে হয়। ব্রাউজার অটোমেশনসহ একটি এজেন্ট সার্বজনীন সংযোগকারী হিসেবে কাজ করতে পারে, যা পুরোনো সিস্টেমের স্ক্রিন পড়ে নতুন সিস্টেমের ফর্মটি পূরণ করে দেয়।
স্বয়ংক্রিয় ট্রায়েজ এবং প্রতিকার: ভোর ৩টায় আপনার মনিটরিং সিস্টেম থেকে একটি P1 অ্যালার্ট পেয়েছেন? আপনার এজেন্ট স্বয়ংক্রিয়ভাবে নির্দিষ্ট ড্যাশবোর্ড URL খুলতে, গ্রাফ বা লগ পড়তে (এর মাল্টিমোডাল ভিশন ক্ষমতা ব্যবহার করে), এবং সরাসরি আপনার স্ল্যাক চ্যানেলে একটি সারসংক্ষেপ পোস্ট করতে পারে, যা কোনো ঘটনার সময় আপনার মূল্যবান মিনিট বাঁচিয়ে দেবে।

এই পদ্ধতির সৌন্দর্য হলো, আপনি আর উপলব্ধ এপিআই (API)-এর দ্বারা সীমাবদ্ধ নন। একজন মানুষ যদি ব্রাউজারে কোনো কাজ করতে পারে, আপনার এজেন্টও তা পারবে।

১১. উপসংহার

অভিনন্দন! আপনি একটি এআই এজেন্টকে সহজ ইংরেজিতে কী করতে চান তা বলে দিয়েই স্বয়ংক্রিয় ও শক্তিশালী UI টেস্ট তৈরি এবং কার্যকর করেছেন। কোনো ভঙ্গুর CSS সিলেক্টর বা জটিল সেটআপ স্ক্রিপ্টের প্রয়োজন নেই।

আপনি শিখেছেন:

UI টেস্টিং কষ্টকর হওয়ার কোনো প্রয়োজন নেই : ভঙ্গুর DOM বাস্তবায়নের পরিবর্তে পরীক্ষার মূল উদ্দেশ্যের উপর মনোযোগ দিলে, আমরা রক্ষণাবেক্ষণের অতিরিক্ত কাজ ব্যাপকভাবে কমাতে পারি।
মডেল কনটেক্সট প্রোটোকল (MCP) আপনার এজেন্টদের টুল, ডেটা এবং পরিবেশে সার্বজনীন ও প্লাগ-এন্ড-প্লে অ্যাক্সেস প্রদান করে।
BrowserMCP আপনার স্থানীয় ও বিদ্যমান ক্রোম সেশনগুলিতে এজেন্টিক সক্ষমতা নিয়ে আসার জন্য একটি অসাধারণ টুল।
Skills এবং Playwright CLI পুনরাবৃত্তিযোগ্য ও সুনির্দিষ্ট অটোমেশন টেস্টিংয়ের এক নতুন মাত্রা উন্মোচন করে — যার পুরোটাই প্রগ্রেসিভ ডিসক্লোজার দ্বারা চালিত।
অ্যান্টিগ্র্যাভিটির ব্রাউজার সাবএজেন্ট স্বয়ংক্রিয়, মাল্টিমোডাল নেভিগেশন এবং আর্টিফ্যাক্ট রেকর্ডিংয়ের মতো সুবিধাগুলো সরাসরি চালু করে বিষয়টিকে আরও এক ধাপ এগিয়ে নিয়ে যায়।

এবার এগিয়ে যান এবং বিরক্তিকর কাজগুলো স্বয়ংক্রিয় করে ফেলুন!

১২. প্রয়োজনীয় লিঙ্ক

আজ আমরা যে সরঞ্জাম এবং ধারণাগুলো নিয়ে আলোচনা করেছি, সে সম্পর্কে আরও গভীরভাবে জানতে চাইলে এই উৎসগুলো দেখে নিতে পারেন:

রিপো কোড

agentic-ui-testing গিটহাব রিপো - এই কোডল্যাবটি যদি আপনার কাজে এসে থাকে, তবে রিপোটিতে একটি স্টার দিন!

মূল সরঞ্জাম এবং কাঠামো

সক্রিয় ধারণা ও দক্ষতা

অন্যান্য