Gemini और Nano Banana की मदद से, विज़ुअल ऑब्जेक्ट का पता लगाना और उनमें बदलाव करना

1. खास जानकारी

इस लैब में, आपको ये काम करने का तरीका पता चलेगा:

  • 1️⃣ Gemini की मदद से, इमेज में मौजूद विज़ुअल ऑब्जेक्ट का पता लगाना
  • 2️⃣ Nano Banana की मदद से, विज़ुअल ऑब्जेक्ट को एक्सट्रैक्ट और रीस्टोर करना
  • 3️⃣ Nano Banana की मदद से, रीस्टोर किए गए ऑब्जेक्ट में बदलाव करना और उन्हें ट्रांसफ़ॉर्म करना

यहां कुछ उदाहरण दिए गए हैं कि आपको क्या-क्या मिलेगा:

1f2cadc1fd825c64.png

आपको क्या-क्या सीखने को मिलेगा

  • Gemini की स्पेस से जुड़ी जानकारी का इस्तेमाल करके, ओपन-वोकैबलरी ऑब्जेक्ट डिटेक्शन करने का तरीका
  • नैचुरल लैंग्वेज प्रॉम्प्ट का इस्तेमाल करके, बाउंडिंग बॉक्स, कैप्शन, और डाइनैमिक लेबल एक्सट्रैक्ट करने का तरीका
  • टेढ़े-मेढ़े या विंटेज विज़ुअल ऑब्जेक्ट को रीस्टोर करने, साफ़ करने, और सीधा करने का तरीका
  • इमेज में बदलाव करने के लिए, ज़रूरी और जानकारी देने वाले प्रॉम्प्ट लिखने का तरीका
  • क्रिएटिव तरीके से, विज़ुअल में रंग भरने और उन्हें पूरी तरह से नई स्टाइल में ट्रांसफ़ॉर्म करने का तरीका
  • विज़ुअल को "सिनेमैटिक" बनाकर, असली लगने वाली लाइव-ऐक्शन मूवी के स्टिल में बदलने का तरीका

आपको किन चीज़ों की ज़रूरत होगी

  • नोटबुक में Python चलाने का तरीका पता होना चाहिए. जैसे, Colab या Jupyter के किसी अन्य एनवायरमेंट में
  • आपके पास Google Cloud प्रोजेक्ट या बिलिंग की सुविधा वाला Gemini API पासकोड होना चाहिए

ℹ️ लैब को शुरू से आखिर तक चलाने की कुल लागत, दो डॉलर से कम है. इसमें 45 इमेज जनरेट की गई हैं. हर इमेज में 1,290 टोकन हैं.

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

आइए शुरू करें...

2. शुरू करने से पहले

Gemini API का इस्तेमाल करने के लिए, आपके पास दो मुख्य विकल्प हैं:

  1. Google Cloud प्रोजेक्ट के साथ Agent Platform (पहले इसे Vertex AI कहा जाता था) के ज़रिए
  2. Gemini API पासकोड के साथ Google AI Studio के ज़रिए

🛠️ पहला विकल्प - Agent Platform के ज़रिए Gemini API

ज़रूरतें:

  • आपके पास Google Cloud प्रोजेक्ट होना चाहिए
  • इस प्रोजेक्ट के लिए, Agent Platform API चालू होना चाहिए

🛠️ दूसरा विकल्प - Google AI Studio के ज़रिए Gemini API

ज़रूरी शर्त:

  • आपके पास Gemini API पासकोड होना चाहिए

Google AI Studio से Gemini API पासकोड पाने के बारे में ज़्यादा जानें.

3. नोटबुक चलाना

नोटबुक खोलने के लिए, अपनी पसंद का टूल चुनें:

🧰 टूल A - Colab में नोटबुक खोलना

🧰 टूल B - Colab Enterprise या Workbench में नोटबुक खोलना

💡 अगर आपने पहले से ही Colab Enterprise या Workbench इंस्टेंस के साथ कोई Google Cloud प्रोजेक्ट कॉन्फ़िगर किया है, तो यह विकल्प आपके लिए बेहतर हो सकता है.

🧰 टूल C - GitHub से नोटबुक पाना और उसे अपने एनवायरमेंट में चलाना

⚠️ आपको GitHub से नोटबुक पाने (या रिपॉज़िटरी को क्लोन करने) और उसे अपने Jupyter एनवायरमेंट में चलाने की ज़रूरत होगी.

🗺️ नोटबुक की विषय सूची

आसानी से नेविगेट करने के लिए, विषय सूची को बड़ा करें और उसका इस्तेमाल करें. उदाहरण:

de85f5dcc0fe059e.png

🏁 नोटबुक चलाना

अब आप तैयार हैं. अब नोटबुक को फ़ॉलो और चलाया जा सकता है. मज़े करें!...

4. बधाई हो!

e3299284f68f56f4.png

कोड लैब पूरा करने के लिए बधाई!

ज़्यादा जानें