Wykrywanie i edytowanie obiektów wizualnych za pomocą Gemini i Nano Banana

1. Przegląd

W tym module:

  • 1️⃣ Wykrywanie obiektów wizualnych na obrazach za pomocą Gemini
  • 2️⃣ Wyodrębnianie i przywracanie obiektów wizualnych za pomocą narzędzia Nano Banana
  • 3️⃣ Edytuj i przekształcaj przywrócone obiekty za pomocą narzędzia Nano Banana.

Oto kilka przykładów tego, co możesz osiągnąć:

1f2cadc1fd825c64.png

Czego się nauczysz

  • Jak przeprowadzić wykrywanie obiektów z otwartym słownictwem za pomocą funkcji przestrzennego rozumienia Gemini
  • Wyodrębnianie pól ograniczających, podpisów i etykiet dynamicznych za pomocą promptów w języku naturalnym
  • Przywracanie, zwalnianie miejsca i prostowanie zniekształconych lub starych obiektów wizualnych
  • Jak pisać prompty imperatywne i opisowe do edycji obrazów
  • Jak kreatywnie pokolorować i przekształcić obrazy w zupełnie nowe style
  • Jak „sfilmować” obrazy, aby uzyskać fotorealistyczne kadry z filmu fabularnego

Czego potrzebujesz

  • umiejętność uruchamiania kodu w języku Python w notatniku (w Colab lub w dowolnym innym środowisku Jupyter);
  • projekt w chmurze Google (Vertex AI) lub klucz interfejsu Gemini API (Google AI Studio) z włączonym rozliczeniem

ℹ️ Całkowity koszt uruchomienia modułu od początku do końca wynosi mniej niż 2 USD (45 wygenerowanych obrazów o rozdzielczości 1K,każdy po 1290 tokenów).

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

Zaczynamy...

2. Zanim zaczniesz

Aby korzystać z interfejsu Gemini API, masz 2 główne opcje:

  1. Za pomocą Vertex AI w projekcie Google Cloud
  2. Za pomocą Google AI Studio z kluczem interfejsu Gemini API

🛠️ Opcja 1. Gemini API w Vertex AI

Wymagania:

  • projekt Google Cloud,
  • Interfejs Vertex AI API musi być włączony w tym projekcie

🛠️ Opcja 2. Interfejs Gemini API w Google AI Studio

Wymaganie:

  • klucz interfejsu Gemini API,

Dowiedz się więcej o uzyskiwaniu klucza interfejsu Gemini API z Google AI Studio.

3. Uruchamianie notatnika

Wybierz preferowane narzędzie do otwierania notatnika:

🧰 Narzędzie A – otwórz notatnik w Colab

🧰 Narzędzie B – otwórz notatnik w Colab Enterprise lub Vertex AI Workbench

💡 Może to być preferowane, jeśli masz już projekt w chmurze Google Cloud skonfigurowany z instancją Colab Enterprise lub Vertex AI Workbench.

🧰 Narzędzie C – pobierz notatnik z GitHub i uruchom go w swoim środowisku

⚠️ Notatnik musisz pobrać z GitHub (lub sklonować repozytorium) i uruchomić we własnym środowisku Jupyter.

🗺️ Spis treści notatnika

Aby ułatwić sobie nawigację, rozwiń spis treści i z niego korzystaj. Przykład:

de85f5dcc0fe059e.png

🏁 Uruchom notatnik

Gotowe. Możesz teraz obserwować i uruchamiać notatnik. Baw się dobrze…

4. Gratulacje!

e3299284f68f56f4.png

Gratulujemy ukończenia ćwiczenia!

Więcej informacji