Wprowadzenie do Gemini 2.5 Pro w Google Cloud

1. Przegląd

Wprowadzenie

Gemini 2.5 Pro to najbardziej zaawansowany model Google do kodowania i wiedzy o świecie.

Modele Gemini z serii 2.5 to teraz modele wnioskowania hybrydowego. Gemini 2.5 Pro może poświęcić więcej czasu na przemyślenie zadań i używać narzędzi, aby zmaksymalizować dokładność odpowiedzi.

Gemini 2.5 Pro:

  • Znacznie lepszy od poprzednich modeli pod względem możliwości, w tym kodowania, rozumowania i multimodalności.
  • Najlepszy w branży w zakresie rozumowania, z najnowocześniejszymi wynikami w testach porównawczych z matematyki i nauk przyrodniczych, techniki, inżynierii i matematyki.
  • Świetny model do kodowania, zwłaszcza do tworzenia stron internetowych.
  • Szczególnie dobrze sprawdza się w przypadku złożonych promptów, ale jest też wszechstronny. Zajmuje 1 miejsce na liście LMSys.

Czego się nauczysz

Z tego samouczka dowiesz się, jak używać interfejsu Gemini API i pakietu Google Gen AI SDK for Python z modelem Gemini 2.5 Pro.

Wykonasz te zadania:

  • Generowanie tekstu na podstawie promptów tekstowych
    • Generowanie tekstu strumieniowego
    • Rozpoczynanie czatów wieloetapowych
    • Używanie metod asynchronicznych
  • Konfigurowanie parametrów modelu
  • Ustawianie instrukcji systemowych
  • Korzystanie z filtrów bezpieczeństwa
  • Korzystanie z generowania kontrolowanego
  • Liczba tokenów
  • przetwarzanie danych multimodalnych (audio, kod, dokumenty, obrazy, wideo);
  • Korzystanie z automatycznego i ręcznego wywoływania funkcji
  • Wykonanie kodu
  • Przykłady trybu myślenia

2. Zanim zaczniesz

Wymagania wstępne

Zanim zaczniesz, musisz mieć projekt w Google Cloud z ważnym kontem rozliczeniowym. Wybierz projekt Google Cloud, którego chcesz używać.

Aby przeprowadzić to ćwiczenie, użyjemy Colab Enterprise, czyli zarządzanego środowiska notatników, które umożliwia współpracę, a przy tym udostępnia funkcje zabezpieczeń i zgodności z regulacjami oferowane w Google Cloud.

Włączanie wymaganych interfejsów API

Kliknij przycisk poniżej, aby włączyć w projekcie Google Cloud interfejsy API niezbędne do tego ćwiczenia: Vertex AI, Dataform i Compute Engine.

Kopiowanie notatnika Colab do Google Cloud

Kliknij przycisk poniżej, aby otworzyć notatnik z samouczkiem w Colab Enterprise. Spowoduje to utworzenie kopii notatnika Colab w bieżącym projekcie w chmurze Google, co umożliwi jego uruchomienie.

Zaczynamy!

3. Inicjowanie środowiska

Po utworzeniu notatnika Colab możemy uruchomić kod, który się w nim znajduje. W pierwszych kilku krokach zainstalujesz zależności i zaimportujesz niezbędne biblioteki.

Wykonaj czynności opisane w sekcji Pierwsze kroki.

Najpierw uruchom kolejno komórki w sekcji Pierwsze kroki.

Komórki z kodem w sekcji Rozpocznij

Uwaga: aby uruchomić komórkę, najedź wskaźnikiem myszy na komórkę z kodem, którą chcesz uruchomić, a następnie kliknij ikonę Ikona uruchamiania komórki Uruchom komórkę.

Uruchom komórkę

Po zakończeniu tej sekcji:

  • Instalowanie pakietu Google Gen AI SDK for Python
  • Zaimportuj biblioteki niezbędne do laboratorium
  • Konfigurowanie projektu w chmurze Google do korzystania z Vertex AI

Teraz użyjemy Gemini 2.5 Pro do wygenerowania tekstu

4. Generuj teksty za pomocą Gemini

W tej sekcji notatnika użyjesz Gemini 2.5 Pro do generowania uzupełnień tekstu.

Wykonaj kolejny zestaw komórek w notatniku, poświęcając czas na przeczytanie kodu i zrozumienie, jak korzystać z pakietu Google GenAI SDK.

Generowanie tekstu na podstawie promptów tekstowych

Po zakończeniu tej sekcji będziesz wiedzieć:

  • Jak określić model, którego chcesz użyć.
  • Generowanie danych wyjściowych w trybie strumieniowania i bez strumieniowania.
  • korzystać z funkcji czatu wieloetapowego w pakiecie SDK,
  • Wywoływanie pakietu SDK asynchronicznie.
  • Konfigurowanie parametrów modelu.
  • Ustawianie instrukcji systemowych w celu dostosowania działania modelu.
  • konfigurowanie filtrów bezpieczeństwa treści;

Następnie pokażemy, jak wysyłać do Gemini prompty multimodalne

5. Prompty multimodalne

W tej sekcji notatnika użyjesz Gemini 2.5 Pro do przetwarzania obrazów i filmów.

Wykonaj w notatniku te komórki: Komórki z kodem w przypadku promptów multimodalnych

Po zakończeniu tej sekcji będziesz wiedzieć:

  • Wysyłanie prompta składającego się z obrazu i tekstu.
  • Przetwarzanie filmu z adresu URL

Następnie wygenerujemy dobrze zdefiniowane i uporządkowane dane wyjściowe

6. Uporządkowane dane wyjściowe

Podczas używania odpowiedzi modeli w kodzie ważne jest, aby model generował spójne i wiarygodne wyniki. Generowanie kontrolowane umożliwia zdefiniowanie schematu odpowiedzi, aby określić strukturę danych wyjściowych modelu, nazwy pól i oczekiwany typ danych dla każdego pola.

Wykonaj w notatniku te komórki: Komórki z kodem do kontrolowania danych wyjściowych

Następnie pokażemy, jak ugruntować wyniki modeli

7. Osadzanie w kontekście

Jeśli chcesz korzystać z istniejących baz wiedzy lub dostarczać modelowi informacje w czasie rzeczywistym, zapoznaj się z informacjami o powiązaniu wyników modelu ze źródłem informacji.

Dzięki Gemini i Vertex AI możesz opierać wyniki na wyszukiwarce Google, na wynikach odpowiedzi funkcji i w końcu na samym kodzie. Funkcja wykonywania kodu umożliwia modelowi generowanie i stosowanie kodu, a tym samym uczenie się na podstawie wyników i iteracyjne uzyskiwanie ostatecznego wyniku.

Wykonaj w notatniku te komórki: Komórki z kodem do testowania oparcia na faktach

Następnie zobaczymy możliwości myślenia modelu Gemini 2.5 Pro

8. Myślę

Tryb myślenia jest szczególnie przydatny w przypadku złożonych zadań, które wymagają wielu rund strategii i iteracyjnego rozwiązywania. Modele Gemini 2.5 to modele myślące. Zanim odpowiedzą, są w stanie przeprowadzić rozumowanie, czego wynikiem jest lepsza wydajność i zwiększona dokładność odpowiedzi.

Wykonaj w notatniku te komórki. Zwróć uwagę na wynik procesu myślowego, zanim model przedstawi rzeczywisty wynik. Komórki z kodem, w których ma się wyświetlać wynik „Myślenie”

9. Podsumowanie

Gratulacje! Wiesz już, jak wykorzystać możliwości modelu Gemini 2.5 Pro za pomocą pakietu Google Gen AI SDK for Python, w tym generowanie tekstu, multimodalność, ugruntowanie, dane wyjściowe o strukturze i zaawansowane możliwości myślenia. Masz już podstawową wiedzę, która pozwoli Ci zacząć tworzyć własne innowacyjne aplikacje przy użyciu pakietu SDK. Gemini 2.5 Pro, dzięki zaawansowanemu trybowi myślenia i rozumowania, otwiera nowe możliwości i sprzyja innowacjom w różnych zastosowaniach.

Dodatkowe materiały

Jak Ci się podobały te ćwiczenia?

Świetnie Średnio Może być lepiej