Informacje o tym ćwiczeniu (w Codelabs)
1. Omówienie
Wprowadzenie
Gemini 2.5 Pro to najmocniejszy model Google do kodowania i wiedzy o świecie.
W serii 2.5 modele Gemini są teraz modelami rozumowania hybrydowego. Gemini 2.5 Pro może stosować rozszerzone myślenie w ramach zadań i wykorzystywać narzędzia, aby maksymalizować dokładność odpowiedzi.
Gemini 2.5 Pro:
- Znacząca poprawa w porównaniu z poprzednimi modelami pod względem różnych funkcji, w tym kodowania, rozumowania i multimodalności.
- Najlepsze w branży wyniki w testach porównawczych z zakresu matematyki i nauk przyrodniczych.
- Niesamowity model do tworzenia kodu, w tym szczególnie stron internetowych.
- Jest szczególnie przydatny w przypadku skomplikowanych promptów, a jednocześnie dobrze sprawdza się w ogóle, w tym w LMSys.
Czego się nauczysz
Z tego samouczka dowiesz się, jak używać interfejsu Gemini API i pakietu Google Gen AI SDK for Python z modelem Gemini 2.5 Pro.
Wykonasz te czynności:
- Generowanie tekstu na podstawie promptów tekstowych
- Generowanie tekstu strumieniowego
- Rozpoczynanie czatów wieloetapowych
- Używanie metod asynchronicznych
- Konfigurowanie parametrów modelu
- Ustawianie instrukcji systemowych
- Korzystanie z filtrów bezpieczeństwa
- Używanie generacji kontrolowanej
- Liczba tokenów
- przetwarzanie danych multimodalnych (dźwięk, kod, dokumenty, obrazy, filmy);
- Używanie funkcji wywoływania automatycznego i ręcznego
- Wykonanie kodu
- Przykłady trybu myślenia
2. Zanim zaczniesz
Wymagania wstępne
Zanim zaczniesz, musisz mieć projekt Google Cloud z ważnym kontem rozliczeniowym. Wybierz projekt Google Cloud, którego chcesz użyć.
Aby uruchomić Codelab, użyjemy Colab Enterprise, czyli zarządzanego środowiska notatników, które umożliwia współpracę i udostępnia funkcje zabezpieczeń i zgodności z regulacjami oferowane w Google Cloud.
Włączanie wymaganych interfejsów API
Aby włączyć w projekcie Google Cloud interfejsy API potrzebne do wykonania tego ćwiczenia: Vertex AI, Dataform i Compute Engine, kliknij przycisk poniżej.
Kopiowanie notatnika Colab do Google Cloud
Kliknij przycisk poniżej, aby otworzyć notatnik z samouczkiem w Colab Enterprise. Spowoduje to utworzenie kopii notatnika Colab w bieżącym projekcie Google Cloud, co pozwoli Ci uruchomić notatnik.
Zaczynajmy!
3. Inicjowanie środowiska
Po utworzeniu notatnika Colab możemy uruchomić kod zawarty w notatniku. W pierwszych kilku krokach zostanie zainstalowana zależność i zaimportowane niezbędne biblioteki.
Wykonaj czynności opisane w sekcji „Pierwsze kroki”.
Najpierw uruchom komórki z sekcji „Zaczynamy” po kolei.
Uwaga: aby uruchomić komórkę, najedź kursorem na komórkę z kodem, który chcesz uruchomić, a następnie kliknij ikonę Uruchom komórkę.
Po zakończeniu tej sekcji będziesz mieć wykonane te czynności.
- Instalowanie pakietu Google Gen AI SDK dla Pythona
- Zaimportuj biblioteki potrzebne do wykonania ćwiczenia
- Konfigurowanie projektu Google Cloud do korzystania z Vertex AI
Teraz użyjemy Gemini 2.5 Pro do wygenerowania tekstu
4. Generuj teksty za pomocą Gemini
W tej sekcji tego notatnika użyjesz Gemini 2.5 Pro do wygenerowania uzupełnień tekstowych.
Wykonaj kolejny zestaw komórek w notatniku, poświęcając czas na przeczytanie kodu i poznanie sposobu korzystania z pakietu SDK Google GenAI.
Po zakończeniu tej sekcji będziesz wiedzieć:
- Jak określić model do użycia.
- Generowanie danych wyjściowych w przypadku strumieniowego przesyłania i bez strumieniowego przesyłania.
- Korzystanie z funkcji czatu wieloetapowego w pakiecie SDK.
- Wywoływanie pakietu SDK w tle.
- Konfigurowanie parametrów modelu.
- Konfigurowanie instrukcji systemowych w celu dostosowania zachowania modelu.
- konfigurowanie filtrów bezpieczeństwa treści;
W następnym kroku pokażemy, jak wysyłać prompty multimodalne do Gemini
5. Prompty multimodalne
W tej sekcji zeszytu użyjesz Gemini 2.5 Pro do przetwarzania obrazów i filmów.
Wykonaj te komórki w notatniku.
Po zakończeniu tej sekcji będziesz wiedzieć:
- Prześlij prompt składający się z obrazu i tekstu.
- Przetwarzanie filmu z adresu URL
Następnie wygenerujemy dobrze zdefiniowane i uporządkowane dane wyjściowe
6. Dane wyjściowe uporządkowane
Gdy używasz odpowiedzi modeli w kodzie, ważne jest, aby uzyskać spójne i wiarygodne dane wyjściowe. Generowanie kontrolowane umożliwia zdefiniowanie schematu odpowiedzi, aby określić strukturę danych wyjściowych modelu, nazwy pól i oczekiwaną kategorię danych dla każdego z nich.
Wykonaj te komórki w notatniku.
Teraz zobaczysz, jak użyć wyników modelu
7. Osadzanie w kontekście
Jeśli chcesz korzystać z dotychczasowych baz wiedzy lub przekazywać modelowi informacje w czasie rzeczywistym, zapoznaj się z wyprowadzeniem danych wyjściowych modelu.
Dzięki Gemini i Vertex AI możesz opierać dane wyjściowe na wyszukiwarce Google, danych wyjściowych funkcji i samym kodzie. Wykonywanie kodu pozwala modelowi generować kod i go uruchamiać, a także uczyć się na podstawie wyników i powtarzać iteracje, aby uzyskać ostateczny wynik.
Wykonaj te komórki w notatniku.
Zobaczmy teraz, jak działa model Gemini 2.5 Pro
8. Zastanawiam się
Tryb myślenia jest szczególnie przydatny w przypadku złożonych zadań, które wymagają wielokrotnego planowania i rozwiązywania problemów. Modele Gemini 2.5 to modele myślące. Zanim odpowiedzą, są w stanie przeprowadzić rozumowanie, czego wynikiem jest lepsza wydajność i zwiększona dokładność odpowiedzi.
Wykonaj podane niżej komórki w notatniku. Gdy to zrobisz, zwróć uwagę na wyniki działania modelu przed wyświetleniem przez niego rzeczywistych wyników.
9. Podsumowanie
Gratulacje! Wiesz już, jak korzystać z możliwości Gemini 2.5 Pro za pomocą pakietu Google Gen AI SDK for Python. Poznasz generowanie tekstu, multimodalność, gruntowanie, wyjścia strukturyzowane i zaawansowane funkcje rozumowania. Masz już podstawową wiedzę, która pozwoli Ci zacząć tworzyć własne innowacyjne aplikacje za pomocą pakietu SDK. Model Gemini 2.5 Pro, dzięki zaawansowanemu trybowi myślenia i rozumowania, otwiera nowe możliwości i sprzyja wprowadzaniu innowacji w różnych zastosowaniach.
Dodatkowe odniesienia
- Zapoznaj się z dokumentacją pakietu Google Gen AI SDK.
- Inne notatniki znajdziesz w repozytorium generatywnej AI w Google Cloud na GitHubie.
- Poznaj modele AI w bazie modeli.