Gemini untuk Developer

1. Pengantar 👋

Dalam codelab ini, Anda akan mempelajari semua yang perlu Anda ketahui, sebagai developer, tentang ekosistem Gemini. Lebih khusus lagi, Anda akan mempelajari berbagai model Gemini, berbagai alat yang didukung oleh Gemini, dan Google Gen AI SDK untuk berintegrasi dengan Gemini. Anda juga akan mempelajari berbagai fitur Gemini seperti konteks panjang, mode berpikir, pemahaman spasial, Live API, output audio & gambar native, dan lainnya.

Di akhir codelab ini, Anda akan memiliki pemahaman yang kuat tentang ekosistem Gemini.

💡Yang akan Anda pelajari

Model Gemini yang berbeda.
Alat yang didukung oleh model Gemini.
Cara berintegrasi dengan Gemini menggunakan Google Gen AI SDK.
Jendela konteks panjang Gemini.
Mode penalaran Gemini.
Berbagai alat bawaan seperti Google Penelusuran, Google Maps.
Cara berinteraksi dengan agen riset menggunakan Interactions API.
Pembuatan Gambar dan Text-to-Speech.
Pemahaman spasial Gemini.
Live API untuk interaksi suara dan video real-time.

⚠️ Yang akan Anda butuhkan

Kunci API untuk contoh Google AI Studio.
Project Google Cloud dengan penagihan diaktifkan untuk sampel Vertex AI.
Lingkungan pengembangan lokal atau Cloud Shell Editor di Google Cloud.

2. Keluarga Gemini 🫂

Gemini adalah model AI Google yang mewujudkan ide apa pun. Model ini sangat bagus untuk pemahaman multimodal dan coding agentic serta vibe — semuanya dibangun di atas fondasi penalaran canggih. Anda dapat menonton video ini untuk mendapatkan ringkasan singkat tentang model Gemini:

Gemini bukan hanya model. Ini juga merupakan merek induk yang digunakan dalam produk Google

yang memanfaatkan model Gemini. Ada berbagai produk Gemini, mulai dari aplikasi Gemini dan NotebookLM yang berfokus pada konsumen, AI Studio yang berfokus pada developer, hingga Vertex AI dari Google Cloud yang berfokus pada perusahaan. Ada juga alat developer seperti Gemini CLI dan Google Antigravity yang didukung oleh Gemini.

3. Alat yang Didukung Gemini 🧰

Mari kita lihat secara singkat alat yang didukung oleh Gemini.

Aplikasi Gemini 💬

Aplikasi Gemini ( gemini.google.com) adalah aplikasi konsumen berbasis chat. Ini adalah cara termudah untuk berinteraksi dengan Gemini. Fitur ini memiliki alat untuk Deep Research, pembuatan gambar, video, musik, dan lainnya. Selain itu, aplikasi ini memiliki berbagai versi model Gemini terbaru (Cepat, Berpikir, Pro). Aplikasi Gemini sangat cocok untuk penggunaan sehari-hari.

NotebookLM 📓

NotebookLM ( notebooklm.google.com) adalah partner riset yang didukung AI. Upload PDF, situs, video YouTube, file audio, Google Dokumen, Google Slide, dan lainnya, lalu NotebookLM akan meringkasnya serta menghubungkan topik-topiknya secara menarik. Fitur ini didukung oleh kemampuan pemahaman multimodal Gemini versi terbaru. NotebookLM juga membuat ringkasan audio, ringkasan video, infografis, dan lainnya yang menarik dan memikat dari sumber yang Anda upload.

Google AI Studio 🎨

Google AI Studio ( ai.dev) adalah cara tercepat untuk mulai membangun aplikasi dengan Gemini. Panel Playground di Google AI Studio memungkinkan Anda bereksperimen dengan berbagai model untuk menghasilkan teks, gambar, video, dan juga mencoba suara dan video real-time dengan Gemini Live API. Panel Build di Google AI Studio memungkinkan Anda membuat kode aplikasi web dan men-deploy-nya ke Cloud Run di Google Cloud serta mengirimkan kode ke GitHub.

Vertex AI Studio ☁️

Vertex AI adalah platform pengembangan AI terpadu dan terkelola sepenuhnya untuk membangun dan menggunakan AI generatif di Google Cloud. Vertex AI Studio ( console.cloud.google.com/vertex-ai/studio) membantu Anda menguji, menyesuaikan, dan men-deploy aplikasi AI generatif yang siap digunakan perusahaan.

Gemini CLI ⚙️

Gemini CLI ( geminicli.com) adalah agen AI open source yang menghadirkan kecanggihan Gemini langsung ke terminal Anda. Alat ini dirancang sebagai alat yang mengutamakan terminal, dapat di-extend, dan canggih untuk developer, engineer, SRE, dan lainnya. Gemini CLI terintegrasi dengan lingkungan lokal Anda. Fitur ini dapat membaca dan mengedit file, menjalankan perintah shell, dan menelusuri web, sambil mempertahankan konteks project Anda.

Google Antigravity 🚀

Google Antigravity ( antigravity.google) adalah platform pengembangan agentic, yang mengubah IDE menjadi era berbasis agen. Antigravity memungkinkan developer beroperasi pada tingkat yang lebih tinggi dan berorientasi pada tugas dalam mengelola agen di seluruh ruang kerja, sekaligus mempertahankan pengalaman IDE AI yang sudah dikenal di intinya.

Antigravity mengekstrak agen ke permukaannya sendiri dan menyediakan alat yang diperlukan untuk beroperasi secara mandiri di seluruh editor, terminal, dan browser dengan menekankan verifikasi dan komunikasi tingkat yang lebih tinggi melalui tugas dan artefak. Kemampuan ini memungkinkan agen merencanakan dan menjalankan tugas software end-to-end yang lebih kompleks, sehingga meningkatkan semua aspek pengembangan, mulai dari pembuatan fitur, iterasi UI, dan perbaikan bug hingga riset dan pembuatan laporan.

Jangan ragu untuk mendownload dan menggunakan alat-alat ini. Berikut beberapa panduan umum tentang alat yang harus digunakan:

Jika baru memulai, Anda mungkin menggunakan Aplikasi Gemini untuk mengajukan pertanyaan atau membuat beberapa kode dasar.
Jika Anda melakukan vibe-coding aplikasi web, Google AI Studio mungkin adalah alat yang akan Anda pilih.
Jika Anda ingin membangun aplikasi yang kompleks dengan konteks dari lingkungan pengembangan lokal, Anda dapat memilih Gemini CLI atau Google Antigravity.
Jika Anda ingin men-deploy atau sudah menggunakan Google Cloud dan menginginkan dukungan serta fitur tingkat perusahaan, Vertex AI dan studionya adalah pilihan yang tepat.

Tentu saja, Anda dapat memadupadankan alat-alat ini. Misalnya, mulai dengan vibe coding di AI Studio untuk mengirim ke GitHub, lalu gunakan Antigravity untuk melanjutkan coding dan men-deploy ke Google Cloud.

4. Model Gemini 🧠

Model Gemini terus ditingkatkan dengan versi baru setiap beberapa bulan. Mulai hari ini (Februari 2026), berikut adalah model unggulan di Vertex AI di Google Cloud:

Ada banyak Model Gemini yang tersedia secara umum, Model Gemini pratinjau, Model Gemma open source, Model penyematan, Model Imagegen, Model Veo, dan lainnya.

Lihat halaman dokumentasi Model Google untuk mempelajari model utama yang tersedia di Vertex AI untuk berbagai kasus penggunaan.

5. Google Gen AI SDK 📦

Untuk mengintegrasikan Gemini dengan aplikasi Anda, Anda dapat menggunakan Google Gen AI SDK.

Seperti yang telah kita bahas sebelumnya, Anda dapat mengakses model Gemini melalui Google AI Studio atau Vertex AI Studio. Google Gen AI SDK menyediakan antarmuka terpadu untuk model Gemini melalui Google AI API dan Google Cloud API. Dengan beberapa pengecualian, kode yang berjalan di satu platform akan berjalan di kedua platform.

Google Gen AI SDK saat ini mendukung Python, Go, Node, Java, dan C#.

Misalnya, berikut cara berbicara dengan Gemini di Google AI di Python:

client = genai.Client(
  api_key=your-gemini-api-key)

response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="Why is the sky blue?")

Untuk melakukan hal yang sama terhadap Gemini di Vertex AI, Anda hanya perlu mengubah inisialisasi klien dan selebihnya sama:

client = genai.Client(
  vertexai=True,
  project=your-google-cloud-project,
  location="us-central1")

response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="Why is the sky blue?")

Untuk menjalankan contoh ini sendiri, Anda dapat menjalankan main.py di github.com/meteatamel/genai-samples/tree/main/vertexai/gemini2/hello-world.

6. Interactions API 🔄

Interactions API (beta) adalah antarmuka terpadu baru untuk berinteraksi dengan model dan agen Gemini. Sebagai alternatif yang lebih baik untuk API generateContent, API ini menyederhanakan pengelolaan status, orkestrasi alat, dan tugas yang berjalan lama.

Berikut cara melakukan interaksi dasar dengan API baru:

interaction =  client.interactions.create(
    model="gemini-3-flash-preview",
    input="Tell me a short joke."
)
print(interaction.outputs[-1].text)

Anda dapat melakukan percakapan stateful dengan meneruskan ID interaksi dari interaksi sebelumnya:

interaction1 = client.interactions.create(
    model="gemini-3-flash-preview",
    input="Hi, my name is Phil."
)
print(f"Model: {interaction1.outputs[-1].text}")

interaction2 = client.interactions.create(
    model="gemini-3-flash-preview",
    input="What is my name?",
    previous_interaction_id=interaction1.id
)
print(f"Model: {interaction2.outputs[-1].text}")

Interactions API dirancang untuk membangun dan berinteraksi dengan agen, serta mencakup dukungan untuk panggilan fungsi, alat bawaan, output terstruktur, dan Model Context Protocol (MCP). Untuk melihat cara penggunaannya dengan Agen Deep Research, lihat langkah Agen 🤖 di bawah.

Untuk menjalankan contoh ini sendiri, Anda dapat menjalankan main.py di github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api.

7. Jendela Konteks Panjang 🪟

Banyak model Gemini dilengkapi dengan jendela konteks besar yang terdiri dari 1 juta token atau lebih. Sebelumnya, model bahasa besar (LLM) sangat dibatasi oleh jumlah teks (atau token) yang dapat diteruskan ke model dalam satu waktu. Jendela konteks panjang Gemini membuka banyak kasus penggunaan dan paradigma developer baru.

Untuk melihat cara kerja jendela konteks panjang, Anda dapat membuka Galeri Perintah Vertex AI Studio dan memilih perintah Extract Video Chapters. Perintah ini mengelompokkan konten video ke dalam beberapa segmen dan memberikan ringkasan untuk setiap segmen.

Setelah menjalankannya dengan video yang disediakan, Anda akan mendapatkan output yang mirip dengan berikut ini:

[
  {
    "timecode": "00:00",
    "chapterSummary": "The video opens with scenic views of Rio de Janeiro, introducing the \"Marvelous City\" and its famous beaches like Ipanema and Copacabana, before pivoting to the existence of the favelas."
  },
  {
    "timecode": "00:20",
    "chapterSummary": "The narrator describes the favelas, home to one in five Rio residents, highlighting that while often associated with crime and poverty, this is only a small part of their story."
  },
  {
    "timecode": "00:36",
    "chapterSummary": "Google introduces its project to map the favelas, emphasizing that providing addresses to these uncharted areas is a crucial step in giving residents an identity."
  },
  {
    "timecode": "00:43",
    "chapterSummary": "The video concludes by focusing on the people of the favelas, inviting viewers to go beyond the map and explore their world through a 360-degree experience."
  }
]

Hal ini hanya mungkin berkat jendela konteks panjang Gemini.

8. Mode Berpikir 🧠

Model Gemini menggunakan proses pemikiran internal yang secara signifikan meningkatkan penalaran mereka untuk tugas-tugas kompleks. Tingkat penalaran (Gemini 3) dan anggaran (Gemini 2.5) mengontrol perilaku penalaran. Anda juga dapat mengaktifkan tanda include_thoughts untuk melihat pemikiran mentah model.

Untuk melihat cara kerja mode berpikir, buka Google AI Studio ( ai.dev) dan mulai percakapan baru. Di panel samping kanan, Anda dapat menetapkan tingkat pemikiran:

Jika mengklik tombol Get code di kanan atas, Anda juga dapat melihat cara menetapkan tingkat pemikiran dalam kode, sesuatu yang mirip dengan ini:

response = client.models.generate_content(
    model="gemini-3-pro-preview",
    contents="How does AI work?",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
          thinking_level="low",
          include_thoughts=True
        )
    ),
)

Bereksperimenlah dengan perintah dan tingkat pemikiran yang berbeda untuk melihat perilaku model.

9. Alat 🧰

Gemini dilengkapi dengan sejumlah alat bawaan seperti Google Penelusuran, Google Maps, Eksekusi Kode, Penggunaan Komputer, Penelusuran File, dan banyak lagi. Anda juga dapat menentukan alat kustom dengan Panggilan Fungsi. Mari kita lihat cara menggunakannya secara singkat.

Google Penelusuran 🔎

Anda dapat men-grounding respons model pada hasil Google Penelusuran untuk mendapatkan respons yang lebih akurat, terbaru, dan relevan.

Di Vertex AI Studio ( console.cloud.google.com/vertex-ai/studio), atau Google AI Studio ( ai.dev), Anda dapat memulai percakapan baru dan memastikan penelusuran Google dinonaktifkan:

Kemudian, Anda dapat mengajukan pertanyaan tentang cuaca hari ini untuk lokasi Anda. Contoh:

How's the weather in London today?

Anda biasanya mendapatkan respons untuk hari sebelumnya karena model tidak memiliki akses ke informasi terbaru. Contoh:

In London today (Friday, May 24, 2025), the weather is a bit of a mixed bag, typical for late May.

Sekarang, aktifkan perujukan Google Penelusuran dan ajukan pertanyaan yang sama. Anda akan mendapatkan informasi cuaca terbaru dengan link ke sumber perujukan:

In London today (Wednesday, February 11, 2026), the weather is cool and mostly cloudy with a chance of light rain.

Berikut cara Anda menggunakan perujukan Google Penelusuran dalam kode Anda. Anda juga dapat mengklik tombol Code di Vertex AI Studio untuk mendapatkan contoh perujukan:

google_search_tool = Tool(google_search=GoogleSearch())
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="How's the weather like today in London?",
    config=GenerateContentConfig(tools=[google_search_tool])
)

Google Maps 🗺️

Anda juga dapat men-grounding respons model dengan Google Maps, yang memiliki akses ke informasi tentang lebih dari 250 juta tempat.

Untuk melihat cara kerjanya, Anda dapat memilih Google Maps, bukan Google Penelusuran, di bagian perujukan setelan model di Vertex AI Studio, lalu mengajukan pertanyaan yang memerlukan data Maps, misalnya:

Can you show me some Greek restaurants and their map coordinates near me?

Kodenya akan terlihat seperti ini:

google_maps_tool = Tool(google_maps=GoogleMaps())
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=""What are the best restaurants near here?",
    config=GenerateContentConfig(tools=[google_maps_tool]),
       # Optional: Provide location context (this is in Los Angeles)
        tool_config=ToolConfig(
          retrieval_config=types.RetrievalConfig(
            lat_lng=types.LatLng(
                latitude=34.050481, longitude=-118.248526))),
)

Eksekusi Kode 🧑‍💻

Gemini dapat membuat dan menjalankan kode Python dengan daftar library yang didukung (pandas, numpy, PyPDF2, dll.). Hal ini berguna untuk aplikasi yang memanfaatkan penalaran berbasis kode (misalnya, menyelesaikan persamaan)

Untuk mencobanya,beralihlah ke Google AI Studio, mulai percakapan baru, dan pastikan tombol Code execution aktif. Kemudian, ajukan pertanyaan yang mungkin memerlukan alat eksekusi kode. Contoh:

What is the sum of the first 50 prime numbers?

Gemini akan membuat beberapa kode Python dan menjalankannya. Pada akhirnya, jawaban yang benar adalah 5117.

Anda dapat menjalankan alat eksekusi kode dari kode sebagai berikut:

code_execution_tool = Tool(code_execution=ToolCodeExecution())
response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="What is the sum of the first 50 prime numbers?",
  config=GenerateContentConfig(
    tools=[code_execution_tool],
    temperature=0))

Penggunaan Komputer 🖥️

Model Penggunaan Komputer Gemini (pratinjau) memungkinkan Anda membuat agen kontrol browser untuk mengotomatiskan tugas. Cara kerjanya dalam loop ini:

Untuk melihat cara kerjanya, Anda dapat menjalankan main.py di github.com/google-gemini/computer-use-preview.

Sebagai contoh, Anda bisa mendapatkan kunci API dari Google AI Studio dan meminta Gemini untuk mencari penerbangan untuk Anda:

export GEMINI_API_KEY=your-api-key

python main.py --query "Find me top 5 fights sorted by price with the following constraints:

Flight site to use: www.google.com/travel/flights
From: London
To: Larnaca
One-way or roundtrip: One way
Date to leave: Sometime next week
Date to return: N/A
Travel preferences:
-Direct flights
-No flights before 10am
-Carry-on luggage"

Anda akan melihat Gemini membuka browser samaran dan mulai menelusuri penerbangan untuk Anda.

Penelusuran File 📁

Alat Penelusuran File memungkinkan Retrieval Augmented Generation (RAG) yang mudah. Cukup upload file Anda dan file tersebut akan melakukan semua detail RAG terkait chunking, penyematan, pengambilan untuk Anda.

Untuk melihat cara kerjanya, Anda dapat menjalankan main.py di github.com/meteatamel/genai-beyond-basics/blob/main/samples/grounding/file-search-tool.

Dapatkan kunci API Anda dari Google AI Studio dan buat penyimpanan penelusuran file:

export GEMINI_API_KEY=your-gemini-api-key

python main.py create_store my-file-search-store

Mengupload PDF ke toko:

python main.py upload_to_store fileSearchStores/myfilesearchstore-5a9x71ifjge9 cymbal-starlight-2024.pdf

Ajukan pertanyaan tentang PDF yang mengarah ke toko:

python main.py generate_content "What's the cargo capacity of Cymbal Starlight?" fileSearchStores/myfilesearchstore-5a9x71ifjge9

Anda akan mendapatkan respons yang didasarkan pada PDF:

Generating content with file search store: fileSearchStores/myfilesearchstore-5a9x71ifjge9
Response: The Cymbal Starlight 2024 has a cargo capacity of 13.5 cubic feet, which is located in the trunk of the vehicle. It is important to distribute the weight evenly and not overload the trunk, as this could impact the vehicle's handling and stability. The vehicle can also accommodate up to two suitcases in the trunk, and it is recommended to use soft-sided luggage to maximize space and cargo straps to secure it while driving.
Grounding sources:  cymbal-starlight-2024.pdf

Panggilan Fungsi 📲

Jika alat bawaan tidak cukup, Anda juga dapat menentukan alat (fungsi) Anda sendiri di Gemini. Anda cukup mengirimkan fungsi Python sebagai alat (bukan mengirimkan spesifikasi OpenAPI fungsi yang mendetail). Alat ini otomatis digunakan oleh model dan SDK.

Misalnya, Anda dapat memiliki fungsi untuk menampilkan garis lintang dan bujur suatu lokasi:

def location_to_lat_long(location: str):
    """Given a location, returns the latitude and longitude

    Args:
        location: The location for which to get the weather.

    Returns:
        The latitude and longitude information in JSON.
    """
    logger.info(f"Calling location_to_lat_long({location})")
    url = f"https://geocoding-api.open-meteo.com/v1/search?name={location}&count=1"
    return api_request(url)

Anda juga dapat memiliki fungsi untuk menampilkan informasi cuaca dari lintang dan bujur:

def lat_long_to_weather(latitude: str, longitude: str):
    """Given a latitude and longitude, returns the weather information

    Args:
        latitude: The latitude of a location
        longitude: The longitude of a location

    Returns:
        The weather information for the location in JSON.
    """
    logger.info(f"Calling lat_long_to_weather({latitude}, {longitude})")
    url = (f"https://api.open-meteo.com/v1/forecast?latitude={latitude}&longitude={longitude}&current=temperature_2m,"
           f"relative_humidity_2m,surface_pressure,wind_speed_10m,wind_direction_10m&forecast_days=1")
    return api_request(url)

Sekarang, Anda dapat meneruskan kedua fungsi tersebut sebagai alat ke Gemini dan membiarkannya menggunakan alat tersebut untuk mengambil informasi cuaca suatu lokasi:

def generate_content_with_function_calls():
    client = genai.Client(
        vertexai=True,
        project=PROJECT_ID,
        location=LOCATION)

    response = client.models.generate_content(
        model=MODEL_ID,
        contents=PROMPT,
        config=GenerateContentConfig(
            system_instruction=[
                "You are a helpful weather assistant.",
                "Your mission is to provide weather information for different cities."
                "Make sure your responses are in plain text format (no markdown) and include all the cities asked.",
            ],
            tools=[location_to_lat_long, lat_long_to_weather],
            temperature=0),
    )

    print(response.text)
    #print(response.automatic_function_calling_history)

Untuk melihat cara kerjanya, Anda dapat menjalankan main_genaisdk.py di github.com/meteatamel/genai-beyond-basics/blob/main/samples/function-calling/weather.

10. Agen 🤖

Interactions API Gemini dirancang untuk membangun dan berinteraksi dengan agen. Anda dapat menggunakan agen khusus seperti Agen Riset Mendalam Gemini. Agen Riset Mendalam Gemini secara mandiri merencanakan, menjalankan, dan menyintesis tugas riset multilangkah. Gemini dapat menavigasi lanskap informasi yang kompleks menggunakan penelusuran web dan data Anda sendiri untuk menghasilkan laporan mendetail yang disertai kutipan.

Berikut cara menggunakan agen Deep Research dengan Interaction API:

interaction = client.interactions.create(
    input="Research the history of the Google TPUs.",
    agent="deep-research-pro-preview-12-2025",
    background=True
)

while True:
    if interaction.status == "completed":
        print("\nFinal Report:\n",
interaction.outputs[-1].text)
        break

Untuk menjalankan contoh ini sendiri, Anda dapat menjalankan main.py di github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api.

export GOOGLE_API_KEY=your-api-key
python main.py agent

Anda akan melihat riset yang dilakukan setelah beberapa saat:

User: Research the history of the Google TPUs with a focus on 2025 and 2026

Status: in_progress
Status: in_progress
Status: in_progress
...
Model Final Report:
 # Architectural Convergence and Commercial Expansion: The History of Google TPUs (2015–2026)

## Key Findings
*   **Strategic Pivot (2025):** Google transitioned the Tensor Processing Unit (TPU) from a primarily internal differentiator to a commercial merchant-silicon competitor, epitomized by the massive "Ironwood" (TPU v7) deployment and external sales strategy.
*   **Technological Leap:** The introduction of TPU v7 "Ironwood" in 2025 marked a paradigm shift, utilizing 3nm process technology to deliver 42.5 exaFLOPS per pod, directly challenging NVIDIA's Blackwell architecture in the high-performance computing (HPC) sector.
...

11. Pembuatan Gambar 📷

Nano Banana 🍌 adalah nama untuk kemampuan pembuatan gambar native Gemini. Gemini dapat membuat dan memproses gambar secara percakapan dengan teks, gambar, atau kombinasi keduanya. Dengan begitu, Anda dapat membuat, mengedit, dan melakukan iterasi pada visual dengan kontrol yang belum pernah ada sebelumnya.

Nano Banana mengacu pada dua model berbeda yang tersedia di Gemini API:

Nano Banana: Model Gemini 2.5 Flash Image (gemini-2.5-flash-image). Model ini dirancang untuk kecepatan dan efisiensi, serta dioptimalkan untuk tugas dengan volume tinggi dan latensi rendah.
Nano Banana Pro: Model Pratinjau Gambar Gemini 3 Pro (gemini-3-pro-image-preview). Model ini dirancang untuk produksi aset profesional, menggunakan penalaran tingkat lanjut untuk mengikuti petunjuk yang kompleks dan merender teks dengan fidelitas tinggi.

Berikut cuplikan kode tempat Anda dapat meneruskan gambar yang ada dan meminta Nano Banana untuk mengedit gambar tersebut:

from google import genai
from google.genai import types
from PIL import Image

client = genai.Client()

prompt = (
    "Create a picture of my cat eating a nano-banana in a "
    "fancy restaurant under the Gemini constellation",
)

image = Image.open("/path/to/cat_image.png")

response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[prompt, image],
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("generated_image.png")

Nano Banana tersedia di Aplikasi Gemini, AI Studio, atau Vertex AI Studio. Cara termudah untuk mencobanya adalah di Aplikasi Gemini. Di Aplikasi Gemini ( gemini.google.com), pilih 🍌 Create images di bagian Tools. Kemudian, upload gambar dan coba sesuatu yang menyenangkan. Misalnya, Anda dapat mengucapkan:

Can you transform this picture of mine to a nice beach on a tropical island?

12. Pembuatan Text-to-Speech 🎶

Gemini dapat mengubah input teks menjadi audio satu penutur atau multi-penutur menggunakan kemampuan pembuatan text-to-speech (TTS) Gemini. Pembuatan TTS dapat dikontrol, artinya Anda dapat menggunakan bahasa alami untuk menyusun interaksi dan memandu gaya, aksen, kecepatan, dan nada audio.

Ada 2 model yang mendukung TTS:

Kemampuan TTS berbeda dengan pembuatan ucapan yang disediakan melalui Live API, yang dirancang untuk audio interaktif dan tidak terstruktur, serta input dan output multimodal. Meskipun Live API unggul dalam konteks percakapan dinamis, TTS melalui Gemini API disesuaikan untuk skenario yang memerlukan pembacaan teks yang tepat dengan kontrol terperinci atas gaya dan suara, seperti pembuatan podcast atau buku audio.

Berikut cuplikan kode untuk TTS satu penutur:

from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents="Say cheerfully: Have a wonderful day!",
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(
               voice_name='Kore',
            )
         )
      ),
   )
)

data = response.candidates[0].content.parts[0].inline_data.data

file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory

Anda dapat melihat contoh lainnya di dokumentasi Pembuatan text-to-speech (TTS).

Anda juga dapat mencoba membuat ucapan di playground Google AI Studio. Bereksperimen dengan perintah yang berbeda di aplikasi generate-speech:

13. Pemahaman Spasial 🌐

Gemini memiliki deteksi objek dan pemahaman spasial tingkat lanjut.

Cara termudah untuk memahami hal ini adalah dengan melihatnya secara langsung. Buka Spatial Understanding Starter App di AI Studio. Pilih beberapa gambar dan coba deteksi beberapa item dalam gambar dengan Gemini.

Misalnya, Anda dapat mendeteksi "bayangan" atau "buah" dalam gambar yang berbeda:

Bereksperimenlah dengan berbagai gambar dan lihat seberapa baik Gemini mendeteksi dan melabeli berbagai objek.

14. Live API 🎤

Live API memungkinkan interaksi suara dan video secara real-time dengan latensi rendah bersama Gemini. API ini memproses aliran audio, video, atau teks yang berkelanjutan untuk memberikan respons lisan yang langsung dan menyerupai manusia, sehingga menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Lanjutkan dan coba Live API di Google AI Studio atau Live API di Vertex AI Studio. Di kedua aplikasi, Anda dapat membagikan suara, video, dan layar Anda serta melakukan percakapan langsung dengan Gemini.

Mulai bagikan video atau layar Anda, lalu tanyakan hal-hal umum kepada Gemini melalui suara. Contoh:

Can you describe what you see on the screen?

Anda akan terkejut dengan betapa naturalnya respons yang diberikan Gemini.

15. Kesimpulan

Dalam codelab ini, kita telah membahas ekosistem Gemini, dimulai dengan rangkaian produk Gemini dan mempelajari cara mengintegrasikan model ke dalam aplikasi kita menggunakan Google Gen AI SDK terpadu. Kami telah mempelajari fitur canggih Gemini, termasuk Jendela Konteks Panjang, Mode Berpikir, alat perujukan bawaan, Live API, dan Pemahaman Spasial. Sebaiknya pelajari lebih dalam dokumen referensi dan terus bereksperimen dengan potensi penuh Gemini.