‫Gemini למפתחים

1. מבוא 👋

35807388b800fbe0.png

ב-codelab הזה תלמדו כל מה שאתם צריכים לדעת כמפתחים על הסביבה העסקית של Gemini. בקורס הזה תלמדו על מודלים שונים של Gemini, על כלים שונים שמבוססים על Gemini ועל Google Gen AI SDK לשילוב עם Gemini. בנוסף, תכירו תכונות שונות של Gemini, כמו הקשר הארוך, מצב החשיבה, ההבנה המרחבית, Live API, פלט מקורי של תמונות ואודיו ועוד.

בסיום ה-codelab הזה, תהיה לכם הבנה טובה של סביבת Gemini!

💡מה תלמדו

  • מודלים שונים של Gemini.
  • כלים שמבוססים על מודלים של Gemini.
  • איך משלבים עם Gemini באמצעות Google Gen AI SDK.
  • חלון הקשר הארוך של Gemini.
  • מצב החשיבה של Gemini.
  • כלים מובנים שונים כמו חיפוש Google ומפות Google.
  • איך משתמשים בממשק Interactions API כדי ליצור אינטראקציה עם סוכני מחקר.
  • יצירת תמונות והמרת טקסט לדיבור (TTS).
  • הבנה מרחבית של Gemini.
  • ‫Live API לאינטראקציות קוליות ווידאו בזמן אמת.

⚠️ מה צריך

  • מפתח API לדוגמאות ב-Google AI Studio.
  • פרויקט ב-Google Cloud שמופעל בו חיוב על דוגמאות לשימוש ב-Vertex AI.
  • סביבת הפיתוח המקומית או Cloud Shell Editor ב-Google Cloud.

2. משפחת Gemini 🫂

Gemini הוא מודל ה-AI של Google שהופך כל רעיון למציאות. זהו מודל מצוין להבנה מרובת מצבים, לתכנות של סוכנים ולתכנות של סגנונות – והכול מבוסס על חשיבה רציונלית חדשנית. בסרטון הזה יש סקירה כללית קצרה של מודל Gemini:

‫Gemini הוא לא רק מודל. זהו גם מותג-על שמשמש במוצרי Google

שמבוססים על מודל Gemini. יש מגוון מוצרי Gemini, החל מאפליקציית Gemini ו-NotebookLM שמתאימים לצרכנים, דרך AI Studio שמתאים למפתחים ועד Vertex AI של Google Cloud שמתאים לארגונים. יש גם כלים למפתחים כמו Gemini CLI ו-Google Antigravity שמבוססים על Gemini.

3ceb2752ccfbc149.jpeg

3. כלים מבוססי Gemini 🧰

בואו נבדוק בקצרה את הכלים שמבוססים על Gemini.

אפליקציית Gemini 💬

אפליקציית Gemini ( בכתובת gemini.google.com) היא אפליקציה לצרכנים שמבוססת על צ'אט. זו הדרך הכי קלה ליצור אינטראקציה עם Gemini. יש בו כלים ל-Deep Research, ליצירת תמונות, סרטונים, מוזיקה ועוד. בנוסף, הוא כולל גרסאות שונות של מודל Gemini העדכני (מהיר, חשיבה, Pro). אפליקציית Gemini מתאימה לשימוש יומיומי.

d3800f85bafe9a4a.png

‫NotebookLM 📓

‫NotebookLM‏ ( notebooklm.google.com) הוא שותף מחקר מבוסס-AI. אפשר להעלות קובצי PDF, אתרים, סרטונים ב-YouTube, קובצי אודיו, מסמכי Google Docs, מצגות ב-Google Slides ועוד. הכלי NotebookLM יסכם אותם וייצור חיבורים מעניינים בין הנושאים, והכול בעזרת יכולות ההבנה המולטי-מודאליות של הגרסה העדכנית של Gemini. בנוסף, הוא יוצר סקירות קוליות, סקירות בווידאו, אינפוגרפיקות ועוד, שמעוררות עניין ומושכות את תשומת הלב, על סמך המקורות שהעליתם.

4c3274795844251.png

‫Google AI Studio 🎨

‫Google AI Studio‏ ( ai.dev) היא הדרך הכי מהירה להתחיל לפתח עם Gemini. בחלונית Playground ב-Google AI Studio אפשר להתנסות במודלים שונים כדי ליצור טקסט, תמונות וסרטונים, וגם לנסות את Gemini Live API כדי לנהל שיחות קוליות ושיחות וידאו בזמן אמת. בחלונית Build ב-Google AI Studio אפשר ליצור קוד לאפליקציות אינטרנט, לפרוס אותן ב-Cloud Run ב-Google Cloud ולדחוף את הקוד ל-GitHub.

48fadc9d3d5f9500.png

Vertex AI Studio ☁️

‫Vertex AI היא פלטפורמה מאוחדת ומנוהלת במלואה לפיתוח AI, שמאפשרת ליצור AI גנרטיבי ולהשתמש בו ב-Google Cloud. ‫Vertex AI Studio‏ ( console.cloud.google.com/vertex-ai/studio) עוזר לכם לבדוק, לכוונן ולפרוס אפליקציות של AI גנרטיבי שמוכנות לשימוש בארגונים.

15b55a2b635d63e1.png

‫Gemini CLI ⚙️

‫Gemini CLI‏ ( geminicli.com) הוא סוכן AI בקוד פתוח שמאפשר לנצל את היכולות של Gemini ישירות בטרמינל. הוא מיועד להיות כלי רב עוצמה, ניתן להרחבה ומתאים במיוחד למפתחים, למהנדסים, למהנדסי SRE ועוד. ‫Gemini CLI משתלב עם הסביבה המקומית שלכם. הוא יכול לקרוא ולערוך קבצים, להריץ פקודות של מעטפת ולחפש באינטרנט, תוך שמירה על ההקשר של הפרויקט.

b2a7f0bf377ac7b0.png

‫Google Antigravity 🚀

‫Google Antigravity ( antigravity.google) היא פלטפורמה לפיתוח בעזרת סוכני AI שמאפשרת לסביבת הפיתוח המשולבת (IDE) להתקדם לעידן שבו הסוכנים הם המפתחים הראשונים. ‫Antigravity מאפשר למפתחים לפעול ברמה גבוהה יותר, ממוקדת משימות, ולנהל סוכנים בסביבות עבודה שונות, תוך שמירה על חוויית פיתוח מוכרת בעזרת AI.

הפלטפורמה Antigravity מחלצת סוכנים לממשק משלהם ומספקת להם את הכלים הדרושים כדי לפעול באופן אוטונומי בכלי העריכה, בטרמינל ובדפדפן, תוך שימת דגש על אימות ותקשורת ברמה גבוהה יותר באמצעות משימות וארטיפקטים. היכולת הזו מאפשרת לסוכני AI לתכנן ולבצע משימות תוכנה מורכבות מקצה לקצה, ולשפר את כל ההיבטים של הפיתוח, החל מיצירת תכונות, איטרציה של ממשק המשתמש ותיקון באגים, ועד מחקר ויצירת דוחות.

ee964351b100df93.png

אתם מוזמנים להוריד את הכלים האלה ולנסות אותם. ריכזנו כאן כמה הנחיות כלליות לגבי הכלי שבו כדאי להשתמש בכל מקרה:

  • אם אתם רק מתחילים, כנראה שתשתמשו באפליקציית Gemini כדי לשאול שאלות או ליצור קוד בסיסי.
  • אם אתם יוצרים אפליקציית אינטרנט באמצעות vibe-coding, כנראה שתבחרו בכלי Google AI Studio.
  • אם אתם רוצים לבנות אפליקציה מורכבת עם ההקשר מסביבת הפיתוח המקומית, כדאי לבחור ב-Gemini CLI או ב-Google Antigravity.
  • אם אתם רוצים לפרוס את Google Cloud או שאתם כבר משתמשים בו, ואתם רוצים תמיכה ותכונות ברמת הארגון, כדאי לכם לבחור ב-Vertex AI וב-Studio שלו.

כמובן שאפשר לשלב בין הכלים האלה. לדוגמה, אפשר להתחיל עם קוד ויברציות ב-AI Studio כדי להעביר אותו ל-GitHub, ואז להשתמש ב-Antigravity כדי להמשיך לכתוב קוד ולבצע פריסה ב-Google Cloud.

4. המודלים של Gemini 🧠

מודלים של Gemini משתפרים כל הזמן, ואנחנו משיקים גרסאות חדשות כל כמה חודשים. החל מהיום (פברואר 2026), אלה המודלים המומלצים ב-Vertex AI ב-Google Cloud:

d2e4a116eaccf2fc.png

יש עוד הרבה מודלים של Gemini שזמינים לכולם, מודלים של Gemini בגרסת טרום-השקה, מודלים של Gemma בקוד פתוח, מודלים של הטמעה, מודלים של Imagegen, מודלים של Veo ועוד.

כדאי לעיין בדף התיעוד של מודלים של Google כדי ללמוד על המודלים העיקריים שזמינים ב-Vertex AI לתרחישי שימוש שונים.

5. ‫Google Gen AI SDK 📦

כדי לשלב את Gemini באפליקציה, אפשר להשתמש ב-Google Gen AI SDK.

כמו שציינו קודם, אפשר לגשת למודלים של Gemini דרך Google AI Studio או Vertex AI Studio. ‫ Google Gen AI SDK מספק ממשק מאוחד למודלים של Gemini דרך Google AI API ו-Google Cloud API. למעט כמה מקרים חריגים, קוד שפועל בפלטפורמה אחת יפעל בשתיהן.

485e9a003d26f8d.png

‫Google Gen AI SDK תומך כרגע בשפות Python,‏ Go,‏ Node,‏ Java ו-C#‎.

לדוגמה, כך מדברים עם Gemini ב-Google AI ב-Python:

client = genai.Client(
  api_key=your-gemini-api-key)

response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="Why is the sky blue?")

כדי לעשות את אותו הדבר עם Gemini ב-Vertex AI, צריך רק לשנות את האתחול של הלקוח, ושאר הפעולות זהות:

client = genai.Client(
  vertexai=True,
  project=your-google-cloud-project,
  location="us-central1")

response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="Why is the sky blue?")

כדי להריץ את הדוגמאות האלה בעצמכם, אתם יכולים להריץ את הפקודה main.py בכתובת github.com/meteatamel/genai-samples/tree/main/vertexai/gemini2/hello-world.

6. Interactions API 🔄

Interactions API (בטא) הוא ממשק מאוחד חדש לאינטראקציה עם מודלים וסוכנים של Gemini. הוא מהווה חלופה משופרת ל-API‏ generateContent, ומפשט את ניהול המצב, את תזמור הכלים ואת המשימות ארוכות הטווח.

כך תבצעו אינטראקציה בסיסית עם ה-API החדש:

interaction =  client.interactions.create(
    model="gemini-3-flash-preview",
    input="Tell me a short joke."
)
print(interaction.outputs[-1].text)

כדי לנהל שיחה עם שמירת מצב, צריך להעביר את מזהה האינטראקציה מהאינטראקציה הקודמת:

interaction1 = client.interactions.create(
    model="gemini-3-flash-preview",
    input="Hi, my name is Phil."
)
print(f"Model: {interaction1.outputs[-1].text}")

interaction2 = client.interactions.create(
    model="gemini-3-flash-preview",
    input="What is my name?",
    previous_interaction_id=interaction1.id
)
print(f"Model: {interaction2.outputs[-1].text}")

Interactions API מיועד ליצירת סוכנים ולביצוע אינטראקציות איתם, והוא כולל תמיכה בהפעלת פונקציות, בכלים מובנים, בפלט מובנה ובפרוטוקול Model Context Protocol‏ (MCP). כדי לראות איך אפשר להשתמש בו עם סוכן Deep Research, אפשר לעבור לשלב 'סוכנים' 🤖 בהמשך.

כדי להריץ את הדוגמאות האלה בעצמכם, אתם יכולים להריץ את הפקודה main.py בכתובת github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api.

7. חלון הקשר רחב 🪟

למודלים רבים של Gemini יש חלונות הקשר גדולים של מיליון טוקנים או יותר. בעבר, מודלים גדולים של שפה (LLM) היו מוגבלים באופן משמעותי בכמות הטקסט (או הטוקנים) שאפשר להעביר למודל בכל פעם. חלון ההקשר הארוך של Gemini פותח פתח לתרחישי שימוש חדשים רבים ולפרדיגמות חדשות למפתחים.

3fb7123fc45e7cdf.png

כדי לראות את חלון ההקשר הארוך בפעולה, אפשר לעבור אל גלריית ההנחיות של Vertex AI Studio ולבחור בהנחיה Extract Video Chapters. ההנחיה הזו מקבצת את תוכן הסרטון לפרקים ומספקת סיכום לכל פרק.

אחרי שמריצים את הפקודה עם הסרטון שסופק, אמור להתקבל פלט שדומה לזה:

[
  {
    "timecode": "00:00",
    "chapterSummary": "The video opens with scenic views of Rio de Janeiro, introducing the \"Marvelous City\" and its famous beaches like Ipanema and Copacabana, before pivoting to the existence of the favelas."
  },
  {
    "timecode": "00:20",
    "chapterSummary": "The narrator describes the favelas, home to one in five Rio residents, highlighting that while often associated with crime and poverty, this is only a small part of their story."
  },
  {
    "timecode": "00:36",
    "chapterSummary": "Google introduces its project to map the favelas, emphasizing that providing addresses to these uncharted areas is a crucial step in giving residents an identity."
  },
  {
    "timecode": "00:43",
    "chapterSummary": "The video concludes by focusing on the people of the favelas, inviting viewers to go beyond the map and explore their world through a 360-degree experience."
  }
]

האפשרות הזו קיימת רק בזכות חלון ההקשר הארוך של Gemini.

8. מצב חשיבה 🧠

מודלי Gemini משתמשים בתהליך חשיבה פנימי שמשפר באופן משמעותי את יכולת ההסקה שלהם במשימות מורכבות. רמות החשיבה (Gemini 3) והתקציבים (Gemini 2.5) שולטים בהתנהגות החשיבה. אפשר גם להפעיל את האפשרות include_thoughts כדי לראות את המחשבות הגולמיות של המודל.

כדי לראות את מצב החשיבה בפעולה, נפתח את Google AI Studio‏ ( ai.dev) ונתחיל צ'אט חדש. בחלונית הצדדית שמשמאל, אפשר להגדיר את רמת החשיבה:

382b0c617ab5940e.png

אם לוחצים על הלחצן Get code בפינה השמאלית העליונה, אפשר גם לראות איך מגדירים את רמת החשיבה בקוד, באופן דומה לזה:

response = client.models.generate_content(
    model="gemini-3-pro-preview",
    contents="How does AI work?",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
          thinking_level="low",
          include_thoughts=True
        )
    ),
)

כדאי להתנסות בהנחיות שונות וברמות חשיבה שונות כדי לראות את התנהגות המודל.

9. כלים 🧰

ל-Gemini יש מספר כלים מובנים, כמו חיפוש Google, מפות Google, הפעלת קוד, שימוש במחשב, חיפוש קבצים ועוד. אפשר גם להגדיר כלים מותאמים אישית באמצעות הפעלת פונקציות. בואו נראה בקצרה איך משתמשים בהם.

חיפוש Google‏ 🔎

אתם יכולים להשתמש בתוצאות חיפוש Google כדי להקפיד שהתשובות של המודל יהיו מדויקות, עדכניות ורלוונטיות.

ב-Vertex AI Studio ‏ ( console.cloud.google.com/vertex-ai/studio) או ב-Google AI Studio ‏ ( ai.dev), אפשר להתחיל צ'אט חדש ולוודא שההארקה של חיפוש Google מושבתת:

fb694a21e7eb7d5a.png

אחר כך אפשר לשאול שאלה על מזג האוויר היום במיקום שלכם. לדוגמה:

How's the weather in London today?

בדרך כלל מקבלים תשובה לגבי היום הקודם, כי למודל אין גישה למידע העדכני ביותר. לדוגמה:

In London today (Friday, May 24, 2025), the weather is a bit of a mixed bag, typical for late May.

עכשיו מפעילים את ההארקה של חיפוש Google ושואלים את אותה שאלה. תקבלו מידע עדכני על מזג האוויר עם קישורים למקורות המידע:

In London today (Wednesday, February 11, 2026), the weather is cool and mostly cloudy with a chance of light rain.

כך קודם ההארקה של חיפוש Google בקוד. אפשר גם ללחוץ על לחצן הקוד ב-Vertex AI Studio כדי לקבל דוגמה להארקה:

google_search_tool = Tool(google_search=GoogleSearch())
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="How's the weather like today in London?",
    config=GenerateContentConfig(tools=[google_search_tool])
)

מפות Google‏ 🗺️

אפשר גם להשתמש במפות Google כדי להוסיף הקשר לתשובות של מודלים. למפות Google יש גישה למידע על יותר מ-250 מיליון מקומות.

כדי לראות את זה בפעולה, אתם יכולים לבחור במפות Google במקום בחיפוש Google בקטע 'הצמדה לקרקע' בהגדרות המודל ב-Vertex AI Studio, ולשאול שאלה שדורשת נתונים ממפות Google, למשל:

Can you show me some Greek restaurants and their map coordinates near me?

הקוד של התג נראה בערך כך:

google_maps_tool = Tool(google_maps=GoogleMaps())
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=""What are the best restaurants near here?",
    config=GenerateContentConfig(tools=[google_maps_tool]),
       # Optional: Provide location context (this is in Los Angeles)
        tool_config=ToolConfig(
          retrieval_config=types.RetrievalConfig(
            lat_lng=types.LatLng(
                latitude=34.050481, longitude=-118.248526))),
)

ביצוע קוד 🧑‍💻

‫Gemini יכול ליצור ולהריץ קוד Python עם רשימה של ספריות נתמכות (pandas,‏ numpy,‏ PyPDF2 וכו'). האפשרות הזו שימושית לאפליקציות שמועילות מהסקה מבוססת-קוד (למשל, פתרון משוואות)

כדי לנסות את התכונה הזו, עוברים אל Google AI Studio, מתחילים צ'אט חדש ומוודאים שהמתג Code execution מופעל. אחר כך, שואלים שאלה שבה כלי הרצת הקוד יכול להיות שימושי. לדוגמה:

What is the sum of the first 50 prime numbers? 

‫Gemini אמור ליצור קוד Python ולהריץ אותו. בסופו של דבר, התשובה הנכונה היא 5117.

אפשר להריץ את כלי הרצת הקוד מהקוד באופן הבא:

code_execution_tool = Tool(code_execution=ToolCodeExecution())
response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="What is the sum of the first 50 prime numbers?",
  config=GenerateContentConfig(
    tools=[code_execution_tool],
    temperature=0))

שימוש במחשב 🖥️

מודל השימוש במחשב של Gemini (גרסת טרום-השקה) מאפשר לכם ליצור סוכנים לשליטה בדפדפן כדי להפוך משימות לאוטומטיות. הוא פועל בלולאה הזו:

de6edbd0163e6ee3.png

כדי לראות את הפעולה, אפשר להריץ את main.py בכתובת github.com/google-gemini/computer-use-preview.

לדוגמה, אתם יכולים לקבל את מפתח ה-API מ-Google AI Studio ולבקש מ-Gemini לחפש בשבילכם טיסות:

export GEMINI_API_KEY=your-api-key

python main.py --query "Find me top 5 fights sorted by price with the following constraints:

Flight site to use: www.google.com/travel/flights
From: London
To: Larnaca
One-way or roundtrip: One way
Date to leave: Sometime next week
Date to return: N/A
Travel preferences:
-Direct flights
-No flights before 10am
-Carry-on luggage"

‫Gemini יפתח דפדפן במצב אנונימי ויתחיל לחפש טיסות בשבילכם.

חיפוש קבצים 📁

הכלי לחיפוש קבצים מאפשר יצירה משולבת-אחזור (RAG) ללא מאמץ. פשוט מעלים את הקבצים והוא מבצע את כל הפעולות שקשורות ל-RAG: חלוקה לחלקים, הטמעה ואחזור.

כדי לראות את הפעולה בפועל, אפשר להריץ את main.py ב- github.com/meteatamel/genai-beyond-basics/blob/main/samples/grounding/file-search-tool.

מקבלים את מפתח ה-API מ-Google AI Studio ויוצרים מאגר לחיפוש קבצים:

export GEMINI_API_KEY=your-gemini-api-key

python main.py create_store my-file-search-store

העלאת קובץ PDF לחנות:

python main.py upload_to_store fileSearchStores/myfilesearchstore-5a9x71ifjge9 cymbal-starlight-2024.pdf

לשאול שאלה על קובץ ה-PDF שמופיע בחנות:

python main.py generate_content "What's the cargo capacity of Cymbal Starlight?" fileSearchStores/myfilesearchstore-5a9x71ifjge9

אמורה להתקבל תשובה שמבוססת על קובץ ה-PDF:

Generating content with file search store: fileSearchStores/myfilesearchstore-5a9x71ifjge9
Response: The Cymbal Starlight 2024 has a cargo capacity of 13.5 cubic feet, which is located in the trunk of the vehicle. It is important to distribute the weight evenly and not overload the trunk, as this could impact the vehicle's handling and stability. The vehicle can also accommodate up to two suitcases in the trunk, and it is recommended to use soft-sided luggage to maximize space and cargo straps to secure it while driving.
Grounding sources:  cymbal-starlight-2024.pdf

בקשה להפעלת פונקציה 📲

אם הכלים המובנים לא מספיקים, אפשר גם להגדיר כלים (פונקציות) משלכם ב-Gemini. פשוט שולחים פונקציית Python ככלי (במקום לשלוח מפרט מפורט של OpenAPI של הפונקציה). המודל ו-SDK משתמשים בו ככלי באופן אוטומטי.

לדוגמה, יכולה להיות לכם פונקציה להחזרת קו רוחב וקו אורך של מיקום:

def location_to_lat_long(location: str):
    """Given a location, returns the latitude and longitude

    Args:
        location: The location for which to get the weather.

    Returns:
        The latitude and longitude information in JSON.
    """
    logger.info(f"Calling location_to_lat_long({location})")
    url = f"https://geocoding-api.open-meteo.com/v1/search?name={location}&count=1"
    return api_request(url)

אפשר גם להשתמש בפונקציה כדי לקבל את נתוני מזג האוויר לפי קו רוחב וקו אורך:

def lat_long_to_weather(latitude: str, longitude: str):
    """Given a latitude and longitude, returns the weather information

    Args:
        latitude: The latitude of a location
        longitude: The longitude of a location

    Returns:
        The weather information for the location in JSON.
    """
    logger.info(f"Calling lat_long_to_weather({latitude}, {longitude})")
    url = (f"https://api.open-meteo.com/v1/forecast?latitude={latitude}&longitude={longitude}&current=temperature_2m,"
           f"relative_humidity_2m,surface_pressure,wind_speed_10m,wind_direction_10m&forecast_days=1")
    return api_request(url)

עכשיו אפשר להעביר את שתי הפונקציות האלה ככלים ל-Gemini, ולתת לו להשתמש בהן כדי לאחזר את נתוני מזג האוויר של מיקום מסוים:

def generate_content_with_function_calls():
    client = genai.Client(
        vertexai=True,
        project=PROJECT_ID,
        location=LOCATION)

    response = client.models.generate_content(
        model=MODEL_ID,
        contents=PROMPT,
        config=GenerateContentConfig(
            system_instruction=[
                "You are a helpful weather assistant.",
                "Your mission is to provide weather information for different cities."
                "Make sure your responses are in plain text format (no markdown) and include all the cities asked.",
            ],
            tools=[location_to_lat_long, lat_long_to_weather],
            temperature=0),
    )

    print(response.text)
    #print(response.automatic_function_calling_history)

כדי לראות את הפעולה בפועל, אפשר להריץ את main_genaisdk.py בכתובת github.com/meteatamel/genai-beyond-basics/blob/main/samples/function-calling/weather.

10. נציגים 🤖

Interactions API של Gemini מיועד ליצירה של סוכנים ולאינטראקציה איתם. אתם יכולים להשתמש בסוכנים מיוחדים כמו Gemini Deep Research Agent. ‫ Gemini Deep Research Agent מתכנן, מבצע ומסכם באופן אוטונומי משימות מחקר בכמה שלבים. הוא נע בין מערכי מידע מורכבים באמצעות חיפוש באינטרנט והנתונים שלכם, כדי ליצור דוחות מפורטים עם ציטוטים.

כך משתמשים בסוכן Deep Research עם Interaction API:

interaction = client.interactions.create(
    input="Research the history of the Google TPUs.",
    agent="deep-research-pro-preview-12-2025",
    background=True
)

while True:
    if interaction.status == "completed":
        print("\nFinal Report:\n",
interaction.outputs[-1].text)
        break

כדי להריץ את הדוגמה הזו בעצמכם, אפשר להריץ את הפקודה main.py בכתובת github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api.

export GOOGLE_API_KEY=your-api-key
python main.py agent

אחרי זמן מה, המחקר יופיע:

User: Research the history of the Google TPUs with a focus on 2025 and 2026

Status: in_progress
Status: in_progress
Status: in_progress
...
Model Final Report:
 # Architectural Convergence and Commercial Expansion: The History of Google TPUs (2015–2026)

## Key Findings
*   **Strategic Pivot (2025):** Google transitioned the Tensor Processing Unit (TPU) from a primarily internal differentiator to a commercial merchant-silicon competitor, epitomized by the massive "Ironwood" (TPU v7) deployment and external sales strategy.
*   **Technological Leap:** The introduction of TPU v7 "Ironwood" in 2025 marked a paradigm shift, utilizing 3nm process technology to deliver 42.5 exaFLOPS per pod, directly challenging NVIDIA's Blackwell architecture in the high-performance computing (HPC) sector.
...

11. יצירת תמונות 📷

Nano Banana 🍌 הוא השם של היכולות המובנות של Gemini ליצירת תמונות. ‫Gemini יכול ליצור ולעבד תמונות בשיחה באמצעות טקסט, תמונות או שילוב של שניהם. כך תוכלו ליצור ולערוך רכיבים חזותיים ולשפר אותם, עם שליטה חסרת תקדים.

‫Nano Banana מתייחס לשני מודלים נפרדים שזמינים ב-Gemini API:

  • Nano Banana: מודל התמונות Gemini 2.5 Flash‏ (gemini-2.5-flash-image). המודל הזה מיועד למהירות ויעילות, ועבר אופטימיזציה למשימות עם נפח גבוה וזמן אחזור נמוך.
  • Nano Banana Pro: מודל התמונות של Gemini 3 Pro (gemini-3-pro-image-preview). המודל הזה מיועד ליצירת נכסים מקצועיים, והוא משתמש בנימוקים מתקדמים כדי לפעול לפי הוראות מורכבות ולעבד טקסט באיכות גבוהה.

קטע קוד שבו אפשר להעביר תמונה קיימת ולבקש מ-Nano Banana לערוך אותה:

from google import genai
from google.genai import types
from PIL import Image

client = genai.Client()

prompt = (
    "Create a picture of my cat eating a nano-banana in a "
    "fancy restaurant under the Gemini constellation",
)

image = Image.open("/path/to/cat_image.png")

response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[prompt, image],
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("generated_image.png")

‫Nano Banana זמין באפליקציית Gemini, ב-AI Studio או ב-Vertex AI Studio. הדרך הכי פשוטה לנסות את התכונה היא באפליקציית Gemini. באפליקציית Gemini ( gemini.google.com), בוחרים באפשרות 🍌 Create images בקטע Tools. אחר כך, מעלים תמונה ומנסים משהו כיפי. לדוגמה, אפשר לומר:

Can you transform this picture of mine to a nice beach on a tropical island?

41a830bea8cf3c9f.png 2fc9ac5b7008aafb.png

12. יצירת המרת טקסט לדיבור 🎶

‫Gemini יכול להפוך קלט טקסט לאודיו עם דובר אחד או כמה דוברים באמצעות יכולות ההמרה של Gemini מטקסט לדיבור (TTS). אפשר לשלוט ביצירת TTS, כלומר אפשר להשתמש בשפה טבעית כדי לבנות אינטראקציות ולהנחות את הסגנון, המבטא, הקצב והטון של האודיו.

יש 2 מודלים שתומכים ב-TTS:

היכולת של TTS שונה מיצירת דיבור שמתבצעת באמצעות Live API, שנועד לאודיו אינטראקטיבי לא מובנה, ולתשומות ולתפוקות מולטימודאליות. בעוד שממשק Live API מצטיין בהקשרים דינמיים של שיחות, TTS דרך Gemini API מותאם לתרחישים שבהם נדרשת הקראה מדויקת של טקסט עם שליטה מדויקת בסגנון ובצליל, כמו יצירת פודקאסטים או ספרי אודיו.

הנה קטע קוד ל-TTS עם דובר יחיד:

from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents="Say cheerfully: Have a wonderful day!",
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(
               voice_name='Kore',
            )
         )
      ),
   )
)

data = response.candidates[0].content.parts[0].inline_data.data

file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory

דוגמאות נוספות מופיעות במסמכי התיעוד בנושא יצירת טקסט לדיבור (TTS).

אפשר גם לנסות ליצור דיבור במגרש המשחקים של Google AI Studio. אפשר להתנסות בהנחיות שונות באפליקציה generate-speech:

6eb20d8a20e571fb.png

13. הבנה מרחבית 🌐

ל-Gemini יש יכולות מתקדמות של זיהוי אובייקטים והבנה מרחבית.

הדרך הקלה ביותר להבין את זה היא לראות את זה בפעולה. עוברים אל אפליקציית המתחילים להבנת מרחב ב-AI Studio. בוחרים כמה תמונות ומנסים לזהות פריטים בתמונה באמצעות Gemini.

לדוגמה, אפשר לזהות 'צללים' או 'פירות' בתמונות שונות:

6a521c961664339.png 2260ab81a8c9a5e8.png

נסו להשתמש בתמונות שונות ולראות עד כמה Gemini מזהה ומסמן אובייקטים שונים.

14. Live API 🎤

Live API מאפשר אינטראקציות בזמן אמת עם Gemini באמצעות קול ווידאו עם זמן טעינה נמוך. הוא מעבד זרמים רציפים של אודיו, וידאו או טקסט כדי לספק תשובות מיידיות בדיבור שנשמע טבעי, וכך ליצור חוויה טבעית של שיחה עם המשתמשים.

9ada309ba0cd0888.png

אתם יכולים להתנסות ב-Live API ב-Google AI Studio או ב-Live API ב-Vertex AI Studio. בשתי האפליקציות אפשר לשתף את הקול, הסרטון והמסך ולנהל שיחה בזמן אמת עם Gemini.

8b4901d2aecc5b62.png

אפשר להתחיל לשתף את הווידאו או המסך ולשאול את Gemini שאלות כלליות באמצעות הקול. לדוגמה:

Can you describe what you see on the screen?

תופתעו לגלות עד כמה התשובות של Gemini נשמעות טבעיות.

15. סיכום

ב-codelab הזה, סקרנו את האקוסיסטם של Gemini, החל ממשפחת המוצרים של Gemini, ולמדנו איך לשלב את המודלים באפליקציות שלנו באמצעות Google Gen AI SDK המאוחד. הכרנו את התכונות המתקדמות של Gemini, כולל חלון הקשר הארוך, מצב חשיבה, כלי ביסוס מובנים, Live API והבנה מרחבית. אנחנו ממליצים לעיין במסמכי העיון ולנסות עוד אפשרויות כדי להפיק את המרב מ-Gemini.

חומרי עזר