1. مقدمة 👋

في هذا الدرس العملي، ستتعرّف على كل ما تحتاج إلى معرفته كمطوّر حول منظومة Gemini المتكاملة. على وجه التحديد، ستتعرّف على نماذج Gemini المختلفة والأدوات المختلفة المستندة إلى Gemini وحزمة تطوير البرامج (SDK) من Google للذكاء الاصطناعي التوليدي التي يمكن دمجها مع Gemini. سنتعرّف أيضًا على ميزات مختلفة في Gemini، مثل السياق الطويل ووضع التفكير والفهم المكاني وLive API وإخراج الصور والصوت الأصليين وغير ذلك.
في نهاية هذا الدرس التطبيقي، من المفترض أن يكون لديك فهم جيد لمنظومة Gemini المتكاملة.
💡ما ستتعرّف عليه
- نماذج Gemini المختلفة
- أدوات تستند إلى نماذج Gemini
- كيفية الدمج مع Gemini باستخدام حزمة تطوير البرامج (SDK) من Google للذكاء الاصطناعي التوليدي
- قدرة استيعاب موسَّعة في Gemini
- وضع التفكير في Gemini
- أدوات مدمجة مختلفة، مثل "بحث Google" و"خرائط Google"
- كيفية التفاعل مع وكلاء البحث باستخدام Interactions API
- إنشاء الصور وتحويل النص إلى كلام
- فهم Gemini للمساحات
- واجهة برمجة التطبيقات Live API للتفاعلات الصوتية والمرئية في الوقت الفعلي
⚠️ المتطلبات
- مفتاح واجهة برمجة تطبيقات لعيّنات Google AI Studio
- مشروع Google Cloud تم تفعيل الفوترة فيه لعينات Vertex AI
- بيئة التطوير المحلية أو "محرّر Cloud Shell" في Google Cloud
2. عائلة Gemini 🫂
Gemini هو نموذج الذكاء الاصطناعي من Google الذي يساعدك في تحويل أي فكرة إلى واقع. وهو نموذج رائع لفهم الوسائط المتعددة والترميز المستند إلى الذكاء الاصطناعي الوكيل والترميز المستند إلى الذكاء الاصطناعي العاطفي، وكل ذلك يستند إلى إمكانات استدلالية متطوّرة. يمكنك مشاهدة هذا الفيديو للحصول على نظرة عامة سريعة على نموذج Gemini:
Gemini ليس مجرد نموذج. وهي أيضًا علامة تجارية شاملة مستخدَمة في منتجات Google
التي تستخدم نموذج Gemini. تتوفّر مجموعة من منتجات Gemini، بدءًا من تطبيق Gemini وNotebookLM المخصّصَين للمستهلكين، ووصولاً إلى AI Studio المخصّص للمطوّرين، وVertex AI المخصّص للمؤسسات من Google Cloud. تتوفّر أيضًا أدوات للمطوّرين، مثل Gemini CLI وGoogle Antigravity المستندتَين إلى Gemini.

3- أدوات تستند إلى Gemini 🧰
لنلقِ نظرة سريعة على الأدوات المستندة إلى Gemini.
تطبيق Gemini 💬
تطبيق Gemini ( gemini.google.com) هو تطبيق موجّه للمستهلكين يعتمد على المحادثات. إنّها أسهل طريقة للتفاعل مع Gemini. يتضمّن أدوات لـ Deep Research وإنشاء الصور والفيديوهات والموسيقى وغير ذلك. يتضمّن أيضًا إصدارات مختلفة من أحدث نموذج Gemini (سريع، وتفكير، وPro). تطبيق Gemini هو الخيار الأمثل للاستخدام اليومي.

NotebookLM 📓
NotebookLM ( notebooklm.google.com) هو شريكك في البحث باستخدام الذكاء الاصطناعي. يمكنك تحميل ملفات PDF أو مواقع إلكترونية أو فيديوهات على YouTube أو ملفات صوتية أو "مستندات Google" أو "العروض التقديمية من Google" أو غيرها لكي تلخّصها أداة NotebookLM مع الربط بشكل مفيد وشيّق بين المواضيع، وكل ذلك بفضل أحدث الإصدارات من إمكانات Gemini المتعلّقة بفهم المحتوى المتعدد الوسائط. تنشئ هذه الأداة أيضًا ملخّصات صوتية وبالفيديو ومخطّطات بيانية جذابة ومثيرة للاهتمام وغير ذلك من المصادر التي حمّلتها.

Google AI Studio 🎨
Google AI Studio ( ai.dev) هو أسرع طريقة للبدء في استخدام Gemini. تتيح لك لوحة ساحة التجربة في Google AI Studio تجربة نماذج مختلفة لإنشاء النصوص والصور والفيديوهات، كما تتيح لك تجربة الصوت والفيديو في الوقت الفعلي باستخدام Gemini Live API. تتيح لك اللوحة إنشاء في Google AI Studio إنشاء تطبيقات ويب باستخدام ميزة "الترميز السريع" ونشرها على Cloud Run في Google Cloud ونقل الرمز البرمجي إلى GitHub.

Vertex AI Studio ☁️
Vertex AI هي منصة موحَّدة ومُدارة بالكامل لتطوير الذكاء الاصطناعي، وهي تتيح إنشاء الذكاء الاصطناعي التوليدي واستخدامه في Google Cloud. يساعدك Vertex AI Studio ( console.cloud.google.com/vertex-ai/studio) في اختبار تطبيقات الذكاء الاصطناعي التوليدي الجاهزة للمؤسسات وضبطها ونشرها.

Gemini CLI ⚙️
Gemini CLI ( geminicli.com) هو وكيل مفتوح المصدر مستند إلى الذكاء الاصطناعي يتيح لك الاستفادة من إمكانات Gemini مباشرةً في نافذة الأوامر. وهي مصمَّمة لتكون أداة قوية وقابلة للتوسيع ومناسبة للمطوّرين والمهندسين ومهندسي موثوقية الموقع وغيرهم، وتعمل بشكل أساسي من خلال سطر الأوامر. يتكامل Gemini CLI مع بيئتك المحلية. يمكنه قراءة الملفات وتعديلها وتنفيذ أوامر shell والبحث على الويب، كل ذلك مع الحفاظ على سياق مشروعك.

Google Antigravity 🚀
Google Antigravity ( antigravity.google) هي منصة تطوير تستند إلى الذكاء الاصطناعي الوكيل، وتطوّر بيئة التطوير المتكاملة لتصبح متوافقة مع عصر الذكاء الاصطناعي الوكيل. تتيح Antigravity للمطوّرين العمل على مستوى أعلى وموجّه نحو المهام، ما يتيح لهم إدارة الوكلاء في مساحات العمل المختلفة، مع الاحتفاظ بتجربة مألوفة في بيئة التطوير المتكاملة المستندة إلى الذكاء الاصطناعي.
تستخرج Antigravity الوكلاء إلى مساحتهم الخاصة وتزوّدهم بالأدوات اللازمة للعمل بشكل مستقل في جميع أدوات التعديل والواجهات الطرفية والمتصفّحات، مع التركيز على التحقّق والتواصل على مستوى أعلى من خلال المهام والنتائج. تتيح هذه الإمكانية للوكلاء التخطيط وتنفيذ مهام برمجية أكثر تعقيدًا وشاملة، ما يؤدي إلى تحسين جميع جوانب التطوير، بدءًا من إنشاء الميزات وتكرار واجهة المستخدم وإصلاح الأخطاء، وصولاً إلى البحث وإنشاء التقارير.

يمكنك تنزيل هذه الأدوات وتجربتها. في ما يلي بعض الإرشادات العامة حول الأداة التي يجب استخدامها في كل حالة:
- إذا كنت مبتدئًا، من المحتمل أن تستخدم تطبيق Gemini لطرح أسئلة أو إنشاء بعض الرموز البرمجية الأساسية.
- إذا كنت تريد إنشاء تطبيق ويب باستخدام الذكاء الاصطناعي التوليدي، من المحتمل أنّك ستختار Google AI Studio.
- إذا كنت تريد إنشاء تطبيق معقّد باستخدام السياق من بيئة التطوير المحلية، يمكنك اختيار Gemini CLI أو Google Antigravity.
- إذا أردت نشر Google Cloud أو كنت تستخدمه حاليًا وتريد الحصول على ميزات ودعم على مستوى المؤسسات، ننصحك باستخدام Vertex AI وVertex AI Studio.
بالطبع، يمكنك استخدام هذه الأدوات معًا. على سبيل المثال، يمكنك البدء بإنشاء التعليمات البرمجية باستخدام Vibe في AI Studio، ثم نقلها إلى GitHub، واستخدام Antigravity لمواصلة إنشاء التعليمات البرمجية، ثم نشرها على Google Cloud.
4. نماذج Gemini 🧠
نعمل باستمرار على تحسين "نماذج Gemini" من خلال إصدار نسخ جديدة كل بضعة أشهر. في تاريخ اليوم (شباط/فبراير 2026)، هذه هي النماذج المميزة على Vertex AI على Google Cloud:

تتوفّر أيضًا العديد من نماذج Gemini المتاحة للجميع ونماذج Gemini في مرحلة المعاينة ونماذج Gemma المفتوحة المصدر ونماذج التضمين ونماذج Imagegen ونماذج Veo وغيرها.
يمكنك الاطّلاع على صفحة مستندات نماذج Google لاستكشاف النماذج الرئيسية المتاحة على Vertex AI لمختلف حالات الاستخدام.
5- حزمة تطوير برامج الذكاء الاصطناعي التوليدي من Google 📦
لدمج Gemini مع تطبيقك، يمكنك استخدام حزمة تطوير البرامج (SDK) من Google للذكاء الاصطناعي التوليدي.
كما ذكرنا سابقًا، يمكنك الوصول إلى نماذج Gemini من خلال Google AI Studio أو Vertex AI Studio. توفّر حزمة Google Gen AI SDK واجهة موحّدة لنماذج Gemini من خلال كلّ من Google AI API وGoogle Cloud API. باستثناء بعض الحالات، يمكن تشغيل الرموز البرمجية التي تعمل على إحدى المنصتين على كلتيهما.

تتوافق حزمة تطوير برامج الذكاء الاصطناعي التوليدي من Google حاليًا مع Python و Go و Node و Java و C#.
على سبيل المثال، إليك طريقة التحدّث مع Gemini في Google AI باستخدام Python:
client = genai.Client(
api_key=your-gemini-api-key)
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Why is the sky blue?")
لتنفيذ الإجراء نفسه مع Gemini في Vertex AI، ما عليك سوى تغيير عملية تهيئة البرنامج، وستبقى بقية الخطوات كما هي:
client = genai.Client(
vertexai=True,
project=your-google-cloud-project,
location="us-central1")
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Why is the sky blue?")
لتشغيل هذه النماذج بنفسك، يمكنك تشغيل main.py في github.com/meteatamel/genai-samples/tree/main/vertexai/gemini2/hello-world.
6. واجهة Interactions API 🔄
Interactions API (إصدار تجريبي) هي واجهة موحّدة جديدة للتفاعل مع نماذج Gemini والوكلاء. وهي بديل محسّن لواجهة برمجة التطبيقات generateContent، وتسهّل إدارة الحالة وتنظيم الأدوات والمهام التي تستغرق وقتًا طويلاً.
إليك كيفية التفاعل بشكل أساسي مع واجهة برمجة التطبيقات الجديدة:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Tell me a short joke."
)
print(interaction.outputs[-1].text)
يمكنك إجراء محادثة ذات حالة من خلال تمرير معرّف التفاعل من التفاعل السابق:
interaction1 = client.interactions.create(
model="gemini-3-flash-preview",
input="Hi, my name is Phil."
)
print(f"Model: {interaction1.outputs[-1].text}")
interaction2 = client.interactions.create(
model="gemini-3-flash-preview",
input="What is my name?",
previous_interaction_id=interaction1.id
)
print(f"Model: {interaction2.outputs[-1].text}")
تم تصميم واجهة Interactions API لإنشاء نماذج وكيلة والتفاعل معها، وهي تتضمّن إمكانية استدعاء الدوال، وأدوات مضمّنة، ومخرجات منظَّمة، وبروتوكول Model Context Protocol (MCP). لمعرفة كيفية استخدامه مع Deep Research Agent، اطّلِع على الخطوة "برامج الدردشة الذكية" 🤖 أدناه.
لتشغيل هذه النماذج بنفسك، يمكنك تشغيل main.py في github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api.
7. قدرة استيعاب موسَّعة 🪟
تتضمّن العديد من نماذج Gemini قدرة استيعاب كبيرة تصل إلى مليون رمز مميّز أو أكثر. في السابق، كانت النماذج اللغوية الكبيرة (LLM) محدودة بشكل كبير بسبب كمية النص (أو الرموز المميزة) التي يمكن تمريرها إلى النموذج في وقت واحد. تتيح قدرة استيعاب Gemini الموسَّعة العديد من حالات الاستخدام الجديدة ونماذج المطوّرين.

للاطّلاع على نافذة السياق الطويل أثناء العمل، يمكنك الانتقال إلى معرض الطلبات في Vertex AI Studio واختيار الطلب Extract Video Chapters. تجمع هذه الطلب محتوى الفيديو في فصول وتقدّم ملخصًا لكل فصل.
بعد تشغيلها باستخدام الفيديو المقدَّم، من المفترض أن تحصل على نتيجة مشابهة لما يلي:
[
{
"timecode": "00:00",
"chapterSummary": "The video opens with scenic views of Rio de Janeiro, introducing the \"Marvelous City\" and its famous beaches like Ipanema and Copacabana, before pivoting to the existence of the favelas."
},
{
"timecode": "00:20",
"chapterSummary": "The narrator describes the favelas, home to one in five Rio residents, highlighting that while often associated with crime and poverty, this is only a small part of their story."
},
{
"timecode": "00:36",
"chapterSummary": "Google introduces its project to map the favelas, emphasizing that providing addresses to these uncharted areas is a crucial step in giving residents an identity."
},
{
"timecode": "00:43",
"chapterSummary": "The video concludes by focusing on the people of the favelas, inviting viewers to go beyond the map and explore their world through a 360-degree experience."
}
]
وهذا ممكن فقط بفضل قدرة الاستيعاب الموسّعة في Gemini.
8. وضع "التفكير" 🧠
تستخدم نماذج Gemini عملية تفكير داخلية تعمل على تحسين قدرتها على الاستدلال بشكل كبير عند تنفيذ المهام المعقّدة. تتحكّم مستويات التفكير (Gemini 3) والميزانيات (Gemini 2.5) في سلوك التفكير. يمكنك أيضًا تفعيل العلامة include_thoughts للاطّلاع على الأفكار الأولية للنموذج.
للاطّلاع على طريقة عمل "وضع التفكير"، لنفتح Google AI Studio ( ai.dev) ونبدأ محادثة جديدة. في اللوحة الجانبية على يسار الشاشة، يمكنك ضبط مستوى التفكير:

إذا نقرت على الزر Get code في أعلى يسار الصفحة، يمكنك أيضًا الاطّلاع على كيفية ضبط مستوى التفكير في الرمز، وهو أمر مشابه لما يلي:
response = client.models.generate_content(
model="gemini-3-pro-preview",
contents="How does AI work?",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(
thinking_level="low",
include_thoughts=True
)
),
)
جرِّب طلبات مختلفة ومستويات تفكير مختلفة لمعرفة سلوك النموذج.
9- الأدوات 🧰
يتضمّن Gemini عددًا من الأدوات المدمجة، مثل "بحث Google" و"خرائط Google" و"تنفيذ التعليمات البرمجية" و"استخدام الكمبيوتر" و"البحث عن الملفات" وغيرها. يمكنك أيضًا تحديد أدواتك المخصّصة باستخدام ميزة "استدعاء الدوال". لنتعرّف باختصار على كيفية استخدامها.
Google Search 🔎
يمكنك الطلب من النموذج استخدام نتائج "بحث Google" كمصدر للحصول على ردود أكثر دقةً وحداثةً وملاءمةً.
في Vertex AI Studio ( console.cloud.google.com/vertex-ai/studio) أو Google AI Studio ( ai.dev)، يمكنك بدء محادثة جديدة والتأكّد من إيقاف ميزة "الاستناد إلى البحث من Google" باتّباع الخطوات التالية:

بعد ذلك، يمكنك طرح سؤال حول حالة الطقس اليوم في موقعك الجغرافي. على سبيل المثال:
How's the weather in London today?
عادةً ما تحصل على ردّ بشأن يوم في الماضي لأنّ النموذج لا يمكنه الوصول إلى أحدث المعلومات. على سبيل المثال:
In London today (Friday, May 24, 2025), the weather is a bit of a mixed bag, typical for late May.
الآن، فعِّل ميزة تحديد المصدر باستخدام "بحث Google" واطرح السؤال نفسه. ستظهر لك معلومات حديثة حول الطقس مع روابط تؤدي إلى المصادر الأساسية:
In London today (Wednesday, February 11, 2026), the weather is cool and mostly cloudy with a chance of light rain.
هذه هي الطريقة التي يمكن من خلالها الاستفادة من "بحث Google" في الرمز البرمجي. يمكنك أيضًا النقر على الزر "الرمز" في Vertex AI Studio للحصول على عيّنة مستندات أساسية:
google_search_tool = Tool(google_search=GoogleSearch())
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="How's the weather like today in London?",
config=GenerateContentConfig(tools=[google_search_tool])
)
خرائط Google 🗺️
يمكنك أيضًا الاستناد إلى "خرائط Google" في الردود التي تقدّمها النماذج، إذ يمكنها الوصول إلى معلومات حول أكثر من 250 مليون مكان.
لمشاهدة هذه الميزة أثناء العمل، يمكنك اختيار "خرائط Google" بدلاً من "بحث Google" ضمن قسم "تحديد المصدر" في إعدادات النموذج في Vertex AI Studio وطرح سؤال يتطلّب بيانات "خرائط Google"، مثل:
Can you show me some Greek restaurants and their map coordinates near me?
يبدو الرمز الخاص به على النحو التالي:
google_maps_tool = Tool(google_maps=GoogleMaps())
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=""What are the best restaurants near here?",
config=GenerateContentConfig(tools=[google_maps_tool]),
# Optional: Provide location context (this is in Los Angeles)
tool_config=ToolConfig(
retrieval_config=types.RetrievalConfig(
lat_lng=types.LatLng(
latitude=34.050481, longitude=-118.248526))),
)
تنفيذ الرموز البرمجية 🧑💻
يمكن لـ Gemini إنشاء رموز Python البرمجية وتشغيلها باستخدام قائمة بالمكتبات المتوافقة (pandas وnumpy وPyPDF2 وما إلى ذلك). ويكون ذلك مفيدًا للتطبيقات التي تستفيد من الاستدلال المستند إلى الرموز البرمجية (مثل حل المعادلات).
لتجربة هذه الميزة، انتقِل إلى Google AI Studio، وابدأ محادثة جديدة، وتأكَّد من أنّ مفتاح التبديل Code execution مفعّل. بعد ذلك، اطرح سؤالاً قد تكون فيه أداة تنفيذ الرمز البرمجي مفيدة. على سبيل المثال:
What is the sum of the first 50 prime numbers?
من المفترض أن ينشئ Gemini بعض رموز Python البرمجية ويشغّلها. في النهاية، الإجابة الصحيحة هي 5117.
يمكنك تشغيل أداة تنفيذ الرموز البرمجية من الرمز البرمجي على النحو التالي:
code_execution_tool = Tool(code_execution=ToolCodeExecution())
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="What is the sum of the first 50 prime numbers?",
config=GenerateContentConfig(
tools=[code_execution_tool],
temperature=0))
استخدام الكمبيوتر 🖥️
يتيح لك نموذج "استخدام الكمبيوتر" من Gemini (معاينة) إنشاء وكلاء للتحكّم في المتصفّح من أجل أتمتة المهام. تعمل هذه الميزة في الحلقة التالية:

للاطّلاع على كيفية عملها، يمكنك تشغيل main.py في github.com/google-gemini/computer-use-preview.
على سبيل المثال، يمكنك الحصول على مفتاح واجهة برمجة التطبيقات من Google AI Studio وطلب البحث من Gemini عن رحلات جوية:
export GEMINI_API_KEY=your-api-key
python main.py --query "Find me top 5 fights sorted by price with the following constraints:
Flight site to use: www.google.com/travel/flights
From: London
To: Larnaca
One-way or roundtrip: One way
Date to leave: Sometime next week
Date to return: N/A
Travel preferences:
-Direct flights
-No flights before 10am
-Carry-on luggage"
من المفترض أن يفتح Gemini متصفحًا متخفيًا ويبدأ البحث عن رحلات طيران لك.
البحث عن الملفات 📁
تتيح "أداة البحث عن الملفات" إمكانية "التوليد المعزّز بالاسترجاع" (RAG) بدون عناء. ما عليك سوى تحميل ملفاتك، وستتولّى هذه الأداة جميع تفاصيل RAG المتعلقة بتقسيم المحتوى وتضمينه واسترجاعه.
للاطّلاع على كيفية عملها، يمكنك تشغيل main.py في github.com/meteatamel/genai-beyond-basics/blob/main/samples/grounding/file-search-tool.
احصل على مفتاح واجهة برمجة التطبيقات من Google AI Studio وأنشئ متجرًا للبحث عن الملفات باتّباع الخطوات التالية:
export GEMINI_API_KEY=your-gemini-api-key
python main.py create_store my-file-search-store
حمِّل ملف PDF إلى المتجر باتّباع الخطوات التالية:
python main.py upload_to_store fileSearchStores/myfilesearchstore-5a9x71ifjge9 cymbal-starlight-2024.pdf
طرح سؤال حول ملف PDF يشير إلى المتجر:
python main.py generate_content "What's the cargo capacity of Cymbal Starlight?" fileSearchStores/myfilesearchstore-5a9x71ifjge9
يجب أن تتلقّى ردًا مستندًا إلى ملف PDF:
Generating content with file search store: fileSearchStores/myfilesearchstore-5a9x71ifjge9
Response: The Cymbal Starlight 2024 has a cargo capacity of 13.5 cubic feet, which is located in the trunk of the vehicle. It is important to distribute the weight evenly and not overload the trunk, as this could impact the vehicle's handling and stability. The vehicle can also accommodate up to two suitcases in the trunk, and it is recommended to use soft-sided luggage to maximize space and cargo straps to secure it while driving.
Grounding sources: cymbal-starlight-2024.pdf
استدعاء الدالة 📲
إذا لم تكفِ الأدوات المضمّنة، يمكنك أيضًا تحديد أدواتك الخاصة (وظائفك) في Gemini. ما عليك سوى إرسال دالة Python كأداة (بدلاً من إرسال مواصفات OpenAPI مفصّلة للدالة). ويتم استخدامه تلقائيًا كأداة من قِبل النموذج وحزمة SDK.
على سبيل المثال، يمكنك استخدام دالة لعرض خطوط الطول والعرض لموقع جغرافي:
def location_to_lat_long(location: str):
"""Given a location, returns the latitude and longitude
Args:
location: The location for which to get the weather.
Returns:
The latitude and longitude information in JSON.
"""
logger.info(f"Calling location_to_lat_long({location})")
url = f"https://geocoding-api.open-meteo.com/v1/search?name={location}&count=1"
return api_request(url)
يمكنك أيضًا استخدام دالة لعرض معلومات الطقس من خطوط الطول والعرض:
def lat_long_to_weather(latitude: str, longitude: str):
"""Given a latitude and longitude, returns the weather information
Args:
latitude: The latitude of a location
longitude: The longitude of a location
Returns:
The weather information for the location in JSON.
"""
logger.info(f"Calling lat_long_to_weather({latitude}, {longitude})")
url = (f"https://api.open-meteo.com/v1/forecast?latitude={latitude}&longitude={longitude}¤t=temperature_2m,"
f"relative_humidity_2m,surface_pressure,wind_speed_10m,wind_direction_10m&forecast_days=1")
return api_request(url)
يمكنك الآن تمرير هاتين الدالتين كأدوات إلى Gemini والسماح له باستخدامهما لجلب معلومات الطقس لموقع جغرافي معيّن:
def generate_content_with_function_calls():
client = genai.Client(
vertexai=True,
project=PROJECT_ID,
location=LOCATION)
response = client.models.generate_content(
model=MODEL_ID,
contents=PROMPT,
config=GenerateContentConfig(
system_instruction=[
"You are a helpful weather assistant.",
"Your mission is to provide weather information for different cities."
"Make sure your responses are in plain text format (no markdown) and include all the cities asked.",
],
tools=[location_to_lat_long, lat_long_to_weather],
temperature=0),
)
print(response.text)
#print(response.automatic_function_calling_history)
لمشاهدة هذه الميزة أثناء العمل، يمكنك تشغيل main_genaisdk.py في github.com/meteatamel/genai-beyond-basics/blob/main/samples/function-calling/weather.
10. الوكلاء 🤖
تم تصميم Interactions API من Gemini لإنشاء وكلاء والتفاعل معهم. يمكنك استخدام وكلاء متخصصين، مثل Gemini Deep Research Agent. يخطّط وكيل Deep Research في Gemini وينفّذ ويجمع مهام البحث المتعددة الخطوات بشكل مستقل. يتنقّل في مساحات المعلومات المعقّدة باستخدام البحث على الويب وبياناتك الخاصة لإنشاء تقارير تفصيلية مع ذكر المصادر.
في ما يلي كيفية استخدام وكيل Deep Research مع Interaction API:
interaction = client.interactions.create(
input="Research the history of the Google TPUs.",
agent="deep-research-pro-preview-12-2025",
background=True
)
while True:
if interaction.status == "completed":
print("\nFinal Report:\n",
interaction.outputs[-1].text)
break
لتشغيل هذا النموذج بنفسك، يمكنك تنفيذ main.py في github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api.
export GOOGLE_API_KEY=your-api-key
python main.py agent
من المفترض أن يظهر لك البحث الذي تم إجراؤه بعد فترة:
User: Research the history of the Google TPUs with a focus on 2025 and 2026
Status: in_progress
Status: in_progress
Status: in_progress
...
Model Final Report:
# Architectural Convergence and Commercial Expansion: The History of Google TPUs (2015–2026)
## Key Findings
* **Strategic Pivot (2025):** Google transitioned the Tensor Processing Unit (TPU) from a primarily internal differentiator to a commercial merchant-silicon competitor, epitomized by the massive "Ironwood" (TPU v7) deployment and external sales strategy.
* **Technological Leap:** The introduction of TPU v7 "Ironwood" in 2025 marked a paradigm shift, utilizing 3nm process technology to deliver 42.5 exaFLOPS per pod, directly challenging NVIDIA's Blackwell architecture in the high-performance computing (HPC) sector.
...
11. إنشاء الصور 📷
Nano Banana 🍌 هو الاسم الذي يطلق على إمكانات إنشاء الصور الأصلية في Gemini. يمكن لـ Gemini إنشاء الصور ومعالجتها بشكل حواري باستخدام النصوص أو الصور أو مزيج من كليهما. يتيح لك ذلك إنشاء صور وتعديلها وتكرارها مع إمكانية التحكّم غير المسبوقة.
يشير Nano Banana إلى نموذجين مختلفَين متاحَين في Gemini API:
- Nano Banana: هو نموذج Gemini 2.5 Flash Image (
gemini-2.5-flash-image) المصمَّم لتحقيق السرعة والكفاءة، وهو محسّن للمهام التي تتطلّب معدّل نقل بيانات مرتفعًا ووقت استجابة منخفضًا. - Nano Banana Pro: هو نموذج "معاينة الصور" من Gemini 3 Pro (
gemini-3-pro-image-preview). تم تصميم هذا النموذج لإنشاء أصول احترافية، وهو يستخدم ميزة "الاستدلال المتقدّم" لتنفيذ التعليمات المعقّدة وعرض نص عالي الدقة.
إليك مقتطفًا من الرمز حيث يمكنك تمرير صورة حالية وطلب تعديلها من Nano Banana:
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client()
prompt = (
"Create a picture of my cat eating a nano-banana in a "
"fancy restaurant under the Gemini constellation",
)
image = Image.open("/path/to/cat_image.png")
response = client.models.generate_content(
model="gemini-2.5-flash-image",
contents=[prompt, image],
)
for part in response.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = part.as_image()
image.save("generated_image.png")
تتوفّر أداة Nano Banana في تطبيق Gemini أو AI Studio أو Vertex AI Studio. أسهل طريقة لتجربة هذه الميزة هي من خلال تطبيق Gemini. في تطبيق Gemini ( gemini.google.com)، انقر على 🍌 Create images ضمن Tools. بعد ذلك، حمِّل صورة وجرِّب أمرًا ممتعًا. مثلاً، يمكنك قول:
Can you transform this picture of mine to a nice beach on a tropical island?

12. إنشاء محتوى من النص إلى كلام 🎶
يمكن لـ Gemini تحويل النص المُدخَل إلى صوت أحادي أو متعدّد المتحدثين باستخدام إمكانات إنشاء "تحويل النص إلى كلام" (TTS) في Gemini. يمكن التحكّم في عملية إنشاء الصوت باستخدام ميزة "تحويل النص إلى كلام"، ما يعني أنّه يمكنك استخدام اللغة الطبيعية لتنظيم التفاعلات وتحديد الأسلوب واللهجة والسرعة ونبرة الصوت.
يتوفّر نموذجان متوافقان مع ميزة "تحويل النص إلى كلام":
تختلف إمكانية تحويل النص إلى كلام عن إمكانية إنشاء الكلام المقدَّمة من خلال Live API، والتي تم تصميمها لتوفير محتوى صوتي تفاعلي وغير منظَّم، بالإضافة إلى مدخلات ومخرجات متعددة الوسائط. في حين أنّ واجهة Live API تتفوّق في سياقات المحادثات الديناميكية، تم تصميم ميزة "تحويل النص إلى كلام" من خلال واجهة Gemini API لتناسب السيناريوهات التي تتطلّب تلاوة نصية دقيقة مع إمكانية التحكّم بدقة في الأسلوب والصوت، مثل إنشاء ملفات بودكاست أو كتب مسموعة.
في ما يلي مقتطف من الرمز البرمجي لتحويل النص إلى كلام بصوت متحدث واحد:
from google import genai
from google.genai import types
import wave
# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
with wave.open(filename, "wb") as wf:
wf.setnchannels(channels)
wf.setsampwidth(sample_width)
wf.setframerate(rate)
wf.writeframes(pcm)
client = genai.Client()
response = client.models.generate_content(
model="gemini-2.5-flash-preview-tts",
contents="Say cheerfully: Have a wonderful day!",
config=types.GenerateContentConfig(
response_modalities=["AUDIO"],
speech_config=types.SpeechConfig(
voice_config=types.VoiceConfig(
prebuilt_voice_config=types.PrebuiltVoiceConfig(
voice_name='Kore',
)
)
),
)
)
data = response.candidates[0].content.parts[0].inline_data.data
file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory
يمكنك الاطّلاع على المزيد من العيّنات في مستندات "تحويل النص إلى كلام".
يمكنك أيضًا تجربة إنشاء كلام في مساحة المعلّمات في Google AI Studio. جرِّب طلبات مختلفة في تطبيق generate-speech:

13. Spatial Understanding 🌐
يتميّز Gemini بقدرات متطوّرة في رصد الأجسام وفهم المساحات.
أسهل طريقة لفهم ذلك هي رؤيته أثناء العمل. انتقِل إلى تطبيق Spatial Understanding Starter App في AI Studio. اختَر بعض الصور وحاوِل رصد بعض العناصر فيها باستخدام Gemini.
على سبيل المثال، يمكنك رصد "ظلال" أو "فواكه" في صور مختلفة:

جرِّب صورًا مختلفة واطّلِع على مدى دقة Gemini في رصد العناصر المختلفة وتصنيفها.
14. Live API 🎤
تتيح Live API التفاعل مع Gemini في الوقت الفعلي باستخدام الصوت والفيديو وبزمن استجابة منخفض. تعالج هذه الواجهة تدفقات مستمرة من الصوت أو الفيديو أو النص لتقديم ردود فورية شبيهة بالردود البشرية، ما يتيح للمستخدمين تجربة محادثة طبيعية.

يمكنك تجربة Live API في Google AI Studio أو Live API في Vertex AI Studio. في كلا التطبيقين، يمكنك مشاركة صوتك وفيديو وشاشتك وإجراء محادثة مباشرة مع Gemini.

يمكنك البدء بمشاركة الفيديو أو الشاشة، وطرح أسئلة عامة على Gemini من خلال الصوت. على سبيل المثال:
Can you describe what you see on the screen?
ستُدهشك مدى طبيعية الردود التي ستحصل عليها من Gemini.
15. الخاتمة
في هذا الدرس التطبيقي حول الترميز، تناولنا منظومة Gemini المتكاملة، بدءًا من مجموعة منتجات Gemini، وتعرّفنا على كيفية دمج النماذج في تطبيقاتنا باستخدام حزمة تطوير البرامج (SDK) الموحّدة من Google للذكاء الاصطناعي التوليدي. استكشفنا ميزات Gemini المتطوّرة، بما في ذلك "قدرة الاستيعاب الموسَّعة" و"وضع التفكير" وأدوات التأسيس المضمّنة وLive API و"الفهم المكاني". ننصحك بالاطّلاع على مستندات المرجع والبدء بتجربة إمكانات Gemini الكاملة.
المراجع
- تطبيق Gemini
- NotebookLM
- Google AI Studio
- Vertex AI Studio
- Gemini CLI
- Google Antigravity
- نماذج Gemini
- Google Gen AI SDK
- حزمة تطوير البرامج (SDK) للغة Python
- Go SDK
- Node SDK
- حزمة تطوير البرامج (SDK) في Java
- حزمة تطوير البرامج (SDK) للغة C#
- Interactions API
- وكيل Deep Research من Gemini
- إنشاء الصور باستخدام Nano Banana
- إنشاء محتوى باستخدام تحويل النص إلى كلام (TTS)
- Live API