وتُعدّ مجموعة نماذج Gemini متعددة الوسائط لأنّها قادرة على لمعالجة المعلومات من عدة وسائط، منها الصور ومقاطع الفيديو والنص. على سبيل المثال، يمكنك إرسال صورة لنموذج من Gemini لصورة طبق الكعكات وتطلب منه أن يقدم لك وصفة لهذه الكعكات.
طلب | الردّ |
أريد وصفة كعكة هذه. |
**المكوّنات** - 1 ج. (إصبعان) زبدة غير مملحة، ناعمة - 3/4 ج. سكر محبب - 3/4 ج. سكر بني، معبّأ - ملعقة صغيرة . مستخلص الفانيليا - بيضتان كبيرتان - 2 1/4 ج. دقيق لجميع الأغراض - ملعقة صغيرة بيكربونات الصودا - ملعقة صغيرة ملح ... |
يمكنك التفاعل مع مجموعة نماذج Gemini باستخدام تم توفير Gemini API من قِبل "Vertex AI" في Google Cloud. بالنسبة إلى تطبيقات الويب وتطبيقات الأجهزة الجوّالة، يمكنك استخدام Vertex AI in Firebase حِزم تطوير برامج (SDK) لطلب بيانات من Gemini API والتفاعل مع نماذج Gemini مباشرةً من تطبيقك
تقدّم هذه الصفحة المعلومات التالية عن نماذج Gemini:
مقارنة رفيعة المستوى لحالات الاستخدام لمختلف أنواع Gemini بما في ذلك أنواع الإدخال المتوافقة.
مقارنة تفاصيل كل نموذج، على سبيل المثال الحد الأقصى للرموز المميزة للإدخال أو الحد الأقصى لطول الفيديو.
وصف لطريقة إصدار نماذج Gemini، على وجه التحديد الإصدارات الثابتة والمحدثة تلقائيًا والمعاينة.
قوائم أسماء الطُرز المتاحة لتضمينها في التعليمات البرمجية أثناء التهيئة.
قائمة اللغات المتاحة لنماذج Gemini
الطُرز المتاحة
يمكنك استخدام أي من نماذج Gemini التالية مع "Vertex AI in Firebase":
Gemini 1.5 Flash
نموذج متعدد الوسائط يتيح نفس المدخلات والمخرجات مثل 1.5 Pro، ولكن مع فهم على المدى الطويل مليون رمز مميز. تم تصميم Gemini 1.5 Flash خصيصًا لاستيعاب كميات كبيرة من المحتوى بتكلفة معقولة التطبيقات.Gemini 1.5 Pro
هو نموذج متعدد الوسائط يتيح إضافة الصور والصوت والفيديو وملفات PDF في مطالبات نصية أو رسائل إلكترونية كردّ على نص أو رمز. وهي تتيح أيضًا فهم المحتوى على المدى الطويل من خلال مليونَي رمز مميّز.Gemini 1.0 Pro Vision
نموذج متعدد الوسائط مصمم للتعامل مع النصوص الصور والفيديو لرد نصي أو رمز. لا يمكن استخدامها للمحادثة.Gemini 1.0 Pro
نموذج مصمَّم للتعامل مع مهام اللغة الطبيعية في عدة جولات والدردشة باستخدام النصوص والرموز، بالإضافة إلى إنشاء الرموز.
الانتقال إلى أسماء الطُرز لتضمينها في الرمز الخاص بك
حالات الاستخدام والإمكانات لكل نموذج
لكل نموذج من نماذج Gemini إمكانات مختلفة لإتاحة حالات استخدام مختلفة. يمكنك الاطّلاع على المزيد من المعلومات في مستندات "Google Cloud" حول كل من نماذج Gemini
إدخال وإخراج متوافقان لكل نموذج
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
أنواع عمليات الإدخال | ||||
Text | ||||
الرمز | ||||
صورة | ||||
ملف PDF | ||||
فيديو (الإطارات فقط) | ||||
فيديو (الإطارات والصوت) | ||||
الصوت | ||||
أنواع النتائج | ||||
Text | ||||
الرمز |
للتعرّف على أنواع الملفات المتوافقة، راجع ملفات الإدخال المتوافقة والمتطلبات Vertex AI Gemini API
الإمكانات المتوافقة والميزات العامة لكل نموذج
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
إنشاء النص استنادًا إلى الطلبات النصية فقط | |||||
إنشاء النص استنادًا إلى الطلبات المتعدّدة الوسائط | |||||
ناتج JSON (وضع المخطط المحدود) (تتوفّر قريبًا في حِزم تطوير البرامج (SDK) لـ Vertex AI in Firebase) |
|||||
محادثة متعدّدة الأدوار | |||||
استدعاء الدالة | |||||
استدعاء الدوال الأساسية | |||||
استدعاء الدوال المتوازية | |||||
وضع الاتصال عبر الوظائف | |||||
عدد الرموز المميّزة والأحرف القابلة للفوترة | |||||
تعليمات النظام |
معلومات تفصيلية حول كل نموذج
الموقع | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
إجمالي الحد الأقصى للرموز المميّزة (الإدخالات والمخرجات المجمّعة) * | 1,048,576 رمزًا مميزًا | 2,097,152 رمزًا مميزًا | 16,384 رمزًا مميزًا | 32,760 رمزًا مميزًا |
حد الرمز المميّز للمخرجات * | 8,192 رمزًا مميزًا | 8,192 رمزًا مميزًا | 2,048 رمزًا مميزًا | 8,192 رمزًا مميزًا |
الحد الأقصى لعدد الصور في كل طلب | 3,000 صورة | 3,000 صورة | 16 صورة | لا ينطبق |
الحد الأقصى لحجم الصورة بترميز base64 | 7 ميغابايت | 7 ميغابايت | 7 ميغابايت | لا ينطبق |
الحد الأقصى لحجم ملف PDF | 30 ميغابايت | 30 ميغابايت | 30 ميغابايت | لا ينطبق |
الحد الأقصى لعدد ملفات الفيديو لكل طلب | 10 ملفات فيديو | 10 ملفات فيديو | ملف فيديو واحد | لا ينطبق |
الحد الأقصى لمدة الفيديو (الإطارات فقط) | حوالي 60 دقيقة فيديو | حوالي 60 دقيقة فيديو | دقيقتان | لا ينطبق |
الحد الأقصى لمدة الفيديو (الإطارات والصوت) | حوالي 45 دقيقة فيديو | حوالي 45 دقيقة فيديو | لا ينطبق | لا ينطبق |
الحد الأقصى لعدد الملفات الصوتية في كل طلب | ملف صوتي واحد | ملف صوتي واحد | لا ينطبق | لا ينطبق |
الحد الأقصى لطول الصوت | حوالي 8.4 ساعة من الصوت | حوالي 8.4 ساعة من الصوت | لا ينطبق | لا ينطبق |
* يعادل الرمز المميّز 4 أحرف تقريبًا في جميع طُرز Gemini.
لذا فإن 100 رمز يشير إلى ما يقرب من 60-80 كلمة إنجليزية. يمكنك تحديد العدد الإجمالي
بالرموز المميزة في طلباتك باستخدام
countTokens
.
يمكنك هنا العثور على معلومات أكثر تفصيلاً حول النماذج ملفات الإدخال:
يمكنك معرفة المزيد عن الاختلافات بين النماذج المتعددة الوسائط في مستندات Google Cloud.
تعرَّف على أنواع الملفات المتوافقة وكيفية تحديد نوع MIME وكيفية إنشاء التأكد من أن ملفاتك وطلباتك المتعددة الوسائط تلبي المتطلبات أفضل الممارسات في ملفات الإدخال المتوافقة والمتطلبات Vertex AI Gemini API
تحديد إصدارات النماذج
تتوفّر نماذج Gemini في الإصدار الثابت والمعدَّل تلقائيًا والمعاينة. مماثلة.
تعتبر الإصدارات الثابتة متوفرة للجمهور العام.
- يكون للإصدارات الثابتة أسماء نماذج مرفقة مع
رقم الإصدار المحدد المكون من ثلاثة أرقام، على سبيل المثال
gemini-1.0-pro-001
- يكون للإصدارات الثابتة أسماء نماذج مرفقة مع
رقم الإصدار المحدد المكون من ثلاثة أرقام، على سبيل المثال
تشير الإصدارات المحدّثة تلقائيًا دائمًا إلى أحدث إصدار ثابت من هذا النموذج إذا تم طرح إصدار ثابت جديد، فإن الإصدار المحدَّث تلقائيًا تلقائيًا في الإشارة إلى ذلك الإصدار الثابت الجديد.
- تحمل الإصدارات - التي يتم تحديثها تلقائيًا - أسماء طُرز بدون
اللاحقة، على سبيل المثال
gemini-1.0-pro
- تحمل الإصدارات - التي يتم تحديثها تلقائيًا - أسماء طُرز بدون
اللاحقة، على سبيل المثال
تتميز إصدارات المعاينة بإمكانيات جديدة ولا تُعتبر غير ثابتة. لاحظ أن إصدارات المعاينة تشير دائمًا إلى أحدث إصدار من المعاينة هذا النموذج في حال طرح إصدار معاينة جديد، أي إصدار معاينة حالي تلقائيًا في الإشارة إلى إصدار المعاينة الجديد هذا.
- تحتوي إصدارات المعاينة على أسماء نماذج مرفقة مع
بالإضافة إلى الإصدار الأولي للنموذج التاريخ (-preview
)، على سبيل المثال-MMDD
(تاريخ الإصدار 9 أبريل 2024).gemini-1.5-pro-preview-0409
- تحتوي إصدارات المعاينة على أسماء نماذج مرفقة مع
يمكنك الاطّلاع على مزيد من المعلومات عن سياسة إصدارات نماذج Gemini المتاحة ومراحل نشاطها في وثائق Google Cloud.
أسماء الطُرز المتاحة
أسماء الطُرز هي القيم الصريحة التي تدرجها في الرمز أثناء تهيئة النموذج التوليدي (والذي يُعد خطوة مطلوبة لاستدعاء Gemini API). للحصول على أمثلة حول الإعداد للغتك، يمكنك الاطّلاع على دليل البدء.
أسماء نماذج Gemini 1.5 Flash
اسم النموذج | الوصف | مرحلة الإصدار | تاريخ الإصدار الأولي | تاريخ الإيقاف |
---|---|---|---|---|
الإصدارات الثابتة | ||||
gemini-1.5-flash-001 |
أحدث إصدار ثابت من Gemini 1.5 Flash | مدى التوفّر للجمهور العام | 2024-05-24 | ليس قبل تاريخ 24/05/2025 |
الإصدار المحدَّث تلقائيًا | ||||
gemini-1.5-flash |
يشير إلى أحدث إصدار ثابت من 1.5 Flash . (حاليًا gemini-1.5-flash-001 |
مدى التوفّر للجمهور العام | 2024-05-24 | --- |
معاينة النُسخ | ||||
gemini-1.5-flash-preview-0514 |
أحدث إصدار من معاينة Gemini 1.5 Flash | الميزات التجريبية المتاحة للجميع | 2024-05-14 | 2024-06-24 |
أسماء طُرز Gemini 1.5 Pro
اسم النموذج | الوصف | مرحلة الإصدار | تاريخ الإصدار الأولي | تاريخ الإيقاف |
---|---|---|---|---|
الإصدارات الثابتة | ||||
gemini-1.5-pro-001 |
أحدث إصدار ثابت من Gemini 1.5 Pro | مدى التوفّر للجمهور العام | 2024-05-24 | ليس قبل تاريخ 24/05/2025 |
الإصدار المحدَّث تلقائيًا | ||||
gemini-1.5-pro |
يشير إلى أحدث إصدار ثابت من 1.5 Pro (حاليًا gemini-1.5-pro-001 |
مدى التوفّر للجمهور العام | 2024-05-24 | --- |
معاينة النُسخ | ||||
gemini-1.5-pro-preview-0514 |
أحدث إصدار معاينة من Gemini 1.5 Pro | الميزات التجريبية المتاحة للجميع | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
يشير إلى gemini-1.5-pro-preview-0514 (وهو إصدار أحدث إصدار معاينة) |
الميزات التجريبية المتاحة للجميع | 2024-04-09 | 2024-06-14 |
أسماء نماذج Gemini 1.0 Pro Vision
اسم النموذج | الوصف | مرحلة الإصدار | تاريخ الإصدار الأولي | تاريخ الإيقاف |
---|---|---|---|---|
الإصدارات الثابتة | ||||
gemini-1.0-pro-vision-001 |
أحدث إصدار ثابت من Gemini 1.0 Pro Vision | مدى التوفّر للجمهور العام | 2024-02-15 | قبل 15/02/2025 |
الإصدار المحدَّث تلقائيًا | ||||
gemini-1.0-pro-vision |
يشير إلى أحدث إصدار ثابت من 1.5 Pro Vision . (حاليًا gemini-1.5-pro-vision-001 |
مدى التوفّر للجمهور العام | 2024-01-04 | --- |
أسماء طُرز Gemini 1.0 Pro
اسم النموذج | الوصف | مرحلة الإصدار | تاريخ الإصدار الأولي | تاريخ الإيقاف |
---|---|---|---|---|
الإصدارات الثابتة | ||||
gemini-1.0-pro-002 |
أحدث إصدار ثابت من Gemini 1.0 Pro | مدى التوفّر للجمهور العام | 2024-04-09 | ليس قبل تاريخ 2025/4/09 |
gemini-1.0-pro-001 |
إصدار ثابت من Gemini 1.0 Pro | مدى التوفّر للجمهور العام | 2024-02-15 | قبل 15/02/2025 |
الإصدار المحدَّث تلقائيًا | ||||
gemini-1.0-pro |
يشير إلى أحدث إصدار ثابت من 1.0 Pro (حاليًا gemini-1.0-pro-002 |
مدى التوفّر للجمهور العام | 2024-02-15 | --- |
اللغات المتاحة
يمكن لجميع نماذج Gemini فهمها والردّ عليها من خلال اللغات التالية:
العربية (ar)، البنغالية (bn)، البلغارية (bg)، الصينية المبسّطة والتقليدية (zh)، الكرواتية (hr)، التشيكية (cs)، الدانمركية (da)، الهولندية (nl)، الإنجليزية (en)، الإستونية (et)، الفنلندية (fi)، الفرنسية (fr)، الألمانية (de)، اليونانية (el)، العبرية (iw)، الهندية (hi)، المجرية (hu)، الإندونيسية (id)، الإيطالية (الإيطالية)، اليابانية (اليابانية)، الكورية (ko)، اللاتفية (lv)، الليتوانية (lt)، النرويجية (لا)، البولندية (pl)، البرتغالية (البرتغالية)، الرومانية (ro)، الروسية (ru)، الصربية (sr)، السلوفاكية (sk)، السلوفينية (sl)، الإسبانية (es)، السواحيلية (sw)، السويدية (sv)، التايلاندية (th)، التركية (tr)، الأوكرانية (uk)، الفيتنامية (vi)
Gemini 1.5 Pro وGemini 1.5 Flash يمكن لهذه النماذج فهم اللغات الإضافية التالية والرد عليها:
الأفريقانية (af)، الأمهرية (am)، الأسامية (as)، الأذربيجانية (az)، البيلاروسية (be)، البوسنية (bs)، الكتالانية (ca)، السيبوانية (ceb)، الكورسيكية (co)، الويلزية (السرية)، الديفيهية (dv)، الإسبرانتو (eo)، الباسكية (الاتحاد الأوروبي)، الفارسية (fa)، الفلبينية (التاغالوغية) (fil)، الفريزية (fy)، الأيرلندية (ga)، الاسكتلندية الغالية (gd)، الغليشيانية (gl)، الغوجاراتية (gu)، الهاوسا (ha)، الهاوايية (haw)، الهمونجية (hmn)، الكريولية الهايتية (ht)، الأرمينية (hy)، الإيغبو (ig)، الأيسلندية (is)، الجاوية (jv)، الجورجية (كا)، الكازاخية (kk)، الخميرية (كم)، الكانادا (kn)، الكريو (الكري)، الكردية (ku)، القيرغيزية (ky)، اللاتينية (la)، اللوكسمبورغية (lb)، اللاوية (lo)، الملغاشية (mg)، الماورية (ميل)، المقدونية (mk)، المالايالامية (مل)، المنغولية (mn)، المايتيلون (المانيبورية) (mni-Mtei) والماراثية (mr) الماليزية (ms)، المالطية (mt)، ميانمار (البورمية) (my)، النيبالية (ني)، نينجا (تشيشيوا) (ني)، الأودية (الأوريا) (أو)، البنجابية (pa)، الباشتو (ps)، السندية (sd)، السنهالية (السنهالية) (سي)، الساموانية (sm)، الشونا (sn)، الصومالية (سو)، الألبانية (sq)، السيسوتو (st)، السوندانية (su)، التاميلية (ta)، التيلوغوية (te)، الطاجيكية (tg)، الأويغورية (ug)، الأوردية (أو الأوردية)، الأوزبكية (uz)، الخوسا (xh)، اليديشية (yi)، اليوروبا (يو)، الزولوية (zu)
الخطوات التالية
تجربة إمكانات Gemini API
- إنشاء محادثات متعددة الأدوار (محادثة)
- إنشاء نص من الطلبات النصية فقط:
- إنشاء نص من الطلبات المتعدّدة الوسائط (بما في ذلك النصوص والصور وملفات PDF والفيديو والصوت)
- استخدام استدعاء الوظائف للاتصال النماذج التوليدية للأنظمة والمعلومات الخارجية