Gemini 3.5 Flash مثير للإعجاب. إليك ما وجدناه بالفعل.

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

هناك قاعدة غير مكتوبة في إصدارات نماذج الذكاء الاصطناعي: Pro ذكي، وFlash سريع، وعليك أن تختار التوازن الذي يناسبك. جوجل كسرت هذه القاعدة للتو.

أُعلن عنه في مؤتمر Google I/O بتاريخ 19 مايو 2026، Gemini 3.5 Flash هو أول نموذج في عائلة Gemini 3.5 الجديدة — ويفعل شيئًا لم يفعله أي نموذج من فئة Flash من قبل: يتفوق على نموذج Pro الرائد السابق في معايير البرمجة والمهام الوكيلة، بينما لا يزال يعمل بسرعات Flash.

السياق

أُطلق Gemini 3.1 Pro في فبراير 2026 وتصدر على الفور مؤشر Artificial Analysis Intelligence في مهام الاستدلال البصري المعقدة والمهام متعددة الوسائط. كان النموذج الرائد لجوجل، وقد صدر قبل ثلاثة أشهر فقط.

أصبح 3.5 Flash الآن أفضل منه في معظم معايير البرمجة والمهام الوكيلة. وهو أسرع.

المعايير

Category	Benchmark	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Claude Sonnet 4.6	Claude Opus 4.7	GPT-5.5
Coding	Terminal-Bench 2.1 (agentic terminal coding)	76.2%	58.0%	70.3%	—	66.1%	78.2%
Coding	SWE-Bench Pro (diverse agentic coding tasks)	55.1%	49.6%	54.2%	—	64.3%	58.6%
Agentic	MCP Atlas (multi-step workflows using MCP)	83.6%	62.0%	78.2%	69.5%	79.1%	75.3%
Agentic	Toolathlon (real-world general tool use)	56.5%	49.4%	—	—	—	55.6%
UI Control	OSWorld-Verified (agentic computer use)	78.4%	65.1%	76.2%	72.5%	78.0%	78.7%
Expert Tasks	Finance Agent v2 (financial analysis and decision-making)	57.9%	42.6%	43.0%	51.0%	51.5%	51.8%
Expert Tasks	GDPval-AA (economically valuable knowledge work, Elo)	1656	1204	1314	1676	1753	1769
Multimodal	CharXiv Reasoning (information synthesis from complex charts)	84.2%	80.3%	83.3%	72.4%	82.1%	84.1%
Multimodal	MMMU-Pro (multimodal understanding and reasoning)	83.6%	81.2%	80.5%	74.5%	75.2%	81.2%
Multimodal	Blueprint-Bench 2 (agentic spatial reasoning)	33.6%	0.0%	26.5%	6.7%	24.5%	36.2%
Long Context	MRCR v2 — 128k (long context retrieval)	77.3%	67.2%	84.9%	84.9%	59.3%	94.8%
Long Context	MRCR v2 — 1M (long context retrieval)	26.6%	22.1%	26.3%	—	—	—
Reasoning	Humanity's Last Exam (academic reasoning, text + multimodal)	40.2%	33.7%	44.4%	33.2%	46.9%	41.4%
Reasoning	ARC-AGI-2 (abstract reasoning puzzles)	72.1%	33.6%	77.1%	58.3%	75.8%	84.6%

^{المصدر:}^{جوجل ديب مايند — Gemini 3.5 Flash}

يتصدر Flash في معايير المهام الوكيلة، واستخدام الأدوات، وتعدد الوسائط. في البرمجة، يتفوق على Gemini 3.1 Pro في كلتا المهمتين، على الرغم من أن GPT-5.5 و Claude Opus 4.7 يتصدران فئتيهما. في الاستدلال العميق واسترجاع السياق الطويل، تحتفظ نماذج Pro الرائدة بميزة — وهي فجوة يبدو أن جوجل تحتفظ بها لنموذج 3.5 Pro القادم.

لماذا بدأت جوجل بـ Flash وليس Pro

قرار جوجل ببدء سلسلة 3.5 بـ Flash — وليس Pro — هو إشارة. لسير العمل الأكثر أهمية في الإنتاج اليوم — الوكلاء، استخدام الأدوات، حلقات البرمجة — عمق الاستدلال الخام يهم أقل من مزيج الجودة والسرعة والتكلفة.

يعمل Flash أسرع بأربع مرات من النماذج الرائدة المماثلة وبسعر 1.50 دولار / 9.00 دولارات لكل مليون رمز إدخال/إخراج، مما يجعل تشغيل مسارات عمل الوكلاء أرخص بكثير على نطاق واسع.

تدعم تقييمات الإنتاج هذا. أفاد بن كوس، المدير التقني لشركة Box، أن 3.5 Flash تفوق على الجيل السابق من Flash بنسبة 19.6% في سير عمل الشركات الواقعية، مع تحسن دقة استخراج بيانات علوم الحياة بنسبة 96.4%. لاحظ نيك فرولوف من JetBrains تحسنًا بنسبة 10-20% في أداء البرمجة مقارنة بالجيل السابق من Flash.

هل يثبت Gemini 3.5 Flash كفاءته على نقطة النهاية الخاصة بك؟

تستخدم المعايير الرسمية أدوات اختبار خاصة، ومجموعات مهام كاملة، ومكدس تقييم خاص بالبائع. السؤال المهم لفرق المنصات مختلف: ماذا تحصل عليه على عنوان URL الأساسي الخاص بك، مع معرفات النموذج الخاصة بك، وعلى المطالبات التي يمكنك إعادة تشغيلها؟

أجرينا اختبارًا نصيًا فقط مكونًا من 15 مطالبة عبر بوابة ترو فاوندري للذكاء الاصطناعي عبر الفئات الثلاث نفسها التي أبرزتها جوجل — نمط CharXiv، ونمط MMMU-Pro، ونمط Finance Agent v2 — وتم تقييمها بناءً على إجابات مرجعية.

Model	Accuracy	Mean latency	Total cost	Cost / correct
Claude Opus 4.7	66.7%(10/15)	2,538 ms	$0.045	$0.0045
GPT-5.5	60.0% (9/15)	3,017 ms	$0.020	$0.0022
Gemini 3.5 Flash	46.7% (7/15)	3,529 ms	$0.091	$0.0130

Suite	Claude Opus 4.7	GPT-5.5	Gemini 3.5 Flash
CharXiv-style	80%	80%	80%
MMMU-Pro-style	80%	80%	60%
Finance Agent v2-style	40%	20%	0%

هذه التجربة لا تدحض أرقام جوجل الرسمية — فهم يستخدمون اختبارات مختلفة ومكدس تقييم مختلف. ما يظهره هو أن تصنيفات المعايير لا تنتقل تلقائيًا إلى نقطة النهاية الخاصة بك. في شريحتنا، كانت نتيجة Flash في النمط المالي 0/5، وكانت الإخفاقات ناتجة عن إجابات طويلة لم تتطابق مع التنسيق المتوقع. كانت صورة التكلفة واضحة بنفس القدر: Flash تحمل أعلى إجمالي إنفاق وأقل عدد من الإجابات الصحيحة، مما جعل تكلفته لكل إجابة صحيحة حوالي 6 أضعاف GPT-5.5.

المقياس المهم عندما تكون النماذج قابلة للتبديل خلف بوابة هو التكلفة لكل إجابة صحيحة: سعر الرمز × الرموز لكل محاولة ÷ احتمالية استجابة قابلة للاستخدام.

نافذة السياق بمليون رمز

يدعم Gemini 3.5 Flash نافذة سياق بمليون رمز — وهو ما يكفي لاستيعاب قاعدة بيانات كاملة، أو وثيقة تنظيمية مطولة، أو التتبع الكامل لمهمة مستقلة طويلة الأمد في جلسة واحدة. تشير معايير الاسترجاع إلى أن النافذة قابلة للاستخدام حقًا بهذا الطول، بدلاً من أن تتدهور في الذيل الطويل.

جيميني سبارك وما تشير إليه جوجل

أُعلن أيضًا في مؤتمر I/O: جيميني سبارك، وكيل جوجل الشخصي الجديد للذكاء الاصطناعي المتوفر على مدار الساعة طوال أيام الأسبوع، يعمل بواسطة 3.5 Flash. أصبح النموذج الآن هو الافتراضي عبر تطبيق Gemini ووضع الذكاء الاصطناعي في بحث جوجل عالميًا. تنشر جوجل 3.5 Flash كإعداد افتراضي للإنتاج لكل من منتجاتها الاستهلاكية الأكثر استخدامًا وتجاربها الوكيلة الأكثر طموحًا — وليس كخطوة أولية.

ما يجب مراقبته

3.5 Pro الشهر القادم. أكدت جوجل أن 3.5 Pro قيد الاستخدام الداخلي بالفعل. إذا كان 3.5 Flash يتفوق بالفعل على 3.1 Pro في معظم المعايير، فالسؤال هو ماذا سيفعل 3.5 Pro في مهام الاستدلال والسياق الطويل حيث لا يزال Flash متأخرًا.

ريادة MCP Atlas. ريادة Flash في MCP Atlas — المعيار لسير عمل الأدوات متعدد الخطوات باستخدام بروتوكول سياق النموذج — تشير إلى أن جوجل جعلت تنسيق الأدوات هدفًا تدريبيًا من الدرجة الأولى. بالنسبة للفرق التي تبني معماريات متوافقة مع MCP، هذا يستحق الأخذ به على محمل الجد.

شغّله على ترو فاوندري

بوابة ترو فاوندري للذكاء الاصطناعي تمنحك الوصول إلى Gemini 3.5 Flash جنبًا إلى جنب مع GPT-5.5 و Claude Opus 4.7 ونماذج رائدة أخرى عبر نقطة نهاية واحدة — وهو نفس الإعداد المستخدم للتحقق أعلاه. تتبع موحد للطلبات، وتحديد التكلفة حسب النموذج والفريق، ولا توجد مفاتيح API منفصلة لكل مزود.

جربه · بدء سريع · احجز عرضًا توضيحيًا

_{بيانات المعيار الرسمي:}_{Google DeepMind — Gemini 3.5 Flash}_{، 19 مايو 2026. تشغيل التحقق من TrueFoundry: 20 مايو 2026، نظام اختبار نصي فقط بـ 15 موجهًا عبر بوابة TrueFoundry للذكاء الاصطناعي.}

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now