Blank white background with no objects or features visible.

تعلن TrueFoundry عن استحواذها على Seldon AI، موسعة بذلك لوحة التحكم الخاصة بها للذكاء الاصطناعي للمؤسسات. البيان الصحفي الكامل →

Gemini 3.5 Flash مثير للإعجاب. إليك ما وجدناه بالفعل.

By أمروثا بوتلوري

Published: July 4, 2026

هناك قاعدة غير مكتوبة في إصدارات نماذج الذكاء الاصطناعي: Pro ذكي، وFlash سريع، وعليك أن تختار التوازن الذي يناسبك. جوجل كسرت هذه القاعدة للتو.

أُعلن عنه في مؤتمر Google I/O بتاريخ 19 مايو 2026، Gemini 3.5 Flash هو أول نموذج في عائلة Gemini 3.5 الجديدة — ويفعل شيئًا لم يفعله أي نموذج من فئة Flash من قبل: يتفوق على نموذج Pro الرائد السابق في معايير البرمجة والمهام الوكيلة، بينما لا يزال يعمل بسرعات Flash.

السياق

أُطلق Gemini 3.1 Pro في فبراير 2026 وتصدر على الفور مؤشر Artificial Analysis Intelligence في مهام الاستدلال البصري المعقدة والمهام متعددة الوسائط. كان النموذج الرائد لجوجل، وقد صدر قبل ثلاثة أشهر فقط.

أصبح 3.5 Flash الآن أفضل منه في معظم معايير البرمجة والمهام الوكيلة. وهو أسرع.

المعايير

CategoryBenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 ProClaude Sonnet 4.6Claude Opus 4.7GPT-5.5
CodingTerminal-Bench 2.1 (agentic terminal coding)76.2%58.0%70.3%66.1%78.2%
CodingSWE-Bench Pro (diverse agentic coding tasks)55.1%49.6%54.2%64.3%58.6%
AgenticMCP Atlas (multi-step workflows using MCP)83.6%62.0%78.2%69.5%79.1%75.3%
AgenticToolathlon (real-world general tool use)56.5%49.4%55.6%
UI ControlOSWorld-Verified (agentic computer use)78.4%65.1%76.2%72.5%78.0%78.7%
Expert TasksFinance Agent v2 (financial analysis and decision-making)57.9%42.6%43.0%51.0%51.5%51.8%
Expert TasksGDPval-AA (economically valuable knowledge work, Elo)165612041314167617531769
MultimodalCharXiv Reasoning (information synthesis from complex charts)84.2%80.3%83.3%72.4%82.1%84.1%
MultimodalMMMU-Pro (multimodal understanding and reasoning)83.6%81.2%80.5%74.5%75.2%81.2%
MultimodalBlueprint-Bench 2 (agentic spatial reasoning)33.6%0.0%26.5%6.7%24.5%36.2%
Long ContextMRCR v2 — 128k (long context retrieval)77.3%67.2%84.9%84.9%59.3%94.8%
Long ContextMRCR v2 — 1M (long context retrieval)26.6%22.1%26.3%
ReasoningHumanity's Last Exam (academic reasoning, text + multimodal)40.2%33.7%44.4%33.2%46.9%41.4%
ReasoningARC-AGI-2 (abstract reasoning puzzles)72.1%33.6%77.1%58.3%75.8%84.6%

المصدر: جوجل ديب مايند — Gemini 3.5 Flash

يتصدر Flash في معايير المهام الوكيلة، واستخدام الأدوات، وتعدد الوسائط. في البرمجة، يتفوق على Gemini 3.1 Pro في كلتا المهمتين، على الرغم من أن GPT-5.5 و Claude Opus 4.7 يتصدران فئتيهما. في الاستدلال العميق واسترجاع السياق الطويل، تحتفظ نماذج Pro الرائدة بميزة — وهي فجوة يبدو أن جوجل تحتفظ بها لنموذج 3.5 Pro القادم.

لماذا بدأت جوجل بـ Flash وليس Pro

قرار جوجل ببدء سلسلة 3.5 بـ Flash — وليس Pro — هو إشارة. لسير العمل الأكثر أهمية في الإنتاج اليوم — الوكلاء، استخدام الأدوات، حلقات البرمجة — عمق الاستدلال الخام يهم أقل من مزيج الجودة والسرعة والتكلفة.

يعمل Flash أسرع بأربع مرات من النماذج الرائدة المماثلة وبسعر 1.50 دولار / 9.00 دولارات لكل مليون رمز إدخال/إخراج، مما يجعل تشغيل مسارات عمل الوكلاء أرخص بكثير على نطاق واسع.

تدعم تقييمات الإنتاج هذا. أفاد بن كوس، المدير التقني لشركة Box، أن 3.5 Flash تفوق على الجيل السابق من Flash بنسبة 19.6% في سير عمل الشركات الواقعية، مع تحسن دقة استخراج بيانات علوم الحياة بنسبة 96.4%. لاحظ نيك فرولوف من JetBrains تحسنًا بنسبة 10-20% في أداء البرمجة مقارنة بالجيل السابق من Flash.

هل يثبت Gemini 3.5 Flash كفاءته على نقطة النهاية الخاصة بك؟

تستخدم المعايير الرسمية أدوات اختبار خاصة، ومجموعات مهام كاملة، ومكدس تقييم خاص بالبائع. السؤال المهم لفرق المنصات مختلف: ماذا تحصل عليه على عنوان URL الأساسي الخاص بك، مع معرفات النموذج الخاصة بك، وعلى المطالبات التي يمكنك إعادة تشغيلها؟

أجرينا اختبارًا نصيًا فقط مكونًا من 15 مطالبة عبر بوابة ترو فاوندري للذكاء الاصطناعي عبر الفئات الثلاث نفسها التي أبرزتها جوجل — نمط CharXiv، ونمط MMMU-Pro، ونمط Finance Agent v2 — وتم تقييمها بناءً على إجابات مرجعية.

Model Accuracy Mean latency Total cost Cost / correct
Claude Opus 4.7 66.7%(10/15) 2,538 ms $0.045 $0.0045
GPT-5.5 60.0% (9/15) 3,017 ms $0.020 $0.0022
Gemini 3.5 Flash 46.7% (7/15) 3,529 ms $0.091 $0.0130
Suite Claude Opus 4.7 GPT-5.5 Gemini 3.5 Flash
CharXiv-style80%80%80%
MMMU-Pro-style80%80%60%
Finance Agent v2-style40%20%0%

هذه التجربة لا تدحض أرقام جوجل الرسمية — فهم يستخدمون اختبارات مختلفة ومكدس تقييم مختلف. ما يظهره هو أن تصنيفات المعايير لا تنتقل تلقائيًا إلى نقطة النهاية الخاصة بك. في شريحتنا، كانت نتيجة Flash في النمط المالي 0/5، وكانت الإخفاقات ناتجة عن إجابات طويلة لم تتطابق مع التنسيق المتوقع. كانت صورة التكلفة واضحة بنفس القدر: Flash تحمل أعلى إجمالي إنفاق وأقل عدد من الإجابات الصحيحة، مما جعل تكلفته لكل إجابة صحيحة حوالي 6 أضعاف GPT-5.5.

المقياس المهم عندما تكون النماذج قابلة للتبديل خلف بوابة هو التكلفة لكل إجابة صحيحة: سعر الرمز × الرموز لكل محاولة ÷ احتمالية استجابة قابلة للاستخدام.

نافذة السياق بمليون رمز

يدعم Gemini 3.5 Flash نافذة سياق بمليون رمز — وهو ما يكفي لاستيعاب قاعدة بيانات كاملة، أو وثيقة تنظيمية مطولة، أو التتبع الكامل لمهمة مستقلة طويلة الأمد في جلسة واحدة. تشير معايير الاسترجاع إلى أن النافذة قابلة للاستخدام حقًا بهذا الطول، بدلاً من أن تتدهور في الذيل الطويل.

جيميني سبارك وما تشير إليه جوجل

أُعلن أيضًا في مؤتمر I/O: جيميني سبارك، وكيل جوجل الشخصي الجديد للذكاء الاصطناعي المتوفر على مدار الساعة طوال أيام الأسبوع، يعمل بواسطة 3.5 Flash. أصبح النموذج الآن هو الافتراضي عبر تطبيق Gemini ووضع الذكاء الاصطناعي في بحث جوجل عالميًا. تنشر جوجل 3.5 Flash كإعداد افتراضي للإنتاج لكل من منتجاتها الاستهلاكية الأكثر استخدامًا وتجاربها الوكيلة الأكثر طموحًا — وليس كخطوة أولية.

ما يجب مراقبته

3.5 Pro الشهر القادم. أكدت جوجل أن 3.5 Pro قيد الاستخدام الداخلي بالفعل. إذا كان 3.5 Flash يتفوق بالفعل على 3.1 Pro في معظم المعايير، فالسؤال هو ماذا سيفعل 3.5 Pro في مهام الاستدلال والسياق الطويل حيث لا يزال Flash متأخرًا.

ريادة MCP Atlas. ريادة Flash في MCP Atlas — المعيار لسير عمل الأدوات متعدد الخطوات باستخدام بروتوكول سياق النموذج — تشير إلى أن جوجل جعلت تنسيق الأدوات هدفًا تدريبيًا من الدرجة الأولى. بالنسبة للفرق التي تبني معماريات متوافقة مع MCP، هذا يستحق الأخذ به على محمل الجد.

شغّله على ترو فاوندري

بوابة ترو فاوندري للذكاء الاصطناعي تمنحك الوصول إلى Gemini 3.5 Flash جنبًا إلى جنب مع GPT-5.5 و Claude Opus 4.7 ونماذج رائدة أخرى عبر نقطة نهاية واحدة — وهو نفس الإعداد المستخدم للتحقق أعلاه. تتبع موحد للطلبات، وتحديد التكلفة حسب النموذج والفريق، ولا توجد مفاتيح API منفصلة لكل مزود.

جربه · بدء سريع · احجز عرضًا توضيحيًا

بيانات المعيار الرسمي: Google DeepMind — Gemini 3.5 Flash، 19 مايو 2026. تشغيل التحقق من TrueFoundry: 20 مايو 2026، نظام اختبار نصي فقط بـ 15 موجهًا عبر بوابة TrueFoundry للذكاء الاصطناعي.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

One Gateway for Every LLM, Agent and MCP Server

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: الحدود التالية في مشهد MLOps

May 25, 2023
|
5 min read

النماذج اللغوية الكبيرة مفتوحة المصدر: تبنّها أو تندثر

August 27, 2025
|
5 min read

Mapping the On-Prem AI Market: From Chips to Control Planes

September 28, 2023
|
5 min read

ما هو الضبط الدقيق باستخدام Lora؟ الدليل الشامل

July 4, 2026
|
5 min read

تكاملات منصة التعلم الآلي #1: Weights & Biases

Use Cases
Engineering and Product
July 4, 2026
|
5 min read

تكامل Pillar Security مع TrueFoundry

No items found.
July 4, 2026
|
5 min read

التخزين المؤقت الدلالي لنماذج اللغة الكبيرة (LLMs): تقليل التكلفة وزمن الاستجابة بما يتجاوز التخزين المؤقت للبادئات

No items found.
July 4, 2026
|
5 min read

تكاملات أدوات التعلم الآلي #2 DVC لإدارة إصدارات بياناتك

Engineering and Product
Use Cases
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour