Blank white background with no objects or features visible.

TrueFoundry annonce l'acquisition de Seldon AI, élargissant ainsi sa plateforme de contrôle pour l'IA d'entreprise. Lire le rapport complet →

Gemini 3.5 Flash est impressionnant. Voici ce que nous avons réellement découvert.

Par Amrutha Potluri

Published: June 26, 2026

Il existe une règle non écrite dans les lancements de modèles d'IA : Pro est intelligent, Flash est rapide, et vous choisissez votre compromis. Google vient de briser cette règle.

Annoncé lors de Google I/O le 19 mai 2026, Gemini 3.5 Flash est le premier modèle de la nouvelle famille Gemini 3.5 — et il réalise quelque chose qu'aucun modèle de la catégorie Flash n'avait fait auparavant : surpasser le précédent modèle phare Pro sur les benchmarks de codage et d'agentivité, tout en fonctionnant à des vitesses Flash.

Le Contexte

Gemini 3.1 Pro, lancé en février 2026, a immédiatement dominé l'indice d'intelligence d'analyse artificielle sur les tâches complexes de raisonnement visuel et multimodal. C'était le modèle phare de Google, sorti il y a seulement trois mois.

3.5 Flash est maintenant meilleur que lui sur la plupart des benchmarks de codage et d'agentivité. Et il est plus rapide.

Les Benchmarks

CategoryBenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 ProClaude Sonnet 4.6Claude Opus 4.7GPT-5.5
CodingTerminal-Bench 2.1 (agentic terminal coding)76.2%58.0%70.3%66.1%78.2%
CodingSWE-Bench Pro (diverse agentic coding tasks)55.1%49.6%54.2%64.3%58.6%
AgenticMCP Atlas (multi-step workflows using MCP)83.6%62.0%78.2%69.5%79.1%75.3%
AgenticToolathlon (real-world general tool use)56.5%49.4%55.6%
UI ControlOSWorld-Verified (agentic computer use)78.4%65.1%76.2%72.5%78.0%78.7%
Expert TasksFinance Agent v2 (financial analysis and decision-making)57.9%42.6%43.0%51.0%51.5%51.8%
Expert TasksGDPval-AA (economically valuable knowledge work, Elo)165612041314167617531769
MultimodalCharXiv Reasoning (information synthesis from complex charts)84.2%80.3%83.3%72.4%82.1%84.1%
MultimodalMMMU-Pro (multimodal understanding and reasoning)83.6%81.2%80.5%74.5%75.2%81.2%
MultimodalBlueprint-Bench 2 (agentic spatial reasoning)33.6%0.0%26.5%6.7%24.5%36.2%
Long ContextMRCR v2 — 128k (long context retrieval)77.3%67.2%84.9%84.9%59.3%94.8%
Long ContextMRCR v2 — 1M (long context retrieval)26.6%22.1%26.3%
ReasoningHumanity's Last Exam (academic reasoning, text + multimodal)40.2%33.7%44.4%33.2%46.9%41.4%
ReasoningARC-AGI-2 (abstract reasoning puzzles)72.1%33.6%77.1%58.3%75.8%84.6%

Source : Google DeepMind — Gemini 3.5 Flash

Flash est en tête sur les benchmarks d'agentivité, d'utilisation d'outils et multimodaux. En matière de codage, il surpasse Gemini 3.1 Pro sur les deux tâches, bien que GPT-5.5 et Claude Opus 4.7 dominent leurs catégories respectives. En matière de raisonnement approfondi et de récupération de contexte long, les modèles phares Pro conservent un avantage — un écart que Google semble vouloir maintenir pour le futur 3.5 Pro.

Pourquoi Google a mis en avant Flash, et non Pro

La décision de Google de lancer la série 3.5 avec Flash — et non Pro — est un signal. Pour les flux de travail qui comptent le plus en production aujourd'hui — agents, utilisation d'outils, boucles de codage — la profondeur de raisonnement brute importe moins que la combinaison de la qualité, de la vitesse et du coût.

Fonctionnant quatre fois plus vite que les modèles de pointe comparables et tarifé à 1,50 $ / 9,00 $ par million de jetons d'entrée/sortie, Flash rend les pipelines d'agentivité considérablement moins chers à exécuter à grande échelle.

Les évaluations en production le confirment. Ben Kus, CTO de Box, a rapporté que 3.5 Flash a surpassé la génération Flash précédente de 19,6 % sur des flux de travail d'entreprise réels, avec une amélioration de 96,4 % de la précision de l'extraction de données en sciences de la vie. Nick Frolov de JetBrains a noté une amélioration de 10 à 20 % des performances de codage par rapport à la génération Flash précédente.

Gemini 3.5 Flash est-il performant sur votre point de terminaison ?

Les benchmarks officiels utilisent des harnais propriétaires, des ensembles de tâches complets et la pile d'évaluation propre au fournisseur. La question pertinente pour les équipes de plateforme est différente : qu'obtenez-vous sur votre URL de base, avec vos identifiants de modèle, sur des invites que vous pouvez réexécuter ?

Nous avons exécuté un harnais de 15 invites textuelles via Passerelle IA TrueFoundry dans les trois mêmes catégories mises en avant par Google — CharXiv-style, MMMU-Pro-style et Finance Agent v2-style — évalués par rapport à des réponses de référence.

Model Accuracy Mean latency Total cost Cost / correct
Claude Opus 4.7 66.7%(10/15) 2,538 ms $0.045 $0.0045
GPT-5.5 60.0% (9/15) 3,017 ms $0.020 $0.0022
Gemini 3.5 Flash 46.7% (7/15) 3,529 ms $0.091 $0.0130
Suite Claude Opus 4.7 GPT-5.5 Gemini 3.5 Flash
CharXiv-style80%80%80%
MMMU-Pro-style80%80%60%
Finance Agent v2-style40%20%0%

Ce test ne réfute pas les chiffres officiels de Google — ils utilisent des bancs d'essai et une pile d'évaluation différents. Ce qu'il montre, c'est que les classements de référence ne se transfèrent pas automatiquement à votre point d'accès. Dans notre analyse, le score de Flash pour le style Finance était de 0/5, avec des échecs dus à des complétions trop longues qui ne correspondaient pas au format attendu. Le tableau des coûts était tout aussi frappant : Flash a entraîné les dépenses totales les plus élevées et le moins de réponses correctes, plaçant son coût par réponse correcte à environ 6 fois celui de GPT-5.5.

La métrique qui compte lorsque les modèles sont interchangeables derrière une passerelle est le coût par réponse correcte: prix par jeton × jetons par tentative ÷ probabilité d'une réponse utilisable.

La fenêtre de contexte d'un million de jetons

Gemini 3.5 Flash prend en charge une fenêtre de contexte d'un million de jetons — suffisamment grande pour contenir une base de code entière, un long document réglementaire ou la trace complète d'une tâche autonome de longue durée en une seule session. Les benchmarks de récupération suggèrent que la fenêtre est réellement utilisable à cette longueur, plutôt que de se dégrader sur la longue traîne.

Gemini Spark et les signaux envoyés par Google

Également annoncé lors de l'I/O : Gemini Spark, le nouvel agent IA personnel 24h/24 et 7j/7 de Google, est alimenté par 3.5 Flash. Le modèle est désormais le modèle par défaut dans l'application Gemini et le mode IA de Google Search à l'échelle mondiale. Google déploie 3.5 Flash comme modèle par défaut en production pour ses produits grand public les plus fréquentés et ses expériences d'agents les plus ambitieuses — et non comme une étape intermédiaire.

À surveiller

3.5 Pro le mois prochain. Google a confirmé que 3.5 Pro est déjà utilisé en interne. Si 3.5 Flash surpasse déjà 3.1 Pro sur la plupart des benchmarks, la question est de savoir ce que 3.5 Pro apporte aux tâches de raisonnement et de contexte long où Flash est encore en retrait.

Leadership de MCP Atlas. L'avance de Flash sur MCP Atlas — le benchmark pour les workflows d'outils multi-étapes utilisant le protocole de contexte de modèle — signale que Google a fait de l'orchestration d'outils un objectif de formation de premier ordre. Pour les équipes qui construisent des architectures natives MCP, cela mérite d'être pris au sérieux.

Exécutez-le sur TrueFoundry

Passerelle IA TrueFoundry vous donne accès à Gemini 3.5 Flash, ainsi qu'à GPT-5.5, Claude Opus 4.7 et d'autres modèles de pointe via un point d'accès unique — la même configuration utilisée pour la validation ci-dessus. Traçage unifié des requêtes, attribution des coûts par modèle et par équipe, pas de clés API séparées par fournisseur.

Essayez-le · Démarrage rapide · Réserver une démo

Données de référence officielles : Google DeepMind — Gemini 3.5 Flash, 19 mai 2026. Exécution de la validation TrueFoundry : 20 mai 2026, harnais de 15 invites textuelles uniquement via la passerelle IA de TrueFoundry.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Découvrez-en plus

July 20, 2023
|
5 min de lecture

LLMoPS CoE : la prochaine frontière dans le paysage MLOps

April 16, 2024
|
5 min de lecture

Cognita : Création d'applications RAG modulaires et open source pour la production

May 25, 2023
|
5 min de lecture

LLMs open source : Embrace or Perish

August 27, 2025
|
5 min de lecture

Cartographie du marché de l'IA sur site : des puces aux plans de contrôle

Helicone pricing compared with TrueFoundry enterprise AI governance
June 26, 2026
|
5 min de lecture

Helicone Pricing in 2026: Full Breakdown of Plans, Costs, and What Enterprises Need to Know

Aucun article n'a été trouvé.
June 26, 2026
|
5 min de lecture

Intégration de TrueFoundry avec Smallest AI

Aucun article n'a été trouvé.
June 26, 2026
|
5 min de lecture

Intégration de TrueFoundry AI Gateway à New Relic

Aucun article n'a été trouvé.
June 26, 2026
|
5 min de lecture

Intégration de TrueFoundry AI Gateway à LangSmith

Outils LLM
Terminologie LLM
Ingénierie et produits
Aucun article n'a été trouvé.

Blogs récents

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit