Gemini 3.5 Flash est impressionnant. Voici ce que nous avons réellement découvert.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Il existe une règle non écrite dans les lancements de modèles d'IA : Pro est intelligent, Flash est rapide, et vous choisissez votre compromis. Google vient de briser cette règle.
Annoncé lors de Google I/O le 19 mai 2026, Gemini 3.5 Flash est le premier modèle de la nouvelle famille Gemini 3.5 — et il réalise quelque chose qu'aucun modèle de la catégorie Flash n'avait fait auparavant : surpasser le précédent modèle phare Pro sur les benchmarks de codage et d'agentivité, tout en fonctionnant à des vitesses Flash.
Le Contexte
Gemini 3.1 Pro, lancé en février 2026, a immédiatement dominé l'indice d'intelligence d'analyse artificielle sur les tâches complexes de raisonnement visuel et multimodal. C'était le modèle phare de Google, sorti il y a seulement trois mois.
3.5 Flash est maintenant meilleur que lui sur la plupart des benchmarks de codage et d'agentivité. Et il est plus rapide.
Les Benchmarks
Source : Google DeepMind — Gemini 3.5 Flash
Flash est en tête sur les benchmarks d'agentivité, d'utilisation d'outils et multimodaux. En matière de codage, il surpasse Gemini 3.1 Pro sur les deux tâches, bien que GPT-5.5 et Claude Opus 4.7 dominent leurs catégories respectives. En matière de raisonnement approfondi et de récupération de contexte long, les modèles phares Pro conservent un avantage — un écart que Google semble vouloir maintenir pour le futur 3.5 Pro.
Pourquoi Google a mis en avant Flash, et non Pro
La décision de Google de lancer la série 3.5 avec Flash — et non Pro — est un signal. Pour les flux de travail qui comptent le plus en production aujourd'hui — agents, utilisation d'outils, boucles de codage — la profondeur de raisonnement brute importe moins que la combinaison de la qualité, de la vitesse et du coût.
Fonctionnant quatre fois plus vite que les modèles de pointe comparables et tarifé à 1,50 $ / 9,00 $ par million de jetons d'entrée/sortie, Flash rend les pipelines d'agentivité considérablement moins chers à exécuter à grande échelle.
Les évaluations en production le confirment. Ben Kus, CTO de Box, a rapporté que 3.5 Flash a surpassé la génération Flash précédente de 19,6 % sur des flux de travail d'entreprise réels, avec une amélioration de 96,4 % de la précision de l'extraction de données en sciences de la vie. Nick Frolov de JetBrains a noté une amélioration de 10 à 20 % des performances de codage par rapport à la génération Flash précédente.
Gemini 3.5 Flash est-il performant sur votre point de terminaison ?
Les benchmarks officiels utilisent des harnais propriétaires, des ensembles de tâches complets et la pile d'évaluation propre au fournisseur. La question pertinente pour les équipes de plateforme est différente : qu'obtenez-vous sur votre URL de base, avec vos identifiants de modèle, sur des invites que vous pouvez réexécuter ?
Nous avons exécuté un harnais de 15 invites textuelles via Passerelle IA TrueFoundry dans les trois mêmes catégories mises en avant par Google — CharXiv-style, MMMU-Pro-style et Finance Agent v2-style — évalués par rapport à des réponses de référence.
Ce test ne réfute pas les chiffres officiels de Google — ils utilisent des bancs d'essai et une pile d'évaluation différents. Ce qu'il montre, c'est que les classements de référence ne se transfèrent pas automatiquement à votre point d'accès. Dans notre analyse, le score de Flash pour le style Finance était de 0/5, avec des échecs dus à des complétions trop longues qui ne correspondaient pas au format attendu. Le tableau des coûts était tout aussi frappant : Flash a entraîné les dépenses totales les plus élevées et le moins de réponses correctes, plaçant son coût par réponse correcte à environ 6 fois celui de GPT-5.5.
La métrique qui compte lorsque les modèles sont interchangeables derrière une passerelle est le coût par réponse correcte: prix par jeton × jetons par tentative ÷ probabilité d'une réponse utilisable.
La fenêtre de contexte d'un million de jetons
Gemini 3.5 Flash prend en charge une fenêtre de contexte d'un million de jetons — suffisamment grande pour contenir une base de code entière, un long document réglementaire ou la trace complète d'une tâche autonome de longue durée en une seule session. Les benchmarks de récupération suggèrent que la fenêtre est réellement utilisable à cette longueur, plutôt que de se dégrader sur la longue traîne.
Gemini Spark et les signaux envoyés par Google
Également annoncé lors de l'I/O : Gemini Spark, le nouvel agent IA personnel 24h/24 et 7j/7 de Google, est alimenté par 3.5 Flash. Le modèle est désormais le modèle par défaut dans l'application Gemini et le mode IA de Google Search à l'échelle mondiale. Google déploie 3.5 Flash comme modèle par défaut en production pour ses produits grand public les plus fréquentés et ses expériences d'agents les plus ambitieuses — et non comme une étape intermédiaire.
À surveiller
3.5 Pro le mois prochain. Google a confirmé que 3.5 Pro est déjà utilisé en interne. Si 3.5 Flash surpasse déjà 3.1 Pro sur la plupart des benchmarks, la question est de savoir ce que 3.5 Pro apporte aux tâches de raisonnement et de contexte long où Flash est encore en retrait.
Leadership de MCP Atlas. L'avance de Flash sur MCP Atlas — le benchmark pour les workflows d'outils multi-étapes utilisant le protocole de contexte de modèle — signale que Google a fait de l'orchestration d'outils un objectif de formation de premier ordre. Pour les équipes qui construisent des architectures natives MCP, cela mérite d'être pris au sérieux.
Exécutez-le sur TrueFoundry
Passerelle IA TrueFoundry vous donne accès à Gemini 3.5 Flash, ainsi qu'à GPT-5.5, Claude Opus 4.7 et d'autres modèles de pointe via un point d'accès unique — la même configuration utilisée pour la validation ci-dessus. Traçage unifié des requêtes, attribution des coûts par modèle et par équipe, pas de clés API séparées par fournisseur.
Essayez-le · Démarrage rapide · Réserver une démo
Données de référence officielles : Google DeepMind — Gemini 3.5 Flash, 19 mai 2026. Exécution de la validation TrueFoundry : 20 mai 2026, harnais de 15 invites textuelles uniquement via la passerelle IA de TrueFoundry.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA
















.webp)

.webp)

.webp)
.webp)
.png)






.webp)
.webp)






