Gemini 3.5 Flash ist beeindruckend. Das haben wir tatsächlich herausgefunden.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Es gibt eine ungeschriebene Regel bei der Veröffentlichung von KI-Modellen: Pro ist intelligent, Flash ist schnell, und man wählt seinen Kompromiss. Google hat diese Regel gerade gebrochen.
Auf der Google I/O am 19. Mai 2026 angekündigt, ist Gemini 3.5 Flash das erste Modell der neuen Gemini 3.5 Familie – und es leistet etwas, das kein Flash-Modell zuvor geschafft hat: Es übertrifft das vorherige Flaggschiff-Pro-Modell in Coding- und Agenten-Benchmarks, während es weiterhin mit Flash-Geschwindigkeit läuft.
Der Kontext
Gemini 3.1 Pro wurde im Februar 2026 eingeführt und führte sofort den Artificial Analysis Intelligence Index bei komplexen visuellen Schlussfolgerungen und multimodalen Aufgaben an. Es war Googles Flaggschiff, erst vor drei Monaten veröffentlicht.
3.5 Flash ist jetzt in den meisten Coding- und Agenten-Benchmarks besser als dieses. Und es ist schneller.
Die Benchmarks
Quelle: Google DeepMind — Gemini 3.5 Flash
Flash ist führend bei Agenten-, Tool-Nutzungs- und multimodalen Benchmarks. Im Bereich Coding übertrifft es Gemini 3.1 Pro bei beiden Aufgaben, obwohl GPT-5.5 und Claude Opus 4.7 ihre jeweiligen Kategorien anführen. Bei tiefem Denken und der Abfrage langer Kontexte behalten Flaggschiff-Pro-Modelle einen Vorsprung – eine Lücke, die Google anscheinend für das kommende 3.5 Pro offen lässt.
Warum Google mit Flash und nicht mit Pro vorangegangen ist
Googles Entscheidung, die 3.5-Serie mit Flash – und nicht mit Pro – anzuführen, ist ein Signal. Für die Workflows, die heute in der Produktion am wichtigsten sind – Agenten, Tool-Nutzung, Coding-Schleifen – zählt die reine Denktiefe weniger als die Kombination aus Qualität, Geschwindigkeit und Kosten.
Flash läuft viermal schneller als vergleichbare Frontier-Modelle und kostet 1,50 $ / 9,00 $ pro Million Input-/Output-Tokens, was Agenten-Pipelines im großen Maßstab dramatisch günstiger im Betrieb macht.
Produktionsevaluierungen bestätigen dies. Ben Kus, CTO von Box, berichtete, dass 3.5 Flash die vorherige Flash-Generation bei realen Unternehmens-Workflows um 19,6 % übertraf, wobei die Genauigkeit der Datenextraktion in den Biowissenschaften um 96,4 % verbessert wurde. Nick Frolov von JetBrains stellte eine Verbesserung der Coding-Performance um 10–20 % gegenüber der vorherigen Flash-Generation fest.
Bewährt sich Gemini 3.5 Flash an Ihrem Endpunkt?
Offizielle Benchmarks verwenden proprietäre Testumgebungen, vollständige Aufgabensätze und den eigenen Evaluierungs-Stack des Anbieters. Die relevante Frage für Plattformteams ist eine andere: Was erhalten Sie auf Ihrer Basis-URL, mit Ihren Modell-IDs, bei Prompts, die Sie erneut ausführen können?
Wir haben eine reine Text-Testumgebung mit 15 Prompts durchlaufen lassen durch TrueFoundry KI-Gateway in denselben drei Kategorien, die Google hervorgehoben hat – CharXiv-Stil, MMMU-Pro-Stil und Finance Agent v2-Stil – bewertet anhand von Referenzantworten.
Dieser Testlauf widerlegt Googles offizielle Zahlen nicht – sie verwenden unterschiedliche Testumgebungen und einen anderen Bewertungs-Stack. Er zeigt jedoch, dass Benchmark-Rankings nicht automatisch auf Ihren Endpunkt übertragbar sind. In unserem Test erzielte Flash im Finance-Stil eine Punktzahl von 0/5, wobei die Fehler durch lange Ausgaben verursacht wurden, die nicht dem erwarteten Format entsprachen. Das Kostenbild war ebenso deutlich: Flash verursachte die höchsten Gesamtkosten und lieferte die wenigsten korrekten Antworten, wodurch seine Kosten pro korrekter Antwort etwa das Sechsfache von GPT-5.5 betrugen.
Die entscheidende Metrik, wenn Modelle hinter einem Gateway austauschbar sind, ist Kosten pro korrekter Antwort: Preis pro Token × Token pro Versuch ÷ Wahrscheinlichkeit einer nutzbaren Antwort.
Das Kontextfenster mit 1 Million Tokens
Gemini 3.5 Flash unterstützt ein Kontextfenster von einer Million Tokens – genug, um eine gesamte Codebasis, ein umfangreiches Regulierungswerk oder die vollständige Spur einer langlaufenden autonomen Aufgabe in einer einzigen Sitzung zu speichern. Retrieval-Benchmarks deuten darauf hin, dass das Fenster bei dieser Länge tatsächlich nutzbar ist und nicht am langen Ende an Leistung verliert.
Gemini Spark und was Google signalisiert
Ebenfalls auf der I/O angekündigt: Gemini Spark, Googles neuer persönlicher KI-Agent, der rund um die Uhr verfügbar ist, wird von 3.5 Flash angetrieben. Das Modell ist jetzt standardmäßig in der Gemini-App und im KI-Modus von Google Search weltweit aktiviert. Google setzt 3.5 Flash als Produktionsstandard sowohl für seine meistgenutzten Verbraucherprodukte als auch für seine ehrgeizigsten Agenten-Experimente ein – nicht als Zwischenschritt.
Worauf zu achten ist
3.5 Pro nächsten Monat. Google bestätigte, dass 3.5 Pro bereits intern genutzt wird. Wenn 3.5 Flash bereits 3.1 Pro in den meisten Benchmarks übertrifft, stellt sich die Frage, wie 3.5 Pro bei den Reasoning- und Langkontext-Aufgaben abschneidet, bei denen Flash noch hinterherhinkt.
Führungsrolle bei MCP Atlas. Flashs Vorsprung bei MCP Atlas – dem Benchmark für mehrstufige Tool-Workflows, die das Model Context Protocol verwenden – signalisiert, dass Google die Tool-Orchestrierung zu einem erstklassigen Trainingsziel gemacht hat. Für Teams, die MCP-native Architekturen entwickeln, ist dies ernst zu nehmen.
Betreiben Sie es auf TrueFoundry
TrueFoundry KI-Gateway bietet Ihnen über einen einzigen Endpunkt Zugang zu Gemini 3.5 Flash, GPT-5.5, Claude Opus 4.7 und anderen führenden Modellen – derselbe Aufbau, der für die obige Validierung verwendet wurde. Vereinheitlichtes Request-Tracing, Kostenattribution nach Modell und Team, keine separaten API-Schlüssel pro Anbieter.
Probieren Sie es aus · Schnellstart · Demo buchen
Offizielle Benchmark-Daten: Google DeepMind — Gemini 3.5 Flash, 19. Mai 2026. TrueFoundry Validierungslauf: 20. Mai 2026, 15-Prompt-Nur-Text-Harness über TrueFoundry AI Gateway.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren
















.webp)

.webp)

.webp)
.webp)
.png)






.webp)
.webp)






