Gemini 3.5 Flash ist beeindruckend. Das haben wir tatsächlich herausgefunden.

Published: June 26, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Es gibt eine ungeschriebene Regel bei der Veröffentlichung von KI-Modellen: Pro ist intelligent, Flash ist schnell, und man wählt seinen Kompromiss. Google hat diese Regel gerade gebrochen.

Auf der Google I/O am 19. Mai 2026 angekündigt, ist Gemini 3.5 Flash das erste Modell der neuen Gemini 3.5 Familie – und es leistet etwas, das kein Flash-Modell zuvor geschafft hat: Es übertrifft das vorherige Flaggschiff-Pro-Modell in Coding- und Agenten-Benchmarks, während es weiterhin mit Flash-Geschwindigkeit läuft.

Der Kontext

Gemini 3.1 Pro wurde im Februar 2026 eingeführt und führte sofort den Artificial Analysis Intelligence Index bei komplexen visuellen Schlussfolgerungen und multimodalen Aufgaben an. Es war Googles Flaggschiff, erst vor drei Monaten veröffentlicht.

3.5 Flash ist jetzt in den meisten Coding- und Agenten-Benchmarks besser als dieses. Und es ist schneller.

Die Benchmarks

Category	Benchmark	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Claude Sonnet 4.6	Claude Opus 4.7	GPT-5.5
Coding	Terminal-Bench 2.1 (agentic terminal coding)	76.2%	58.0%	70.3%	—	66.1%	78.2%
Coding	SWE-Bench Pro (diverse agentic coding tasks)	55.1%	49.6%	54.2%	—	64.3%	58.6%
Agentic	MCP Atlas (multi-step workflows using MCP)	83.6%	62.0%	78.2%	69.5%	79.1%	75.3%
Agentic	Toolathlon (real-world general tool use)	56.5%	49.4%	—	—	—	55.6%
UI Control	OSWorld-Verified (agentic computer use)	78.4%	65.1%	76.2%	72.5%	78.0%	78.7%
Expert Tasks	Finance Agent v2 (financial analysis and decision-making)	57.9%	42.6%	43.0%	51.0%	51.5%	51.8%
Expert Tasks	GDPval-AA (economically valuable knowledge work, Elo)	1656	1204	1314	1676	1753	1769
Multimodal	CharXiv Reasoning (information synthesis from complex charts)	84.2%	80.3%	83.3%	72.4%	82.1%	84.1%
Multimodal	MMMU-Pro (multimodal understanding and reasoning)	83.6%	81.2%	80.5%	74.5%	75.2%	81.2%
Multimodal	Blueprint-Bench 2 (agentic spatial reasoning)	33.6%	0.0%	26.5%	6.7%	24.5%	36.2%
Long Context	MRCR v2 — 128k (long context retrieval)	77.3%	67.2%	84.9%	84.9%	59.3%	94.8%
Long Context	MRCR v2 — 1M (long context retrieval)	26.6%	22.1%	26.3%	—	—	—
Reasoning	Humanity's Last Exam (academic reasoning, text + multimodal)	40.2%	33.7%	44.4%	33.2%	46.9%	41.4%
Reasoning	ARC-AGI-2 (abstract reasoning puzzles)	72.1%	33.6%	77.1%	58.3%	75.8%	84.6%

^Quelle:^{Google DeepMind — Gemini 3.5 Flash}

Flash ist führend bei Agenten-, Tool-Nutzungs- und multimodalen Benchmarks. Im Bereich Coding übertrifft es Gemini 3.1 Pro bei beiden Aufgaben, obwohl GPT-5.5 und Claude Opus 4.7 ihre jeweiligen Kategorien anführen. Bei tiefem Denken und der Abfrage langer Kontexte behalten Flaggschiff-Pro-Modelle einen Vorsprung – eine Lücke, die Google anscheinend für das kommende 3.5 Pro offen lässt.

Warum Google mit Flash und nicht mit Pro vorangegangen ist

Googles Entscheidung, die 3.5-Serie mit Flash – und nicht mit Pro – anzuführen, ist ein Signal. Für die Workflows, die heute in der Produktion am wichtigsten sind – Agenten, Tool-Nutzung, Coding-Schleifen – zählt die reine Denktiefe weniger als die Kombination aus Qualität, Geschwindigkeit und Kosten.

Flash läuft viermal schneller als vergleichbare Frontier-Modelle und kostet 1,50 $ / 9,00 $ pro Million Input-/Output-Tokens, was Agenten-Pipelines im großen Maßstab dramatisch günstiger im Betrieb macht.

Produktionsevaluierungen bestätigen dies. Ben Kus, CTO von Box, berichtete, dass 3.5 Flash die vorherige Flash-Generation bei realen Unternehmens-Workflows um 19,6 % übertraf, wobei die Genauigkeit der Datenextraktion in den Biowissenschaften um 96,4 % verbessert wurde. Nick Frolov von JetBrains stellte eine Verbesserung der Coding-Performance um 10–20 % gegenüber der vorherigen Flash-Generation fest.

Bewährt sich Gemini 3.5 Flash an Ihrem Endpunkt?

Offizielle Benchmarks verwenden proprietäre Testumgebungen, vollständige Aufgabensätze und den eigenen Evaluierungs-Stack des Anbieters. Die relevante Frage für Plattformteams ist eine andere: Was erhalten Sie auf Ihrer Basis-URL, mit Ihren Modell-IDs, bei Prompts, die Sie erneut ausführen können?

Wir haben eine reine Text-Testumgebung mit 15 Prompts durchlaufen lassen durch TrueFoundry KI-Gateway in denselben drei Kategorien, die Google hervorgehoben hat – CharXiv-Stil, MMMU-Pro-Stil und Finance Agent v2-Stil – bewertet anhand von Referenzantworten.

Model	Accuracy	Mean latency	Total cost	Cost / correct
Claude Opus 4.7	66.7%(10/15)	2,538 ms	$0.045	$0.0045
GPT-5.5	60.0% (9/15)	3,017 ms	$0.020	$0.0022
Gemini 3.5 Flash	46.7% (7/15)	3,529 ms	$0.091	$0.0130

Suite	Claude Opus 4.7	GPT-5.5	Gemini 3.5 Flash
CharXiv-style	80%	80%	80%
MMMU-Pro-style	80%	80%	60%
Finance Agent v2-style	40%	20%	0%

Dieser Testlauf widerlegt Googles offizielle Zahlen nicht – sie verwenden unterschiedliche Testumgebungen und einen anderen Bewertungs-Stack. Er zeigt jedoch, dass Benchmark-Rankings nicht automatisch auf Ihren Endpunkt übertragbar sind. In unserem Test erzielte Flash im Finance-Stil eine Punktzahl von 0/5, wobei die Fehler durch lange Ausgaben verursacht wurden, die nicht dem erwarteten Format entsprachen. Das Kostenbild war ebenso deutlich: Flash verursachte die höchsten Gesamtkosten und lieferte die wenigsten korrekten Antworten, wodurch seine Kosten pro korrekter Antwort etwa das Sechsfache von GPT-5.5 betrugen.

Die entscheidende Metrik, wenn Modelle hinter einem Gateway austauschbar sind, ist Kosten pro korrekter Antwort: Preis pro Token × Token pro Versuch ÷ Wahrscheinlichkeit einer nutzbaren Antwort.

Das Kontextfenster mit 1 Million Tokens

Gemini 3.5 Flash unterstützt ein Kontextfenster von einer Million Tokens – genug, um eine gesamte Codebasis, ein umfangreiches Regulierungswerk oder die vollständige Spur einer langlaufenden autonomen Aufgabe in einer einzigen Sitzung zu speichern. Retrieval-Benchmarks deuten darauf hin, dass das Fenster bei dieser Länge tatsächlich nutzbar ist und nicht am langen Ende an Leistung verliert.

Gemini Spark und was Google signalisiert

Ebenfalls auf der I/O angekündigt: Gemini Spark, Googles neuer persönlicher KI-Agent, der rund um die Uhr verfügbar ist, wird von 3.5 Flash angetrieben. Das Modell ist jetzt standardmäßig in der Gemini-App und im KI-Modus von Google Search weltweit aktiviert. Google setzt 3.5 Flash als Produktionsstandard sowohl für seine meistgenutzten Verbraucherprodukte als auch für seine ehrgeizigsten Agenten-Experimente ein – nicht als Zwischenschritt.

Worauf zu achten ist

3.5 Pro nächsten Monat. Google bestätigte, dass 3.5 Pro bereits intern genutzt wird. Wenn 3.5 Flash bereits 3.1 Pro in den meisten Benchmarks übertrifft, stellt sich die Frage, wie 3.5 Pro bei den Reasoning- und Langkontext-Aufgaben abschneidet, bei denen Flash noch hinterherhinkt.

Führungsrolle bei MCP Atlas. Flashs Vorsprung bei MCP Atlas – dem Benchmark für mehrstufige Tool-Workflows, die das Model Context Protocol verwenden – signalisiert, dass Google die Tool-Orchestrierung zu einem erstklassigen Trainingsziel gemacht hat. Für Teams, die MCP-native Architekturen entwickeln, ist dies ernst zu nehmen.

Betreiben Sie es auf TrueFoundry

TrueFoundry KI-Gateway bietet Ihnen über einen einzigen Endpunkt Zugang zu Gemini 3.5 Flash, GPT-5.5, Claude Opus 4.7 und anderen führenden Modellen – derselbe Aufbau, der für die obige Validierung verwendet wurde. Vereinheitlichtes Request-Tracing, Kostenattribution nach Modell und Team, keine separaten API-Schlüssel pro Anbieter.

Probieren Sie es aus · Schnellstart · Demo buchen

_{Offizielle Benchmark-Daten:}_{Google DeepMind — Gemini 3.5 Flash}_{, 19. Mai 2026. TrueFoundry Validierungslauf: 20. Mai 2026, 15-Prompt-Nur-Text-Harness über TrueFoundry AI Gateway.}

‍

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo