Blank white background with no objects or features visible.

TrueFoundry kündigt die Übernahme von Seldon AI an und erweitert damit seine Control Plane für Enterprise-KI. Vollständigen Bericht lesen →

Gemini 3.5 Flash ist beeindruckend. Das haben wir tatsächlich herausgefunden.

von Amrutha Potluri

Published: June 26, 2026

Es gibt eine ungeschriebene Regel bei der Veröffentlichung von KI-Modellen: Pro ist intelligent, Flash ist schnell, und man wählt seinen Kompromiss. Google hat diese Regel gerade gebrochen.

Auf der Google I/O am 19. Mai 2026 angekündigt, ist Gemini 3.5 Flash das erste Modell der neuen Gemini 3.5 Familie – und es leistet etwas, das kein Flash-Modell zuvor geschafft hat: Es übertrifft das vorherige Flaggschiff-Pro-Modell in Coding- und Agenten-Benchmarks, während es weiterhin mit Flash-Geschwindigkeit läuft.

Der Kontext

Gemini 3.1 Pro wurde im Februar 2026 eingeführt und führte sofort den Artificial Analysis Intelligence Index bei komplexen visuellen Schlussfolgerungen und multimodalen Aufgaben an. Es war Googles Flaggschiff, erst vor drei Monaten veröffentlicht.

3.5 Flash ist jetzt in den meisten Coding- und Agenten-Benchmarks besser als dieses. Und es ist schneller.

Die Benchmarks

CategoryBenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 ProClaude Sonnet 4.6Claude Opus 4.7GPT-5.5
CodingTerminal-Bench 2.1 (agentic terminal coding)76.2%58.0%70.3%66.1%78.2%
CodingSWE-Bench Pro (diverse agentic coding tasks)55.1%49.6%54.2%64.3%58.6%
AgenticMCP Atlas (multi-step workflows using MCP)83.6%62.0%78.2%69.5%79.1%75.3%
AgenticToolathlon (real-world general tool use)56.5%49.4%55.6%
UI ControlOSWorld-Verified (agentic computer use)78.4%65.1%76.2%72.5%78.0%78.7%
Expert TasksFinance Agent v2 (financial analysis and decision-making)57.9%42.6%43.0%51.0%51.5%51.8%
Expert TasksGDPval-AA (economically valuable knowledge work, Elo)165612041314167617531769
MultimodalCharXiv Reasoning (information synthesis from complex charts)84.2%80.3%83.3%72.4%82.1%84.1%
MultimodalMMMU-Pro (multimodal understanding and reasoning)83.6%81.2%80.5%74.5%75.2%81.2%
MultimodalBlueprint-Bench 2 (agentic spatial reasoning)33.6%0.0%26.5%6.7%24.5%36.2%
Long ContextMRCR v2 — 128k (long context retrieval)77.3%67.2%84.9%84.9%59.3%94.8%
Long ContextMRCR v2 — 1M (long context retrieval)26.6%22.1%26.3%
ReasoningHumanity's Last Exam (academic reasoning, text + multimodal)40.2%33.7%44.4%33.2%46.9%41.4%
ReasoningARC-AGI-2 (abstract reasoning puzzles)72.1%33.6%77.1%58.3%75.8%84.6%

Quelle: Google DeepMind — Gemini 3.5 Flash

Flash ist führend bei Agenten-, Tool-Nutzungs- und multimodalen Benchmarks. Im Bereich Coding übertrifft es Gemini 3.1 Pro bei beiden Aufgaben, obwohl GPT-5.5 und Claude Opus 4.7 ihre jeweiligen Kategorien anführen. Bei tiefem Denken und der Abfrage langer Kontexte behalten Flaggschiff-Pro-Modelle einen Vorsprung – eine Lücke, die Google anscheinend für das kommende 3.5 Pro offen lässt.

Warum Google mit Flash und nicht mit Pro vorangegangen ist

Googles Entscheidung, die 3.5-Serie mit Flash – und nicht mit Pro – anzuführen, ist ein Signal. Für die Workflows, die heute in der Produktion am wichtigsten sind – Agenten, Tool-Nutzung, Coding-Schleifen – zählt die reine Denktiefe weniger als die Kombination aus Qualität, Geschwindigkeit und Kosten.

Flash läuft viermal schneller als vergleichbare Frontier-Modelle und kostet 1,50 $ / 9,00 $ pro Million Input-/Output-Tokens, was Agenten-Pipelines im großen Maßstab dramatisch günstiger im Betrieb macht.

Produktionsevaluierungen bestätigen dies. Ben Kus, CTO von Box, berichtete, dass 3.5 Flash die vorherige Flash-Generation bei realen Unternehmens-Workflows um 19,6 % übertraf, wobei die Genauigkeit der Datenextraktion in den Biowissenschaften um 96,4 % verbessert wurde. Nick Frolov von JetBrains stellte eine Verbesserung der Coding-Performance um 10–20 % gegenüber der vorherigen Flash-Generation fest.

Bewährt sich Gemini 3.5 Flash an Ihrem Endpunkt?

Offizielle Benchmarks verwenden proprietäre Testumgebungen, vollständige Aufgabensätze und den eigenen Evaluierungs-Stack des Anbieters. Die relevante Frage für Plattformteams ist eine andere: Was erhalten Sie auf Ihrer Basis-URL, mit Ihren Modell-IDs, bei Prompts, die Sie erneut ausführen können?

Wir haben eine reine Text-Testumgebung mit 15 Prompts durchlaufen lassen durch TrueFoundry KI-Gateway in denselben drei Kategorien, die Google hervorgehoben hat – CharXiv-Stil, MMMU-Pro-Stil und Finance Agent v2-Stil – bewertet anhand von Referenzantworten.

Model Accuracy Mean latency Total cost Cost / correct
Claude Opus 4.7 66.7%(10/15) 2,538 ms $0.045 $0.0045
GPT-5.5 60.0% (9/15) 3,017 ms $0.020 $0.0022
Gemini 3.5 Flash 46.7% (7/15) 3,529 ms $0.091 $0.0130
Suite Claude Opus 4.7 GPT-5.5 Gemini 3.5 Flash
CharXiv-style80%80%80%
MMMU-Pro-style80%80%60%
Finance Agent v2-style40%20%0%

Dieser Testlauf widerlegt Googles offizielle Zahlen nicht – sie verwenden unterschiedliche Testumgebungen und einen anderen Bewertungs-Stack. Er zeigt jedoch, dass Benchmark-Rankings nicht automatisch auf Ihren Endpunkt übertragbar sind. In unserem Test erzielte Flash im Finance-Stil eine Punktzahl von 0/5, wobei die Fehler durch lange Ausgaben verursacht wurden, die nicht dem erwarteten Format entsprachen. Das Kostenbild war ebenso deutlich: Flash verursachte die höchsten Gesamtkosten und lieferte die wenigsten korrekten Antworten, wodurch seine Kosten pro korrekter Antwort etwa das Sechsfache von GPT-5.5 betrugen.

Die entscheidende Metrik, wenn Modelle hinter einem Gateway austauschbar sind, ist Kosten pro korrekter Antwort: Preis pro Token × Token pro Versuch ÷ Wahrscheinlichkeit einer nutzbaren Antwort.

Das Kontextfenster mit 1 Million Tokens

Gemini 3.5 Flash unterstützt ein Kontextfenster von einer Million Tokens – genug, um eine gesamte Codebasis, ein umfangreiches Regulierungswerk oder die vollständige Spur einer langlaufenden autonomen Aufgabe in einer einzigen Sitzung zu speichern. Retrieval-Benchmarks deuten darauf hin, dass das Fenster bei dieser Länge tatsächlich nutzbar ist und nicht am langen Ende an Leistung verliert.

Gemini Spark und was Google signalisiert

Ebenfalls auf der I/O angekündigt: Gemini Spark, Googles neuer persönlicher KI-Agent, der rund um die Uhr verfügbar ist, wird von 3.5 Flash angetrieben. Das Modell ist jetzt standardmäßig in der Gemini-App und im KI-Modus von Google Search weltweit aktiviert. Google setzt 3.5 Flash als Produktionsstandard sowohl für seine meistgenutzten Verbraucherprodukte als auch für seine ehrgeizigsten Agenten-Experimente ein – nicht als Zwischenschritt.

Worauf zu achten ist

3.5 Pro nächsten Monat. Google bestätigte, dass 3.5 Pro bereits intern genutzt wird. Wenn 3.5 Flash bereits 3.1 Pro in den meisten Benchmarks übertrifft, stellt sich die Frage, wie 3.5 Pro bei den Reasoning- und Langkontext-Aufgaben abschneidet, bei denen Flash noch hinterherhinkt.

Führungsrolle bei MCP Atlas. Flashs Vorsprung bei MCP Atlas – dem Benchmark für mehrstufige Tool-Workflows, die das Model Context Protocol verwenden – signalisiert, dass Google die Tool-Orchestrierung zu einem erstklassigen Trainingsziel gemacht hat. Für Teams, die MCP-native Architekturen entwickeln, ist dies ernst zu nehmen.

Betreiben Sie es auf TrueFoundry

TrueFoundry KI-Gateway bietet Ihnen über einen einzigen Endpunkt Zugang zu Gemini 3.5 Flash, GPT-5.5, Claude Opus 4.7 und anderen führenden Modellen – derselbe Aufbau, der für die obige Validierung verwendet wurde. Vereinheitlichtes Request-Tracing, Kostenattribution nach Modell und Team, keine separaten API-Schlüssel pro Anbieter.

Probieren Sie es aus · Schnellstart · Demo buchen

Offizielle Benchmark-Daten: Google DeepMind — Gemini 3.5 Flash, 19. Mai 2026. TrueFoundry Validierungslauf: 20. Mai 2026, 15-Prompt-Nur-Text-Harness über TrueFoundry AI Gateway.

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Melde dich an
Inhaltsverzeichniss

Steuern, implementieren und verfolgen Sie KI in Ihrer eigenen Infrastruktur

Buchen Sie eine 30-minütige Fahrt mit unserem KI-Experte

Eine Demo buchen

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Demo buchen
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Entdecke mehr

July 20, 2023
|
Lesedauer: 5 Minuten

LLMops CoE: Die nächste Grenze in der MLOps-Landschaft

April 16, 2024
|
Lesedauer: 5 Minuten

Cognita: Entwicklung modularer Open-Source-RAG-Anwendungen für die Produktion

May 25, 2023
|
Lesedauer: 5 Minuten

Open-Source-LLMs: Umarmen oder untergehen

August 27, 2025
|
Lesedauer: 5 Minuten

Kartierung des KI-Marktes vor Ort: Von Chips bis zu Steuerflugzeugen

Helicone pricing compared with TrueFoundry enterprise AI governance
June 26, 2026
|
Lesedauer: 5 Minuten

Helicone Pricing in 2026: Full Breakdown of Plans, Costs, and What Enterprises Need to Know

Keine Artikel gefunden.
June 26, 2026
|
Lesedauer: 5 Minuten

TrueFoundry Integration mit Smallest AI

Keine Artikel gefunden.
June 26, 2026
|
Lesedauer: 5 Minuten

TrueFoundry AI Gateway-Integration mit New Relic

Keine Artikel gefunden.
June 26, 2026
|
Lesedauer: 5 Minuten

TrueFoundry AI Gateway-Integration mit LangSmith

LLM-Werkzeuge
LLM-Terminologie
Technik und Produkt
Keine Artikel gefunden.

Aktuelle Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Machen Sie eine kurze Produkttour
Produkttour starten
Produkttour