Blank white background with no objects or features visible.

TrueFoundry anuncia la adquisición de Seldon AI, ampliando su plataforma de control para IA empresarial. Lea el informe completo →

Gemini 3.5 Flash es impresionante. Esto es lo que realmente encontramos.

Por Amrutha Potluri

Published: June 26, 2026

Existe una regla no escrita en los lanzamientos de modelos de IA: Pro es inteligente, Flash es rápido, y tú eliges tu compromiso. Google acaba de romper esa regla.

Anunciado en Google I/O el 19 de mayo de 2026, Gemini 3.5 Flash es el primer modelo de la nueva familia Gemini 3.5, y hace algo que ningún modelo de la categoría Flash había hecho antes: superar al anterior modelo insignia Pro en los puntos de referencia de codificación y agénticos, mientras sigue funcionando a velocidades Flash.

El Contexto

Gemini 3.1 Pro se lanzó en febrero de 2026 e inmediatamente encabezó el Índice de Inteligencia de Análisis Artificial en tareas complejas de razonamiento visual y multimodales. Era el modelo insignia de Google, lanzado hace solo tres meses.

3.5 Flash ahora es mejor que él en la mayoría de los puntos de referencia de codificación y agénticos. Y es más rápido.

Los Puntos de Referencia

CategoryBenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 ProClaude Sonnet 4.6Claude Opus 4.7GPT-5.5
CodingTerminal-Bench 2.1 (agentic terminal coding)76.2%58.0%70.3%66.1%78.2%
CodingSWE-Bench Pro (diverse agentic coding tasks)55.1%49.6%54.2%64.3%58.6%
AgenticMCP Atlas (multi-step workflows using MCP)83.6%62.0%78.2%69.5%79.1%75.3%
AgenticToolathlon (real-world general tool use)56.5%49.4%55.6%
UI ControlOSWorld-Verified (agentic computer use)78.4%65.1%76.2%72.5%78.0%78.7%
Expert TasksFinance Agent v2 (financial analysis and decision-making)57.9%42.6%43.0%51.0%51.5%51.8%
Expert TasksGDPval-AA (economically valuable knowledge work, Elo)165612041314167617531769
MultimodalCharXiv Reasoning (information synthesis from complex charts)84.2%80.3%83.3%72.4%82.1%84.1%
MultimodalMMMU-Pro (multimodal understanding and reasoning)83.6%81.2%80.5%74.5%75.2%81.2%
MultimodalBlueprint-Bench 2 (agentic spatial reasoning)33.6%0.0%26.5%6.7%24.5%36.2%
Long ContextMRCR v2 — 128k (long context retrieval)77.3%67.2%84.9%84.9%59.3%94.8%
Long ContextMRCR v2 — 1M (long context retrieval)26.6%22.1%26.3%
ReasoningHumanity's Last Exam (academic reasoning, text + multimodal)40.2%33.7%44.4%33.2%46.9%41.4%
ReasoningARC-AGI-2 (abstract reasoning puzzles)72.1%33.6%77.1%58.3%75.8%84.6%

Fuente: Google DeepMind — Gemini 3.5 Flash

Flash lidera en los puntos de referencia agénticos, de uso de herramientas y multimodales. En codificación, supera a Gemini 3.1 Pro en ambas tareas, aunque GPT-5.5 y Claude Opus 4.7 lideran sus respectivas categorías. En razonamiento profundo y recuperación de contexto largo, los modelos insignia Pro mantienen una ventaja, una brecha que Google parece estar reservando para el próximo 3.5 Pro.

Por qué Google apostó por Flash, no por Pro

La decisión de Google de iniciar la serie 3.5 con Flash —y no con Pro— es una señal. Para los flujos de trabajo que más importan en la producción actual —agentes, uso de herramientas, bucles de codificación— la profundidad de razonamiento pura importa menos que la combinación de calidad, velocidad y coste.

Funcionando cuatro veces más rápido que los modelos de vanguardia comparables y con un precio de $1.50 / $9.00 por millón de tokens de entrada/salida, Flash hace que las canalizaciones agénticas sean drásticamente más baratas de ejecutar a escala.

Las evaluaciones de producción lo confirman. Ben Kus, CTO de Box, informó que 3.5 Flash superó a la generación Flash anterior en un 19.6% en flujos de trabajo empresariales del mundo real, con una mejora del 96.4% en la precisión de la extracción de datos de ciencias de la vida. Nick Frolov de JetBrains observó una mejora del 10-20% en el rendimiento de la codificación con respecto a la generación Flash anterior.

¿Gemini 3.5 Flash funciona bien en tu endpoint?

Los puntos de referencia oficiales utilizan arneses propietarios, conjuntos completos de tareas y la propia pila de evaluación del proveedor. La pregunta relevante para los equipos de plataforma es diferente: ¿qué obtienes en tu URL base, con tus IDs de modelo, en prompts que puedes volver a ejecutar?

Ejecutamos un arnés de solo texto de 15 prompts a través de TrueFoundry AI Gateway en las mismas tres categorías que Google destacó — estilo CharXiv, estilo MMMU-Pro y estilo Finance Agent v2 — evaluados contra respuestas de referencia.

Model Accuracy Mean latency Total cost Cost / correct
Claude Opus 4.7 66.7%(10/15) 2,538 ms $0.045 $0.0045
GPT-5.5 60.0% (9/15) 3,017 ms $0.020 $0.0022
Gemini 3.5 Flash 46.7% (7/15) 3,529 ms $0.091 $0.0130
Suite Claude Opus 4.7 GPT-5.5 Gemini 3.5 Flash
CharXiv-style80%80%80%
MMMU-Pro-style80%80%60%
Finance Agent v2-style40%20%0%

Esta ejecución no refuta las cifras oficiales de Google — utilizan diferentes herramientas y una pila de evaluación distinta. Lo que demuestra es que las clasificaciones de los benchmarks no se transfieren automáticamente a tu endpoint. En nuestro análisis, la puntuación de Flash en el estilo Finance fue de 0/5, con fallos causados por respuestas largas que no coincidían con el formato esperado. El panorama de costes fue igualmente revelador: Flash tuvo el mayor gasto total y el menor número de respuestas correctas, lo que sitúa su coste por respuesta correcta en aproximadamente 6 veces el de GPT-5.5.

La métrica que importa cuando los modelos son intercambiables detrás de una pasarela es el coste por respuesta correcta: precio por token × tokens por intento ÷ probabilidad de una respuesta utilizable.

La ventana de contexto de 1M de tokens

Gemini 3.5 Flash admite una ventana de contexto de un millón de tokens — suficiente para contener una base de código completa, un documento regulatorio extenso o el rastro completo de una tarea autónoma de larga duración en una sola sesión. Los benchmarks de recuperación sugieren que la ventana es realmente utilizable a esa longitud, en lugar de degradarse en la cola larga.

Gemini Spark y lo que Google está señalando

También anunciado en el I/O: Gemini Spark, el nuevo agente de IA personal 24/7 de Google, funciona con 3.5 Flash. El modelo es ahora el predeterminado en la aplicación Gemini y en el Modo IA de la Búsqueda de Google a nivel mundial. Google está implementando 3.5 Flash como el predeterminado de producción tanto para sus productos de consumo de mayor tráfico como para sus experimentos de agentes más ambiciosos, no como un paso intermedio.

Qué observar

3.5 Pro el próximo mes. Google confirmó que 3.5 Pro ya está en uso interno. Si 3.5 Flash ya supera a 3.1 Pro en la mayoría de los benchmarks, la pregunta es qué hará 3.5 Pro en las tareas de razonamiento y contexto largo donde Flash aún se queda atrás.

Liderazgo de MCP Atlas. El liderazgo de Flash en MCP Atlas — el benchmark para flujos de trabajo de herramientas de varios pasos que utilizan el Protocolo de Contexto del Modelo — señala que Google ha convertido la orquestación de herramientas en un objetivo de entrenamiento de primera clase. Para los equipos que construyen arquitecturas nativas de MCP, esto es algo a tomar en serio.

Ejecútalo en TrueFoundry

TrueFoundry AI Gateway te da acceso a Gemini 3.5 Flash junto con GPT-5.5, Claude Opus 4.7 y otros modelos de vanguardia a través de un único endpoint — la misma configuración utilizada para la validación anterior. Trazabilidad unificada de solicitudes, atribución de costes por modelo y equipo, sin claves API separadas por proveedor.

Pruébalo · Inicio rápido · Solicitar una demostración

Datos oficiales de referencia: Google DeepMind — Gemini 3.5 Flash, 19 de mayo de 2026. Ejecución de validación de TrueFoundry: 20 de mayo de 2026, arnés de solo texto de 15 indicaciones a través de TrueFoundry AI Gateway.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Descubra más

July 20, 2023
|
5 minutos de lectura

LLMOps CoE: la próxima frontera en el panorama de los MLOps

April 16, 2024
|
5 minutos de lectura

Cognita: Creación de aplicaciones RAG modulares y de código abierto para la producción

May 25, 2023
|
5 minutos de lectura

LLM de código abierto: abrazar o perecer

August 27, 2025
|
5 minutos de lectura

Mapeando el mercado de la IA local: desde chips hasta aviones de control

Helicone pricing compared with TrueFoundry enterprise AI governance
June 26, 2026
|
5 minutos de lectura

Helicone Pricing in 2026: Full Breakdown of Plans, Costs, and What Enterprises Need to Know

No se ha encontrado ningún artículo.
June 26, 2026
|
5 minutos de lectura

Integración de TrueFoundry con Smallest AI

No se ha encontrado ningún artículo.
June 26, 2026
|
5 minutos de lectura

Integración de TrueFoundry AI Gateway con New Relic

No se ha encontrado ningún artículo.
June 26, 2026
|
5 minutos de lectura

Integración de TrueFoundry AI Gateway con LangSmith

Herramientas LLM
Terminología LLM
Ingeniería y producto
No se ha encontrado ningún artículo.

Blogs recientes

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto