Gemini 3.5 Flash es impresionante. Esto es lo que realmente encontramos.

Published: June 26, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Existe una regla no escrita en los lanzamientos de modelos de IA: Pro es inteligente, Flash es rápido, y tú eliges tu compromiso. Google acaba de romper esa regla.

Anunciado en Google I/O el 19 de mayo de 2026, Gemini 3.5 Flash es el primer modelo de la nueva familia Gemini 3.5, y hace algo que ningún modelo de la categoría Flash había hecho antes: superar al anterior modelo insignia Pro en los puntos de referencia de codificación y agénticos, mientras sigue funcionando a velocidades Flash.

El Contexto

Gemini 3.1 Pro se lanzó en febrero de 2026 e inmediatamente encabezó el Índice de Inteligencia de Análisis Artificial en tareas complejas de razonamiento visual y multimodales. Era el modelo insignia de Google, lanzado hace solo tres meses.

3.5 Flash ahora es mejor que él en la mayoría de los puntos de referencia de codificación y agénticos. Y es más rápido.

Los Puntos de Referencia

Category	Benchmark	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Claude Sonnet 4.6	Claude Opus 4.7	GPT-5.5
Coding	Terminal-Bench 2.1 (agentic terminal coding)	76.2%	58.0%	70.3%	—	66.1%	78.2%
Coding	SWE-Bench Pro (diverse agentic coding tasks)	55.1%	49.6%	54.2%	—	64.3%	58.6%
Agentic	MCP Atlas (multi-step workflows using MCP)	83.6%	62.0%	78.2%	69.5%	79.1%	75.3%
Agentic	Toolathlon (real-world general tool use)	56.5%	49.4%	—	—	—	55.6%
UI Control	OSWorld-Verified (agentic computer use)	78.4%	65.1%	76.2%	72.5%	78.0%	78.7%
Expert Tasks	Finance Agent v2 (financial analysis and decision-making)	57.9%	42.6%	43.0%	51.0%	51.5%	51.8%
Expert Tasks	GDPval-AA (economically valuable knowledge work, Elo)	1656	1204	1314	1676	1753	1769
Multimodal	CharXiv Reasoning (information synthesis from complex charts)	84.2%	80.3%	83.3%	72.4%	82.1%	84.1%
Multimodal	MMMU-Pro (multimodal understanding and reasoning)	83.6%	81.2%	80.5%	74.5%	75.2%	81.2%
Multimodal	Blueprint-Bench 2 (agentic spatial reasoning)	33.6%	0.0%	26.5%	6.7%	24.5%	36.2%
Long Context	MRCR v2 — 128k (long context retrieval)	77.3%	67.2%	84.9%	84.9%	59.3%	94.8%
Long Context	MRCR v2 — 1M (long context retrieval)	26.6%	22.1%	26.3%	—	—	—
Reasoning	Humanity's Last Exam (academic reasoning, text + multimodal)	40.2%	33.7%	44.4%	33.2%	46.9%	41.4%
Reasoning	ARC-AGI-2 (abstract reasoning puzzles)	72.1%	33.6%	77.1%	58.3%	75.8%	84.6%

^Fuente:^{Google DeepMind — Gemini 3.5 Flash}

Flash lidera en los puntos de referencia agénticos, de uso de herramientas y multimodales. En codificación, supera a Gemini 3.1 Pro en ambas tareas, aunque GPT-5.5 y Claude Opus 4.7 lideran sus respectivas categorías. En razonamiento profundo y recuperación de contexto largo, los modelos insignia Pro mantienen una ventaja, una brecha que Google parece estar reservando para el próximo 3.5 Pro.

Por qué Google apostó por Flash, no por Pro

La decisión de Google de iniciar la serie 3.5 con Flash —y no con Pro— es una señal. Para los flujos de trabajo que más importan en la producción actual —agentes, uso de herramientas, bucles de codificación— la profundidad de razonamiento pura importa menos que la combinación de calidad, velocidad y coste.

Funcionando cuatro veces más rápido que los modelos de vanguardia comparables y con un precio de $1.50 / $9.00 por millón de tokens de entrada/salida, Flash hace que las canalizaciones agénticas sean drásticamente más baratas de ejecutar a escala.

Las evaluaciones de producción lo confirman. Ben Kus, CTO de Box, informó que 3.5 Flash superó a la generación Flash anterior en un 19.6% en flujos de trabajo empresariales del mundo real, con una mejora del 96.4% en la precisión de la extracción de datos de ciencias de la vida. Nick Frolov de JetBrains observó una mejora del 10-20% en el rendimiento de la codificación con respecto a la generación Flash anterior.

¿Gemini 3.5 Flash funciona bien en tu endpoint?

Los puntos de referencia oficiales utilizan arneses propietarios, conjuntos completos de tareas y la propia pila de evaluación del proveedor. La pregunta relevante para los equipos de plataforma es diferente: ¿qué obtienes en tu URL base, con tus IDs de modelo, en prompts que puedes volver a ejecutar?

Ejecutamos un arnés de solo texto de 15 prompts a través de TrueFoundry AI Gateway en las mismas tres categorías que Google destacó — estilo CharXiv, estilo MMMU-Pro y estilo Finance Agent v2 — evaluados contra respuestas de referencia.

Model	Accuracy	Mean latency	Total cost	Cost / correct
Claude Opus 4.7	66.7%(10/15)	2,538 ms	$0.045	$0.0045
GPT-5.5	60.0% (9/15)	3,017 ms	$0.020	$0.0022
Gemini 3.5 Flash	46.7% (7/15)	3,529 ms	$0.091	$0.0130

Suite	Claude Opus 4.7	GPT-5.5	Gemini 3.5 Flash
CharXiv-style	80%	80%	80%
MMMU-Pro-style	80%	80%	60%
Finance Agent v2-style	40%	20%	0%

Esta ejecución no refuta las cifras oficiales de Google — utilizan diferentes herramientas y una pila de evaluación distinta. Lo que demuestra es que las clasificaciones de los benchmarks no se transfieren automáticamente a tu endpoint. En nuestro análisis, la puntuación de Flash en el estilo Finance fue de 0/5, con fallos causados por respuestas largas que no coincidían con el formato esperado. El panorama de costes fue igualmente revelador: Flash tuvo el mayor gasto total y el menor número de respuestas correctas, lo que sitúa su coste por respuesta correcta en aproximadamente 6 veces el de GPT-5.5.

La métrica que importa cuando los modelos son intercambiables detrás de una pasarela es el coste por respuesta correcta: precio por token × tokens por intento ÷ probabilidad de una respuesta utilizable.

La ventana de contexto de 1M de tokens

Gemini 3.5 Flash admite una ventana de contexto de un millón de tokens — suficiente para contener una base de código completa, un documento regulatorio extenso o el rastro completo de una tarea autónoma de larga duración en una sola sesión. Los benchmarks de recuperación sugieren que la ventana es realmente utilizable a esa longitud, en lugar de degradarse en la cola larga.

Gemini Spark y lo que Google está señalando

También anunciado en el I/O: Gemini Spark, el nuevo agente de IA personal 24/7 de Google, funciona con 3.5 Flash. El modelo es ahora el predeterminado en la aplicación Gemini y en el Modo IA de la Búsqueda de Google a nivel mundial. Google está implementando 3.5 Flash como el predeterminado de producción tanto para sus productos de consumo de mayor tráfico como para sus experimentos de agentes más ambiciosos, no como un paso intermedio.

Qué observar

3.5 Pro el próximo mes. Google confirmó que 3.5 Pro ya está en uso interno. Si 3.5 Flash ya supera a 3.1 Pro en la mayoría de los benchmarks, la pregunta es qué hará 3.5 Pro en las tareas de razonamiento y contexto largo donde Flash aún se queda atrás.

Liderazgo de MCP Atlas. El liderazgo de Flash en MCP Atlas — el benchmark para flujos de trabajo de herramientas de varios pasos que utilizan el Protocolo de Contexto del Modelo — señala que Google ha convertido la orquestación de herramientas en un objetivo de entrenamiento de primera clase. Para los equipos que construyen arquitecturas nativas de MCP, esto es algo a tomar en serio.

Ejecútalo en TrueFoundry

TrueFoundry AI Gateway te da acceso a Gemini 3.5 Flash junto con GPT-5.5, Claude Opus 4.7 y otros modelos de vanguardia a través de un único endpoint — la misma configuración utilizada para la validación anterior. Trazabilidad unificada de solicitudes, atribución de costes por modelo y equipo, sin claves API separadas por proveedor.

Pruébalo · Inicio rápido · Solicitar una demostración

_{Datos oficiales de referencia:}_{Google DeepMind — Gemini 3.5 Flash}_{, 19 de mayo de 2026. Ejecución de validación de TrueFoundry: 20 de mayo de 2026, arnés de solo texto de 15 indicaciones a través de TrueFoundry AI Gateway.}

‍

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora