Gemini 3.5 Flash es impresionante. Esto es lo que realmente encontramos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Existe una regla no escrita en los lanzamientos de modelos de IA: Pro es inteligente, Flash es rápido, y tú eliges tu compromiso. Google acaba de romper esa regla.
Anunciado en Google I/O el 19 de mayo de 2026, Gemini 3.5 Flash es el primer modelo de la nueva familia Gemini 3.5, y hace algo que ningún modelo de la categoría Flash había hecho antes: superar al anterior modelo insignia Pro en los puntos de referencia de codificación y agénticos, mientras sigue funcionando a velocidades Flash.
El Contexto
Gemini 3.1 Pro se lanzó en febrero de 2026 e inmediatamente encabezó el Índice de Inteligencia de Análisis Artificial en tareas complejas de razonamiento visual y multimodales. Era el modelo insignia de Google, lanzado hace solo tres meses.
3.5 Flash ahora es mejor que él en la mayoría de los puntos de referencia de codificación y agénticos. Y es más rápido.
Los Puntos de Referencia
Fuente: Google DeepMind — Gemini 3.5 Flash
Flash lidera en los puntos de referencia agénticos, de uso de herramientas y multimodales. En codificación, supera a Gemini 3.1 Pro en ambas tareas, aunque GPT-5.5 y Claude Opus 4.7 lideran sus respectivas categorías. En razonamiento profundo y recuperación de contexto largo, los modelos insignia Pro mantienen una ventaja, una brecha que Google parece estar reservando para el próximo 3.5 Pro.
Por qué Google apostó por Flash, no por Pro
La decisión de Google de iniciar la serie 3.5 con Flash —y no con Pro— es una señal. Para los flujos de trabajo que más importan en la producción actual —agentes, uso de herramientas, bucles de codificación— la profundidad de razonamiento pura importa menos que la combinación de calidad, velocidad y coste.
Funcionando cuatro veces más rápido que los modelos de vanguardia comparables y con un precio de $1.50 / $9.00 por millón de tokens de entrada/salida, Flash hace que las canalizaciones agénticas sean drásticamente más baratas de ejecutar a escala.
Las evaluaciones de producción lo confirman. Ben Kus, CTO de Box, informó que 3.5 Flash superó a la generación Flash anterior en un 19.6% en flujos de trabajo empresariales del mundo real, con una mejora del 96.4% en la precisión de la extracción de datos de ciencias de la vida. Nick Frolov de JetBrains observó una mejora del 10-20% en el rendimiento de la codificación con respecto a la generación Flash anterior.
¿Gemini 3.5 Flash funciona bien en tu endpoint?
Los puntos de referencia oficiales utilizan arneses propietarios, conjuntos completos de tareas y la propia pila de evaluación del proveedor. La pregunta relevante para los equipos de plataforma es diferente: ¿qué obtienes en tu URL base, con tus IDs de modelo, en prompts que puedes volver a ejecutar?
Ejecutamos un arnés de solo texto de 15 prompts a través de TrueFoundry AI Gateway en las mismas tres categorías que Google destacó — estilo CharXiv, estilo MMMU-Pro y estilo Finance Agent v2 — evaluados contra respuestas de referencia.
Esta ejecución no refuta las cifras oficiales de Google — utilizan diferentes herramientas y una pila de evaluación distinta. Lo que demuestra es que las clasificaciones de los benchmarks no se transfieren automáticamente a tu endpoint. En nuestro análisis, la puntuación de Flash en el estilo Finance fue de 0/5, con fallos causados por respuestas largas que no coincidían con el formato esperado. El panorama de costes fue igualmente revelador: Flash tuvo el mayor gasto total y el menor número de respuestas correctas, lo que sitúa su coste por respuesta correcta en aproximadamente 6 veces el de GPT-5.5.
La métrica que importa cuando los modelos son intercambiables detrás de una pasarela es el coste por respuesta correcta: precio por token × tokens por intento ÷ probabilidad de una respuesta utilizable.
La ventana de contexto de 1M de tokens
Gemini 3.5 Flash admite una ventana de contexto de un millón de tokens — suficiente para contener una base de código completa, un documento regulatorio extenso o el rastro completo de una tarea autónoma de larga duración en una sola sesión. Los benchmarks de recuperación sugieren que la ventana es realmente utilizable a esa longitud, en lugar de degradarse en la cola larga.
Gemini Spark y lo que Google está señalando
También anunciado en el I/O: Gemini Spark, el nuevo agente de IA personal 24/7 de Google, funciona con 3.5 Flash. El modelo es ahora el predeterminado en la aplicación Gemini y en el Modo IA de la Búsqueda de Google a nivel mundial. Google está implementando 3.5 Flash como el predeterminado de producción tanto para sus productos de consumo de mayor tráfico como para sus experimentos de agentes más ambiciosos, no como un paso intermedio.
Qué observar
3.5 Pro el próximo mes. Google confirmó que 3.5 Pro ya está en uso interno. Si 3.5 Flash ya supera a 3.1 Pro en la mayoría de los benchmarks, la pregunta es qué hará 3.5 Pro en las tareas de razonamiento y contexto largo donde Flash aún se queda atrás.
Liderazgo de MCP Atlas. El liderazgo de Flash en MCP Atlas — el benchmark para flujos de trabajo de herramientas de varios pasos que utilizan el Protocolo de Contexto del Modelo — señala que Google ha convertido la orquestación de herramientas en un objetivo de entrenamiento de primera clase. Para los equipos que construyen arquitecturas nativas de MCP, esto es algo a tomar en serio.
Ejecútalo en TrueFoundry
TrueFoundry AI Gateway te da acceso a Gemini 3.5 Flash junto con GPT-5.5, Claude Opus 4.7 y otros modelos de vanguardia a través de un único endpoint — la misma configuración utilizada para la validación anterior. Trazabilidad unificada de solicitudes, atribución de costes por modelo y equipo, sin claves API separadas por proveedor.
Pruébalo · Inicio rápido · Solicitar una demostración
Datos oficiales de referencia: Google DeepMind — Gemini 3.5 Flash, 19 de mayo de 2026. Ejecución de validación de TrueFoundry: 20 de mayo de 2026, arnés de solo texto de 15 indicaciones a través de TrueFoundry AI Gateway.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA
















.webp)

.webp)

.webp)
.webp)
.png)






.webp)
.webp)






