Acciones web colaborativas: creación de un copiloto de películas inteligente con TrueFoundry y Google ADK

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Piensa en la gimnasia mental que implica una simple reserva de películas. Cambia entre el chat de tu grupo de amigos, las carteleras de cine, las reseñas y los mapas dinámicos de asientos. Equilibrar la ubicación con los horarios de los espectáculos, haciendo malabares con los precios de las entradas en constante cambio. No se trata solo de una tarea, sino de una carga mental fragmentada y multifásica que, a menudo, lleva al abandono de las carretas o a la opción de conformarse con menos. Acabamos luchando contra la interfaz dinámica de los sitios web complejos, intentando establecer una única y sencilla intención.
En lugar de navegar manualmente por el complejo terreno de los sitios dinámicos, imagine abrir una ventana de chat única y específica y expresar esa intención una vez. «Vamos a reservar dos entradas para la nueva película de Dune en el cine IMAX más cercano para mañana por la noche». Esta simple declaración desencadena una cadena de eventos compleja y bellamente orquestada. Una guía digital inicia de inmediato una conversación sólida, que interpreta sus limitaciones, obtiene opciones en tiempo real de forma dinámica desde un sitio activo y lo guía sin esfuerzo hacia una acción decisiva.

Esta es la promesa de una verdadera IA orientada a la acción. No es un chatbot estático; es una orquestación dinámica de inteligencia y acción. Se trata de crear un equilibrio perfecto entre una guía digital y tu decisión humana. Para ayudarte a crear este tipo de sofisticada experiencia de copiloto, estamos encantados de presentar nuestra versión más nueva y avanzada TrueFoundry Accelerator: el agente de automatización del navegador de reservas de películas.
Este acelerador proporciona un modelo completo y listo para la producción para un agente de IA que navega por el sitio web de Fandango en nombre de un usuario. Construido sobre una arquitectura modular y resiliente, une Kit de desarrollo de agentes de Google (ADK), una sólida configuración de navegador sin interfaz virtual del lado del servidor (CLI de agente-navegador) y Puerta de enlace LLM de TrueFoundry, todo ello mientras se implementa un patrón de seguridad único para las tareas más delicadas.
Comprender el flujo colaborativo: del chat al sitio en vivo
La parte más difícil de la automatización de navegadores con IA es gestionar estados complejos y gestionar interacciones delicadas, como el procesamiento de pagos. La naturaleza dinámica de la interfaz de usuario web moderna, en la que los elementos cambian, se cargan de forma asincrónica y varían según el usuario, rompe con los scripts de automatización tradicionales. Para crear un agente resiliente, se necesita una arquitectura diseñada desde cero para autocorregirse y colaborar de forma inteligente con el usuario.
Nuestro acelerador es único porque adopta un sistema sólido y centrado en la seguridad modelo de traspaso colaborativo. En este modelo, la IA gestiona todos los pasos tediosos y basados en reglas para encontrar una película, pero no llega a gestionar la información de pago real. El control se transfiere sin problemas al navegador del usuario en el paso más crítico, lo que garantiza la confianza del usuario y reduce la complejidad del cumplimiento de la normativa PCI para la aplicación.
Todo este ecosistema está encapsulado dentro de un estándar Servidor FastAPI y la capa de API, lo que facilita la implementación, la protección y la supervisión. El diagrama que ves aquí es ese modelo de orquestación, que detalla exactamente cómo el contexto pasa de la intención del usuario a la acción del navegador.

Sumérjase en la arquitectura: gestión estatal resiliente y acciones colaborativas
Analicemos los componentes técnicos y los cuatro bucles clave de este flujo orquestado por el estado, haciendo referencia directa a nuestro plan técnico.
El orquestador: BookingAgent (orquestador estatal)
Este componente es el corazón del sistema. Conocido como el «orquestador estatal», el BookingAgent no solo envía mensajes de texto, sino que transforma la intención de alto nivel en un flujo de trabajo estructurado, fiable y conversacional. Utiliza una serie de bucles interconectados para mantener un estado preciso.
- Elecciones guiadas iniciales: El agente (basado en la lógica del agente ADK) está diseñado para presentar opciones estructuradas al usuario desde el principio. En lugar de preguntar en blanco: «¿Qué película te gustaría ver?» , inmediatamente ofrece opciones guiadas como «[Buscar por película] [Buscar por género]». Cuando el usuario hace una selección, no solo introduce texto, sino que establece el contexto interno del agente y dirige toda la conversación posterior. Esta estructura inicial es fundamental para mantener la concentración de las tareas.
- The State Loop: inyección de contexto y generación de listas dinámicas: Este bucle (señalado en el recuadro gris central del diagrama) es lo que origina la conversación dinámica.
- 1. Inyección de contexto: El administrador de sesiones conserva el estado, lo que garantiza que cada turno de la conversación conozca las restricciones anteriores. El BookingAgent introduce este contexto completo (código postal del usuario, fecha, película preferida) en sus instrucciones.
- 2. Ejecución de llamadas a herramientas: La capa de inteligencia (a la que apunta la combinación ADK Agent + LLM Gateway) genera una respuesta JSON estructurada que decide a qué herramienta llamar (por ejemplo, Maps, click).
- 3. Generación de listas dinámicas: Esto es crucial. Cuando el agente necesita que el usuario seleccione una fecha, no se limita a preguntar. Utiliza las herramientas de su navegador para obtener el estado real del DOM de Fandango. Entonces extrae la lista válida de fechas directamente desde la página y genera opciones guiadas en las que se puede hacer clic en el chat, lo que mantiene al usuario totalmente informado y evita los callejones sin salida. Esto queda perfectamente ilustrado en el diagrama: cuando el usuario introduce un código postal y una fecha, el agente presenta opciones específicas, como los horarios de «14:30» y «17:45», creados de forma dinámica a partir de los resultados instantáneos del DOM de Fandango en tiempo real.
- 4. Recuperación de errores: ¿Qué ocurre cuando el sitio dinámico cambia y un selector de CSS falla? Esta parte del ciclo es el motor de resiliencia del agente. En lugar de producirse un error grave, el sistema captura el error y el BookingAgent inicia un proceso de autocorrección y, a menudo, pide al LLM que le dé consejos sobre qué es lo que ha fallado en la página y cómo volver a intentarlo.
El cerebro: ADK Agent y la puerta de enlace TrueFoundry LLM
Esta asociación proporciona la inteligencia del agente. El ADK Agent (Google ADK Runner + InMemorySession) proporciona el marco estandarizado, mientras que el TrueFoundry LLM Gateway proporciona al modelo flexibilidad y potentes funciones de backend.
- El poder de la puerta de enlace: El enrutamiento de todas las llamadas de modelos a través de TrueFoundry LLM Gateway (a través del ADK Runner) proporciona una observabilidad instantánea, un almacenamiento en caché rápido para reducir la velocidad y los costos, y la capacidad de cambiar sin problemas entre modelos de primer nivel como GPT-4, Claude o Gemini. Esto es fundamental para optimizar el rendimiento de una tarea en particular (como el análisis del DOM) y, al mismo tiempo, gestionar los costes de infraestructura.
La cadena de acción: herramientas de navegador, DriverManager y CLI entre agente y navegador
Esta cadena de componentes ejecuta los comandos.
- Capa de abstracción: Las herramientas del navegador resumen la interacción sin procesar, lo que hace que la lógica de orquestación sea limpia y modular.
- Escalado simultáneo: El diseño del BrowserManager es fundamental. Como señala la etiqueta, mantiene «Instancias de BrowserDriver por sesión + precalentamiento», lo que significa que cada sesión de chat tiene su propia instancia aislada de navegador sin interfaz. Esto evita la colisión de datos de los usuarios y permite que su aplicación escale de forma simultánea y segura entre miles de usuarios.
- El motor: La CLI del agente-navegador (Headless Chromium, con tecnología de PlayStation) es el motor de ejecución sin procesar que impulsa el sitio web de Fandango. Supera lo más importante Resultados de instantáneas e interacciones del DOM haga una copia de seguridad en el bucle para la generación de listas dinámicas.
El golpe maestro: el modelo de traspaso colaborativo
Esta es la culminación de todo el diseño arquitectónico. Como se puede ver en el «Lógica de transferencia (se conserva el contexto del usuario)» línea punteada, una vez completados los tediosos pasos de recopilación de datos (por ejemplo, después de que el usuario haya seleccionado el cine y la hora del espectáculo), la automatización del lado del servidor paradas.
Hace que el BookingAgent transfiera el control. El página de Fandango en vivo (o un marco seguro independiente) se carga directamente en el navegador del usuario (la casilla amarilla etiquetada «Página de Fandango en vivo (el usuario tiene el control directo)»). Como se ha conservado el contexto (el teatro y la hora específica del espectáculo), el usuario llega exactamente al lugar en el que debe estar.
Luego, el usuario interactúa directamente con el complejo plano visual de asientos y continúa con los pasos de pago seguro, tal como lo haría normalmente. Esto es genial porque:
- Seguridad: Su aplicación nunca gestiona, procesa ni almacena datos de pago PCI confidenciales, lo que reduce los enormes gastos de seguridad y cumplimiento.
- Entrega humana: Permite al usuario humano gestionar la elección final y visual del asiento en el mapa dinámico, que es la tarea más adecuada para una persona.
Este ciclo final de selección y pago de asientos controlado por el usuario (entrada directa) conduce directamente al resultado final: reserva confirmada.
👉 Vea la supademo interactiva de todo el flujo colaborativo
Descubre cómo esta sólida arquitectura lleva al usuario de una simple búsqueda por género a un plano de asientos en vivo en Fandango con solo unos pocos toques, ilustrando cada paso de este plan orquestado.
¿Por qué empezar con un acelerador?
Los aceleradores TrueFoundry están diseñados para que pueda comenzar la producción más rápido. La automatización web con LLM es notoriamente compleja, con desafíos ocultos de resiliencia y administración del estado. Al comenzar con este modelo singular y listo para la producción, usted:
- Evite el desarrollo complicado: Impulse su proyecto con patrones comprobados de persistencia de estados, autocorrección y bucles colaborativos entre humanos e IA.
- Garantice una escala simultánea: Aproveche el modelo de sesión aislada de BrowserManager y DriverManager, que son fundamentales para cualquier implementación empresarial.
- Reduzca el riesgo: El modelo comprobado de transferencia colaborativa es la forma más eficaz de proteger las acciones web y reducir los riesgos de seguridad, legales y de cumplimiento relacionados con los datos confidenciales.
Comience hoy
Movie Booking Accelerator es más que una simple demostración de tecnología; es un modelo fundamental para crear agentes sólidos, seguros y colaborativos. Ya sea que estés creando un copiloto para reservas de hotel, un asistente automático para una aerolínea o una herramienta automatizada de extracción de datos, esta arquitectura te muestra cómo conectar los LLM con las acciones web de forma fiable.
Sumérjase hoy mismo en la plataforma TrueFoundry, acceda a este repositorio de aceleradores y comience a adaptar este plan técnico a sus necesidades de automatización únicas.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA















.png)


.webp)




.webp)







