Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Estudio de caso

Resumen

Innovaccer es una nube de inteligencia sanitaria que opera en entornos altamente regulados en relación con la información de salud protegida (PHI). Innovaccer utiliza la inteligencia artificial para mejorar la eficiencia clínica, la gestión de la atención y la toma de decisiones operativas en toda su plataforma de atención médica. La IA potencia casos de uso como el resumen clínico, la identificación de carencias en la atención, la estratificación de los riesgos, el soporte de calidad y codificación y la información en lenguaje natural sobre los datos de atención médica, en entornos regulados y con una gran cantidad de información sobre la PHI.

En este proceso de adopción de GenAI en las aplicaciones clínicas y operativas, Innovaccer necesitaba una forma centralizada de gobernar, observar y escalar el uso, sin fragmentar el acceso ni comprometer el cumplimiento. Esto puso de manifiesto los desafíos relacionados con la observabilidad, la auditabilidad, el control de acceso de los modelos y la gobernanza de los costos a través de múltiples sistemas de gestión de costos y sistemas de gestión de costos basados en la información identificable.

Al asociarse con TrueFoundry, Innovaccer estandarizó todo el tráfico de GenAI a través del AI Gateway de TrueFoundry, estableciendo un plano de control unificado para la gobernanza a escala a nivel sanitario. En la actualidad, Innovaccer envía aproximadamente 17 millones de solicitudes de inferencia al mes, procesando aproximadamente 34 000 millones de tokens de entrada y 3 400 millones de tokens de salida en más de 40 modelos, incluidos OpenAI, AWS Bedrock, Gemini e implementaciones autohospedadas, que impulsan más de 25 aplicaciones de atención médica. Con el registro centralizado, la redacción de PII, los controles de costes y la aplicación de políticas integrados de forma predeterminada, Innovaccer ha integrado GenAI en profundidad en los flujos de trabajo de producción, al tiempo que mantiene la observabilidad, el cumplimiento y la gobernanza de nivel empresarial en todos los principales hiperescaladores de LLM.

Un compromiso centrado comparó TrueFoundry con plataformas de alojamiento de modelos alternativos y mostró que el tiempo de escalado automático se redujo de aproximadamente 8 minutos a ~ 5 minutos (una disminución del 37,5%), además de una configuración de infraestructura más rápida, una observabilidad más rica y mejores características de costo.

Acerca de Innovaccer

Innovaccer activa el flujo de datos de atención médica, lo que permite a los proveedores, pagadores y organizaciones gubernamentales ofrecer experiencias inteligentes y conectadas que mejoran los resultados de salud. Healthcare Intelligence Cloud permite a todas las partes interesadas en el proceso del paciente convertir los datos fragmentados en acciones proactivas y coordinadas que eleven la calidad de la atención e impulsen el rendimiento operativo. Las principales organizaciones de atención médica, como Orlando Health, Adventist Healthcare y Banner Health, confían en Innovaccer para integrar un sistema de inteligencia en su infraestructura actual y ampliar el toque humano en la atención médica. Innovaccer gestiona los datos de millones de pacientes con miles de millones de puntos de datos distribuidos entre ellos.

Contexto

«Impulsar la innovación en inteligencia artificial y aprendizaje automático de Innovaccer» no es solo un eslogan, sino que refleja cómo Innovaccer está ampliando la IA en las organizaciones sanitarias, con TrueFoundry como socio de infraestructura habilitador. Innovaccer está automatizando el trabajo de conocimiento en relación con la MCR, el acceso de los pacientes, los copilotos de proveedores, la codificación clínica y el mapeo de datos. Para respaldar esto a gran escala, Innovaccer sigue una estrategia multimodelo que abarca Azure, AWS Bedrock, OpenAI y modelos autohospedados, y TrueFoundry proporciona la base fundamental de gobierno, orquestación e implementación.

Para mantener este crecimiento, Innovaccer necesitaba:

  • UN punto de entrada de IA único para experimentación y producción.
  • Estrecha observabilidad sobre el uso, el rendimiento y el costo de los tokens.
  • Modelo de alojamiento de autoservicio con un potente ajuste de escala automático y sin cuellos de botella en DevOps.
  • Un camino hacia gobierna las cargas de trabajo sensibles a PHI y PII y futuros casos de uso de agencias.

El desafío

Antes de centralizarse en TrueFoundry, la infraestructura de IA generativa de Innovaccer utilizaba directamente,
conexiones punto a punto entre aplicaciones de producción y varios proveedores como OpenAI, Azure,
y Bedrock.

Si bien era funcional, este enfoque fragmentado carecía de la puerta de enlace unificada necesaria para la trazabilidad de alto nivel y la supervisión fiscal esenciales en un entorno de atención médica. La consolidación de estos flujos de trabajo fue una medida estratégica para garantizar la confiabilidad requerida para las empresas
operaciones clínicas.

La evolución del GenAI de nivel sanitario

Al centralizar su infraestructura GenAI a través de TrueFoundry, Innovaccer pasó de un modelo fragmentado a un red troncal de IA unificada diseñado para las complejidades de la atención médica.

  • Fiabilidad y flujos de trabajo centrados en el paciente: Al implementar mecanismos de respaldo y control de tráfico centralizados, nos aseguramos de que los flujos de trabajo administrativos críticos, de los que dependen los proveedores y los pacientes, sigan siendo resilientes y eficientes incluso durante las interrupciones de los proveedores.
  • Trazabilidad y cumplimiento clínico: Una capa centralizada proporciona las rigurosas pistas de auditoría y la trazabilidad esenciales para la gobernanza de los datos de atención médica. Innovaccer ahora puede monitorear la forma en que los modelos interactúan con los datos confidenciales, garantizando que cada resultado sea responsable.
  • Administración de escala y costos: Administrar el costo del servicio es vital para la eficiencia de la atención médica. Este marco centralizado permite a Innovaccer medir y optimizar los costos en toda la plataforma, lo que garantiza que la ampliación de la IA no genere gastos administrativos impredecibles.
  • Velocidad del desarrollador a través de la configuración: Al utilizar la capa de orquestación de TrueFoundry, Innovaccer desvinculó la lógica de las aplicaciones del modelo subyacente y aceleró la entrega de valor. Los equipos de desarrollo ahora pueden probar y cambiar entre varios modelos básicos únicamente mediante la configuración, sin necesidad de realizar cambios en el código. Esta arquitectura «conectable» nos permite adoptar los últimos LLM clínicos tan pronto como estén disponibles.

Para los equipos de atención, los médicos y los pacientes que confían en estas aplicaciones para obtener información oportuna y apoyo para la toma de decisiones, esto creó posibles riesgos en relación con la coherencia de la experiencia, la disponibilidad de los servicios durante los momentos clínicos más intensos y la confianza en la forma en que se manejaban los datos de salud confidenciales.

Además, TrueFoundry comparó su experiencia de implementación y escalado automático con plataformas de alojamiento de modelos alternativos en proveedores de nube populares. Requerieron configurar manualmente los recuentos de invocaciones, se basaron en el seguimiento basado en registros a través de CloudWatch para conocer los tiempos de escalado automático y agregaron un margen de beneficio de aproximadamente un 25% sobre el precio de las instancias. La visibilidad de los eventos a nivel de cápsula y del comportamiento del escalado automático era limitada, lo que hacía que el ajuste fuera más lento y menos transparente.


Solución: TrueFoundry como plataforma central de orquestación de IA

TrueFoundry se adoptó como la capa de DevX y de orquestación para ambos. Tráfico LLM (AI Gateway) y Plataforma de despliegue de IA.

1. AI Gateway: un plano de control único para los LLM

En promedio, en un mes, el AI Gateway sirve:

  • Aproximadamente 17 millones de solicitudes de inferencia.
  • Aproximadamente 34 mil millones de tokens de entrada y 3.4 mil millones de tokens de salida.
  • Más de 25 aplicaciones sanitarias incorporadas.
  • ~40 modelos diferentes, que abarca OpenAI, AWS Bedrock, Azure, Gemini y Llama autohospedado.
El Gateway proporciona:
  • Enrutamiento central en todos los proveedores y modelos.
  • Métricas unificadas como el tiempo transcurrido hasta el primer token y la latencia entre tokens.
  • Seguimiento de tokens y costos desglosado por equipos, usuarios, entornos y modelos.
  • Métricas compatibles con OpenTelemetry que fluyen directamente a las actuales de Innovaccer Pila Grafana para paneles y alertas.
Esta puerta de enlace de IA centralizada convirtió el uso de LLM de Innovaccer de integraciones fragmentadas por aplicación en un plano de control único y observable.

2. Fiabilidad: proteger los flujos de trabajo clínicos y de prestación de cuidados con soluciones alternativas centralizadas

Innovaccer utiliza GenAI en la gestión de la atención, la inteligencia clínica y los flujos de trabajo operativos que ayudan a los médicos, los administradores de atención y los equipos de salud de la población. Estas aplicaciones muestran los resúmenes de los pacientes, la información sobre los riesgos, las brechas en la atención y las mejores acciones a seguir en el momento de la toma de decisiones

El 10 de junio, cuando OpenAI experimentó tasas de error elevadas, AI Gateway de Innovaccer redirigió automáticamente el tráfico a Azure en función de reglas de respaldo preconfiguradas. Esto garantizó que los equipos de atención continuaran recibiendo información puntual y sin interrupciones, incluso cuando los proveedores del modelo subyacente experimentaban inestabilidad.

Al configurar la conmutación por error de forma centralizada en la puerta de enlace de IA en lugar de en aplicaciones individuales, Innovaccer garantizó una confiabilidad constante en toda su plataforma de atención médica. Este enfoque redujo la variabilidad en la experiencia de los médicos y del equipo sanitario, al tiempo que permitió a los equipos de productos centrarse en mejorar los flujos de trabajo asistenciales en lugar de gestionar los escenarios de fallo específicos de los proveedores.

3. Acceso rápido a capacidades avanzadas de inteligencia artificial

TrueFoundry también aceleró el acceso a las API de OpenAI más nuevas a través del Gateway:

  • API de respuestas: permitiendo flujos de trabajo de uso de herramientas, como la búsqueda en Internet.
  • Integración del Codex: desbloquear las capacidades de generación de código.
  • Lote OpenAI: admite flujos de trabajo de inferencia asincrónicos y de gran volumen.
En lugar de que cada equipo de Innovaccer implemente estas capacidades por separado, se exponen de forma centralizada a través del AI Gateway, lo que permite una gobernanza y una supervisión coherentes.

4. Flujos de trabajo de inteligencia clínica más rápidos con enrutamiento con reconocimiento de la latencia

El GenAI de Innovaccer se usa en flujos de trabajo de gestión de la atención e inteligencia clínica, donde el tiempo de respuesta afecta directamente a la usabilidad para los médicos y los equipos de atención. Para respaldar esto, TrueFoundry implementó un enrutamiento con reconocimiento de la latencia en el AI Gateway, lo que dirigió de forma dinámica el tráfico en vivo al modelo de punto final más rápido disponible sin necesidad de cambiar la aplicación.
Además, la gestión de pronta centralizada permitió a los equipos de Innovaccer versionar e implementar actualizaciones rápidas de forma segura en todas las aplicaciones, lo que garantizó un comportamiento coherente y fiable de la IA en los flujos de trabajo clínicos y operativos.

5. Soberanía de datos e implementaciones reguladas (GovCloud)

Para los casos de uso de atención médica sensibles al cumplimiento, Innovaccer necesitaba una infraestructura GenAI que pudiera funcionar completamente dentro de entornos soberanos y regulados. TrueFoundry se implementó en AWS GovCloud (EE. UU.), lo que permitió a Innovaccer ejecutar las cargas de trabajo de GenAI en regiones diseñadas para cumplir con requisitos estrictos de residencia de datos, control de acceso y auditoría.

Esto permite a Innovaccer utilizar la misma puerta de enlace de IA y capa de orquestación para cargas de trabajo con alto contenido de PHI alineadas con la HIPAA, al tiempo que garantiza que los datos de salud confidenciales se mantengan dentro de los límites soberanos y los marcos de cumplimiento aprobados.

Impacto en la respuesta de la infraestructura y la orquestación de escalamiento

1. Preparación acelerada del servicio y reducción de la latencia

La implementación de TrueFoundry (TF) introdujo un ciclo de vida más determinista para la implementación de modelos. En la evaluación comparativa del rendimiento, el cronograma «desde el punto de activación hasta la fase operativa» se redujo a un plazo uniforme Ventana de ~ 5 minutos, que representa un Optimización del 37,5% con respecto a las líneas de base de infraestructura anteriores.

  • Velocidad de aprovisionamiento: El intervalo desde la designación de las cápsulas hasta la inicialización del contenedor se estabilizó aproximadamente 2 minutos
  • Telemetría integrada: A diferencia de los sistemas antiguos, en los que los eventos de escalado deben inferirse de flujos de registro externos, TF proporciona una visibilidad nativa a nivel de plataforma del estado de implementación. Esto elimina la «brecha de observabilidad» durante los períodos críticos de escalamiento.

2. Elasticidad centrada en la solicitud (escalado basado en RPS)

El escalado estándar basado en recursos (CPU/RAM) a menudo va a la zaga de la naturaleza acelerada del tráfico de GenAI. Se adoptó Innovaccer Solicitud por segundoescalado basado en TrueFoundry como métrica de escalado principal para gestionar mejor el tráfico acelerado de GenAI

  • Manejo dinámico de cargas: Al escalar en RPS, la infraestructura se ajusta de forma preventiva a los picos de tráfico antes de que se produzca la saturación de la computación, lo que garantiza tiempos de respuesta de la API consistentes para los copilotos orientados a los proveedores.
  • Lógica de escalado híbrido: El sistema de escalado de TrueFoundry integra activadores basados en RPS con heurística basada en el tiempo. Esto permite períodos de «calentamiento» durante las horas de mayor actividad clínica, lo que garantiza una alta disponibilidad sin el despilfarro fiscal que supone un sobreaprovisionamiento ininterrumpido.

3. Plano unificado de gobierno y control

Al consolidar el tráfico de GenAI en la puerta de enlace centralizada de TrueFoundry, Innovaccer estableció el «equilibrio» técnico requerido para las operaciones de atención médica empresarial:

  • Trazabilidad programática: Se puede acceder a las métricas de comportamiento y rendimiento de escalado a través de una API y una interfaz de usuario unificadas, lo que permite la auditoría automatizada del estado del sistema.
  • Supervisión fiscal: La administración centralizada permite un seguimiento granular de los costos en distintos proveedores de modelos, lo que garantiza que los flujos de trabajo administrativos y clínicos se mantengan dentro de los límites presupuestarios sin intervención manual.

4. Valor de plataforma observado

La asociación destacó varias ventajas de la plataforma basada en Kubernetes de TrueFoundry:

  • Configuración rápida de la infraestructura: La configuración del plano de control y procesamiento de Azure se completó en un día.
  • Experiencia de desarrollador: El científico de datos que dirigió la contratación aprendió rápidamente la plataforma y ejecutó de forma independiente los flujos de trabajo, como la implementación y el escalado automático. Entre las más destacadas destacaron funciones como el control de versiones de los sistemas de archivos, el almacenamiento en caché de modelos, las visualizaciones en tiempo de ejecución durante las compilaciones y el escalado automático basado en RPS.
  • Mejor observabilidad: TrueFoundry expone los registros, las métricas y los eventos de Kubernetes directamente, lo que proporciona una capacidad de depuración más profunda en comparación con la experiencia gestionada más opaca de las plataformas de alojamiento de modelos alternativos.
  • GPU fraccionadas e instancias puntuales: La plataforma admite la asignación fraccionada de GPU y detecta instancias en todos los flujos de trabajo, lo que añade más palancas para la optimización de costos.
  • Modelo de costes: Si bien SageMaker añade un margen de beneficio de aproximadamente un 25% sobre el precio de las instancias, TrueFoundry utiliza Kubernetes además de las instancias sin procesar, lo que le permite transferir los ahorros en infraestructura a los usuarios. El documento señala que los clientes han conseguido un ahorro de costes de al menos un 30% en relación con SageMaker, caracterizando la posible ventaja de costes de la plataforma.

Resultados hasta ahora

Gracias a las iniciativas combinadas de AI Gateway y DLoPS, Innovaccer ha logrado:
  • GenAI a escala de producción en toda la plataforma de atención médica: Aproximadamente 17 millones de solicitudes de inferencia mensuales y más de 37 mil millones de tokens (aproximadamente 34 000 millones de entradas, 3,4 B de salida) se envían a través de una única puerta de enlace de IA que abarca más de 40 modelos y más de 25 aplicaciones de atención médica. Esta escala refleja la integración de GenAI en los flujos de trabajo principales, como el resumen clínico, la identificación de las carencias asistenciales, la estratificación de riesgos, el soporte de codificación y la inteligencia operativa, y no en los proyectos piloto aislados.

  • Observabilidad y gobernanza de costos a nivel de la atención médica: Todo el tráfico de LLM ahora fluye a través de un plano de control unificado con métricas de uso, latencia (tiempo hasta el primer token, latencia entre tokens) y costos integradas directamente en la pila Grafana de Innovaccer. Esto permite la supervisión centralizada de los equipos, los entornos y los proveedores de modelos en entornos regulados y con un alto nivel de PHI.

  • Resiliencia durante la inestabilidad del proveedor: Durante las elevadas tasas de error de OpenAI, el tráfico se redirigía automáticamente a Azure mediante reglas de respaldo preconfiguradas, lo que mantenía la continuidad de las aplicaciones sanitarias dependientes sin necesidad de realizar cambios en la capa de aplicación.

  • Escalado automático más rápido y transparente para cargas de trabajo de aprendizaje automático: La evaluación comparativa con plataformas de alojamiento de modelos alternativos mostró que el tiempo de activación y operación del escalado automático se redujo de aproximadamente 8 minutos a aproximadamente 5 minutos (un 37,5% más rápido), con una mayor visibilidad a nivel de plataforma de los eventos de escalado y los estados de implementación.

  • Preparación para el despliegue regulada: La implementación de TrueFoundry en AWS GovCloud permite a Innovaccer operar las cargas de trabajo de GenAI en entornos soberanos y sensibles al cumplimiento, al tiempo que utiliza el mismo marco de gobierno y orquestación.