Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

Estudo de Caso
Three blue gradient cubes with circuit lines and light blue tops on white background with patterns.

Resumo

A Innovaccer é uma nuvem de inteligência em saúde que opera em ambientes altamente regulamentados, relacionados a informações de saúde protegidas (PHI). A Innovaccer usa IA para melhorar a eficiência clínica, a gestão de cuidados e a tomada de decisões operacionais em toda a sua plataforma de saúde. A IA impulsiona casos de uso como sumarização clínica, identificação de lacunas de cuidados, estratificação de risco, suporte à qualidade e codificação, e insights em linguagem natural sobre dados de saúde, enquanto opera em ambientes regulamentados e com grande volume de PHI.

Nesta jornada de adoção de GenAI em aplicações clínicas e operacionais, a Innovaccer precisava de uma forma centralizada para governar, observar e escalar o uso, sem fragmentar o acesso ou comprometer a conformidade. Isso trouxe à tona desafios relacionados à observabilidade segura de PII, auditabilidade, controle de acesso a modelos e governança de custos em múltiplos LLMs e modelos de embedding.

Ao fazer parceria com a TrueFoundry, a Innovaccer padronizou todo o tráfego de GenAI através do AI Gateway da TrueFoundry, estabelecendo um plano de controle unificado para governança de nível de saúde em escala. Hoje, a Innovaccer roteia cerca de 17 milhões de solicitações de inferência por mês, processando cerca de 34 bilhões de tokens de entrada e 3,4 bilhões de tokens de saída em mais de 40 modelos — incluindo OpenAI, AWS Bedrock, Gemini e implantações auto-hospedadas — alimentando mais de 25 aplicativos de saúde. Com registro centralizado, redação de PII, controles de custo e aplicação de políticas incorporados por padrão, a Innovaccer incorporou a GenAI profundamente nos fluxos de trabalho de produção, mantendo observabilidade, conformidade e governança de nível empresarial em todos os principais hiperescaladores de LLM.

Um engajamento focado comparou a TrueFoundry com plataformas alternativas de hospedagem de modelos e mostrou que o tempo de autoescalabilidade foi reduzido de ~8 minutos para ~5 minutos (uma diminuição de 37,5%), além de uma configuração de infraestrutura mais rápida, observabilidade mais rica e melhores características de custo.

Sobre a Innovaccer

A Innovaccer ativa o fluxo de dados de saúde, capacitando provedores, pagadores e organizações governamentais a oferecer experiências inteligentes e conectadas que promovem resultados de saúde. A Healthcare Intelligence Cloud equipa cada parte interessada na jornada do paciente para transformar dados fragmentados em ações proativas e coordenadas que elevam a qualidade do atendimento e impulsionam o desempenho operacional. Organizações de saúde líderes como Orlando Health, Adventist Healthcare e Banner Health confiam na Innovaccer para integrar um sistema de inteligência em sua infraestrutura existente, estendendo o toque humano na saúde. A Innovaccer gerencia dados de milhões de pacientes com bilhões de pontos de dados.

Contexto

“Impulsionando a Inovação em IA/ML da Innovaccer” não é apenas um slogan, reflete como a Innovaccer está escalando a IA em organizações de saúde, com a TrueFoundry como parceira de infraestrutura habilitadora. A Innovaccer está automatizando o trabalho de conhecimento em RCM, acesso de pacientes, copilotos de provedores, codificação clínica e mapeamento de dados. Para apoiar isso em escala, a Innovaccer segue uma estratégia multimodelos que abrange Azure, AWS Bedrock, OpenAI e modelos auto-hospedados — com a TrueFoundry fornecendo a espinha dorsal de governança, orquestração e implantação.

Para sustentar esse crescimento, a Innovaccer precisava:

  • Um ponto de entrada único de IA para experimentação e produção.
  • Observabilidade rigorosa no uso de tokens, desempenho e custo.
  • Hospedagem de modelos em autosserviço com autoescalabilidade robusta e sem gargalos de DevOps.
  • Um caminho para gerenciar cargas de trabalho sensíveis a PHI/PII e futuros casos de uso de agentes.

O Desafio

Antes de centralizar no TrueFoundry, a infraestrutura de IA generativa da Innovaccer utilizava diretamente,
conexões ponto a ponto entre aplicações de produção e vários provedores como OpenAI, Azure,
e Bedrock. 

Embora funcional, essa abordagem fragmentada carecia do gateway unificado necessário para a rastreabilidade de alto nível e a supervisão fiscal essenciais em um ambiente de saúde. Consolidar esses fluxos de trabalho foi um movimento estratégico para garantir a confiabilidade exigida para soluções de nível empresarial
operações clínicas.

A Evolução da GenAI de Nível de Saúde

Ao centralizar sua infraestrutura de GenAI através da TrueFoundry, a Innovaccer passou de um modelo fragmentado para um espinha dorsal unificada de IA projetado para as complexidades da saúde.

  • Confiabilidade e Fluxos de Trabalho Centrados no Paciente: Ao implementar mecanismos de fallback centralizados e controle de tráfego, garantimos que os fluxos de trabalho administrativos críticos — dos quais provedores e pacientes dependem — permaneçam resilientes e com bom desempenho mesmo durante interrupções do provedor.
  • Rastreabilidade e Conformidade Clínica: Uma camada centralizada fornece os rigorosos rastros de auditoria e rastreabilidade essenciais para a governança de dados de saúde. A Innovaccer agora pode monitorar como os modelos interagem com dados sensíveis, garantindo que cada saída seja responsável.
  • Escala e Gestão de Custos: Gerenciar o custo de serviço é vital para a eficiência da saúde. Este framework centralizado permite à Innovaccer medir e otimizar custos em toda a plataforma, garantindo que o escalonamento da IA não leve a custos administrativos imprevisíveis.
  • Velocidade de Desenvolvimento por meio de Configuração: Usando a camada de orquestração da TrueFoundry, a Innovaccer desacoplou a lógica da aplicação do modelo subjacente e acelerou a entrega de valor. As equipes de desenvolvimento agora podem testar e alternar entre vários modelos de base puramente por meio de configuração, sem a necessidade de alterações no código. Essa arquitetura "plugável" nos permite adotar os LLMs clínicos mais recentes no momento em que estiverem disponíveis.

Para equipes de atendimento, médicos e pacientes que dependem dessas aplicações para insights oportunos e suporte à decisão, isso criou riscos potenciais em torno da consistência da experiência, disponibilidade do serviço durante momentos clínicos de pico e confiança na forma como os dados de saúde sensíveis eram tratados. 

Além disso, a TrueFoundry comparou sua experiência de implantação e autoescalonamento com plataformas alternativas de hospedagem de modelos em provedores de nuvem populares. Eles exigiam configuração manual para contagens de invocação, dependiam de rastreamento baseado em logs via CloudWatch para entender o tempo de autoescalonamento e adicionavam uma margem de ~25% sobre o preço da instância. A visibilidade dos eventos em nível de pod e do comportamento de autoescalonamento era limitada, tornando o ajuste mais lento e menos transparente.


Solução: TrueFoundry como a Plataforma Central de Orquestração de IA

A TrueFoundry foi adotada como a camada de DevX e orquestração para ambos Tráfego de LLM (Gateway de IA) e Plataforma de Implantação de IA.

1. Gateway de IA: Um Único Plano de Controle para LLMs

Em média, em um mês, o Gateway de IA atende:

  • ~17 milhões de requisições de inferência.
  • ~34 bilhões de tokens de entrada e 3,4 bilhões de tokens de saída.
  • Mais de 25 aplicativos de saúde integrados.
  • ~40 modelos diferentes, abrangendo OpenAI, AWS Bedrock, Azure, Gemini e Llama auto-hospedado.
O Gateway oferece:
  • Roteamento centralizado entre provedores e modelos.
  • Métricas unificadas como tempo para o primeiro token e latência entre tokens.
  • Rastreamento de tokens e custos detalhado por equipes, usuários, ambientes e modelos.
  • Métricas compatíveis com OpenTelemetry que fluem diretamente para o sistema existente da Innovaccer Pilha Grafana para painéis e alertas.
Este Gateway de IA centralizado transformou o uso de LLMs da Innovaccer de integrações fragmentadas por aplicativo em um plano de controle único e observável.

2. Confiabilidade: Protegendo Fluxos de Trabalho Clínicos e de Prestação de Cuidados com Fallbacks Centralizados

A Innovaccer utiliza GenAI em gerenciamento de cuidados, inteligência clínica e fluxos de trabalho operacionais que apoiam médicos, gerentes de cuidados e equipes de saúde populacional. Esses aplicativos apresentam resumos de pacientes, insights de risco, lacunas de cuidados e as próximas melhores ações no ponto de tomada de decisão.

Em 10 de junho, quando a OpenAI experimentou taxas de erro elevadas, o Gateway de IA da Innovaccer redirecionou automaticamente o tráfego para o Azure com base em regras de fallback pré-configuradas. Isso garantiu que as equipes de cuidados continuassem a receber insights oportunos sem interrupção, mesmo enquanto os provedores de modelos subjacentes experimentavam instabilidade.

Ao configurar o failover centralmente no Gateway de IA, em vez de em aplicativos individuais, a Innovaccer garantiu confiabilidade consistente em toda a sua plataforma de saúde. Essa abordagem reduziu a variabilidade na experiência de clínicos e equipes de cuidados, ao mesmo tempo em que permitiu que as equipes de produto se concentrassem em melhorar os fluxos de trabalho de cuidados, em vez de gerenciar cenários de falha específicos do provedor.

3. Acesso Rápido a Capacidades Avançadas de IA

O TrueFoundry também acelerou o acesso a APIs OpenAI mais recentes através do Gateway:

  • API de Respostas: permitindo fluxos de trabalho de uso de ferramentas, como pesquisa na internet.
  • Integração Codex: desbloqueando capacidades de geração de código.
  • OpenAI Batch: suportando fluxos de trabalho de inferência assíncronos e de alto volume.
Em vez de cada equipe da Innovaccer implementar essas capacidades separadamente, elas são expostas centralmente através do Gateway de IA, permitindo governança e monitoramento consistentes.

4. Fluxos de trabalho de inteligência clínica mais rápidos com roteamento sensível à latência

A GenAI da Innovaccer é utilizada em fluxos de trabalho de gerenciamento de cuidados e inteligência clínica, onde o tempo de resposta afeta diretamente a usabilidade para médicos e equipes de cuidados. Para apoiar isso, o TrueFoundry implementou roteamento sensível à latência no Gateway de IA, direcionando dinamicamente o tráfego em tempo real para o endpoint de modelo mais rápido disponível, sem exigir alterações nos aplicativos.
Além disso, o gerenciamento centralizado de prompts permitiu que as equipes da Innovaccer versionassem e implementassem atualizações de prompts com segurança em todos os aplicativos, garantindo um comportamento de IA consistente e confiável nos fluxos de trabalho clínicos e operacionais.

5. Soberania de Dados e Implantações Regulamentadas (GovCloud)

Para casos de uso de saúde sensíveis à conformidade, a Innovaccer precisava de uma infraestrutura de GenAI que pudesse operar inteiramente em ambientes regulamentados e soberanos. O TrueFoundry foi implementado no AWS GovCloud (US), permitindo que a Innovaccer executasse cargas de trabalho de GenAI em regiões projetadas para requisitos rigorosos de residência de dados, controle de acesso e auditoria.

Isso permite que a Innovaccer utilize o mesmo Gateway de IA e camada de orquestração para cargas de trabalho com grande volume de PHI e alinhadas com a HIPAA, garantindo que os dados de saúde sensíveis permaneçam dentro das fronteiras soberanas aprovadas e das estruturas de conformidade.

Impacto na Resposta da Infraestrutura e Orquestração de Escalonamento

1. Prontidão de Serviço Acelerada e Redução de Latência

A implementação do TrueFoundry (TF) introduziu um ciclo de vida mais determinístico para a implantação de modelos. Nos testes de desempenho, o tempo de "gatilho para operacional" foi reduzido para uma consistente janela de ~5 minutos, representando uma otimização de 37,5% em relação às linhas de base de infraestrutura anteriores.

  • Velocidade de Provisionamento: O intervalo desde a nomeação do pod até a inicialização do contêiner foi estabilizado em aproximadamente 2 minutos.
  • Telemetria Integrada: Ao contrário dos sistemas legados, onde os eventos de escalonamento devem ser inferidos de fluxos de log externos, o TF oferece visibilidade nativa, em nível de plataforma, do estado da implantação. Isso elimina a "lacuna de observabilidade" durante janelas críticas de escalonamento.

2. Elasticidade Centrada em Requisições (Escalonamento Baseado em RPS)

O escalonamento padrão baseado em recursos (CPU/RAM) muitas vezes fica aquém da natureza intermitente do tráfego de GenAI. A Innovaccer adotou Requisições Por Segundo-based scaling através da TrueFoundry como a métrica de escalonamento primária para lidar melhor com o tráfego intermitente de GenAI

  • Gerenciamento Dinâmico de Carga: Ao escalar com base em RPS, a infraestrutura ajusta-se preventivamente aos picos de tráfego antes que ocorra a saturação de computação, garantindo tempos de resposta de API consistentes para copilotos voltados para provedores.
  • Lógica de Escalonamento Híbrido: O sistema de escalonamento da TrueFoundry integra gatilhos baseados em RPS com heurísticas baseadas em tempo. Isso permite períodos de "aquecimento" durante as horas de pico clínico, garantindo alta disponibilidade sem o desperdício fiscal de superprovisionamento 24 horas por dia, 7 dias por semana.

3. Governança Unificada e Plano de Controle

Ao consolidar o tráfego de GenAI no gateway centralizado da TrueFoundry, a Innovaccer estabeleceu o "equilíbrio" técnico necessário para as operações de saúde corporativas:

  • Rastreabilidade Programática: O comportamento de escalonamento e as métricas de desempenho são acessíveis através de uma API e UI unificadas, permitindo a auditoria automatizada da saúde do sistema.
  • Supervisão Fiscal: O gerenciamento centralizado permite o rastreamento granular de custos entre diferentes provedores de modelos, garantindo que os fluxos de trabalho administrativos e clínicos permaneçam dentro dos limites orçamentários sem intervenção manual.

4. Valor da Plataforma Observado

A parceria destacou várias vantagens da plataforma baseada em Kubernetes da TrueFoundry:

  • Configuração rápida da infraestrutura: A configuração do plano de controle e computação do Azure foi concluída em um dia.
  • Experiência do desenvolvedor: O cientista de dados que liderava o projeto aprendeu rapidamente a plataforma e executou de forma independente fluxos de trabalho como implantação e autoescalonamento. Recursos como versionamento de sistema de arquivos, cache de modelo, visualizações de tempo de execução durante builds e autoescalonamento baseado em RPS foram destacados como pontos fortes.
  • Melhor observabilidade: A TrueFoundry expõe logs, métricas e eventos do Kubernetes diretamente, proporcionando uma capacidade de depuração mais profunda em comparação com a experiência gerenciada mais opaca de plataformas alternativas de hospedagem de modelos.
  • GPUs fracionadas e instâncias spot: A plataforma suporta alocação fracionada de GPU e instâncias spot em todos os fluxos de trabalho, adicionando mais alavancas para otimização de custos.
  • Modelo de custo: Enquanto o SageMaker adiciona uma margem de ~25% sobre o preço das instâncias, a TrueFoundry usa Kubernetes em instâncias brutas, permitindo-lhe repassar as economias de infraestrutura aos usuários. O documento observa que clientes observaram pelo menos 30% de economia de custos em relação ao SageMaker, caracterizando a potencial vantagem de custo da plataforma.

Resultados Até Agora

Das iniciativas combinadas de AI Gateway e DLOps, a Innovaccer alcançou:
  • GenAI em escala de produção em toda a plataforma de saúde: Aproximadamente 17 milhões de requisições de inferência mensais e mais de 37 bilhões de tokens (~34B de entrada, 3.4B de saída) roteados através de um único AI Gateway, abrangendo mais de 40 modelos e mais de 25 aplicações de saúde. Essa escala reflete a GenAI incorporada em fluxos de trabalho centrais, como sumarização clínica, identificação de lacunas de cuidado, estratificação de risco, suporte à codificação e inteligência operacional — não pilotos isolados.

  • Observabilidade de nível de saúde e governança de custos: Todo o tráfego de LLM agora flui através de um plano de controle unificado com métricas de uso de tokens, latência (tempo até o primeiro token, latência inter-token) e custo integradas diretamente na stack Grafana da Innovaccer. Isso permite uma supervisão centralizada entre equipes, ambientes e provedores de modelos em ambientes regulamentados e com grande volume de PHI.

  • Resiliência durante instabilidade do provedor: Durante taxas elevadas de erro da OpenAI, o tráfego foi automaticamente redirecionado para o Azure através de regras de fallback pré-configuradas, mantendo a continuidade para aplicações de saúde dependentes sem exigir alterações na camada de aplicação.

  • Autoescalonamento mais rápido e transparente para cargas de trabalho de ML: A comparação com plataformas alternativas de hospedagem de modelos mostrou que o tempo de acionamento para operação do autoescalonamento foi reduzido de aproximadamente 8 minutos para aproximadamente 5 minutos (37,5% mais rápido), com uma visibilidade mais aprofundada ao nível da plataforma sobre eventos de escalonamento e estados de implantação.

  • Prontidão para implantação regulamentada: O TrueFoundry implementado na AWS GovCloud permite que a Innovaccer opere cargas de trabalho de GenAI em ambientes soberanos e sensíveis à conformidade, utilizando o mesmo framework de governança e orquestração.