Wie Innovaccer GenAI zentralisierte und den Einsatz von Deep Learning mit Truefoundry beschleunigte

Zusammenfassung

Innovaccer ist eine Healthcare-Intelligence-Cloud, die in stark regulierten Umgebungen rund um geschützte Gesundheitsinformationen (PHI) betrieben wird. Innovaccer nutzt KI, um die klinische Effizienz, das Pflegemanagement und die operative Entscheidungsfindung auf seiner gesamten Gesundheitsplattform zu verbessern. KI unterstützt Anwendungsfälle wie klinische Zusammenfassungen, Identifizierung von Versorgungslücken, Risikostratifizierung, Qualitäts- und Codierungsunterstützung sowie Einblicke in Gesundheitsdaten in natürlicher Sprache und arbeitet gleichzeitig in PHI-lastigen, regulierten Umgebungen.

Im Zuge der Einführung von GenAI in klinischen und betrieblichen Anwendungen benötigte Innovaccer eine zentrale Methode zur Steuerung, Überwachung und Skalierung der Nutzung, ohne den Zugriff zu fragmentieren oder die Einhaltung der Vorschriften zu gefährden. Dabei traten Herausforderungen im Zusammenhang mit PII-sicherer Beobachtbarkeit, Überprüfbarkeit, Modellzugriffskontrolle und Kostenkontrolle über mehrere LLMs und Einbettungsmodelle hinweg zutage.

Durch die Partnerschaft mit TrueFoundry standardisierte Innovaccer den gesamten GenAI-Verkehr über das AI Gateway von TrueFoundry und etablierte so eine einheitliche Kontrollebene für die Verwaltung im Gesundheitswesen in großem Maßstab. Heute leitet Innovaccer ~17 Millionen Inferenzanfragen pro Monat weiter und verarbeitet dabei ~34 Milliarden Eingangstoken und 3,4 Milliarden Output-Token in über 40 Modellen — darunter OpenAI, AWS Bedrock, Gemini und selbst gehostete Bereitstellungen —, die mehr als 25 Anwendungen im Gesundheitswesen unterstützen. Innovaccer ist standardmäßig mit zentralisierter Protokollierung, PII-Bearbeitung, Kostenkontrolle und Durchsetzung von Richtlinien ausgestattet und hat GENai tief in die Produktionsabläufe integriert und gleichzeitig die unternehmensweite Beobachtbarkeit, Compliance und Governance aller wichtigen LLM-Hyperscaler gewährleistet.

Im Rahmen eines gezielten Projekts wurde TrueFoundry mit Hosting-Plattformen anderer Modelle verglichen. Dabei wurde festgestellt, dass die Autoscaling-Zeit von ~8 Minuten auf ~5 Minuten reduziert wurde (ein Rückgang um 37,5%). Außerdem wurde die Infrastruktur schneller eingerichtet, die Beobachtbarkeit verbessert und die Kostenmerkmale verbessert.

Über Innovaccer

Innovaccer aktiviert den Fluss von Gesundheitsdaten und ermöglicht es Anbietern, Kostenträgern und Regierungsorganisationen, intelligente und vernetzte Erlebnisse bereitzustellen, die die Gesundheitsergebnisse verbessern. Die Healthcare Intelligence Cloud versetzt alle an der Patientenreise Beteiligten in die Lage, fragmentierte Daten in proaktive, koordinierte Maßnahmen umzuwandeln, die die Versorgungsqualität verbessern und die betriebliche Leistung steigern. Führende Organisationen im Gesundheitswesen wie Orlando Health, Adventist Healthcare und Banner Health vertrauen darauf, dass Innovaccer ein intelligentes System in ihre bestehende Infrastruktur integriert und so den menschlichen Aspekt im Gesundheitswesen erweitert. Innovaccer verwaltet Patientendaten von Millionen von Patienten mit Milliarden von Datenpunkten.

Kontext

„Powering Innovaccer's AI/ML Innovation“ ist nicht nur ein Slogan, er spiegelt wider, wie Innovaccer KI in Gesundheitsorganisationen skaliert, wobei TrueFoundry der unterstützende Infrastrukturpartner ist. Innovaccer automatisiert die Wissensarbeit in den Bereichen RCM, Patientenzugang, Co-Piloten von Anbietern, klinischer Kodierung und Datenmapping. Um dies in großem Umfang zu unterstützen, verfolgt Innovaccer eine Strategie mit mehreren Modellen, die Azure, AWS Bedrock, OpenAI und selbst gehostete Modelle umfasst. TrueFoundry bildet das Rückgrat für Governance, Orchestrierung und Bereitstellung.

Um dieses Wachstum aufrechtzuerhalten, benötigte Innovaccer:

EIN einziger KI-Einstiegspunkt zum Experimentieren und Produzieren.
Enge Beobachtbarkeit zu Token-Nutzung, Leistung und Kosten.
Self-Service-Modellhosting mit starker Autoskalierung und ohne DevOps-Engpass.
Ein Weg zu Verwaltung von PHI/PII-sensitiven Workloads und zukünftige agentische Anwendungsfälle.

Die Herausforderung

Vor der Zentralisierung auf TrueFoundry nutzte die generative KI-Infrastruktur von Innovaccer direkte,
Punkt-zu-Punkt-Verbindungen zwischen Produktions-Apps und verschiedenen Anbietern wie OpenAI, Azure,
und Bedrock.

Dieser fragmentierte Ansatz funktionierte zwar, verfügte jedoch nicht über ein einheitliches Gateway, das für die im Gesundheitswesen unabdingbare Rückverfolgbarkeit und Finanzaufsicht auf hohem Niveau erforderlich war. Die Konsolidierung dieser Arbeitsabläufe war ein strategischer Schritt, um die für Unternehmen erforderliche Zuverlässigkeit zu gewährleisten
klinische Operationen.

Die Entwicklung von GenAI in Gesundheitsqualität

Durch die Zentralisierung seiner GenAI-Infrastruktur über TrueFoundry wechselte Innovaccer von einem fragmentierten Modell zu einem einheitliches KI-Backbone konzipiert für die Komplexität des Gesundheitswesens.

Zuverlässigkeit und patientenorientierte Arbeitsabläufe: Durch die Implementierung zentralisierter Fallback-Mechanismen und Datenverkehrskontrolle stellen wir sicher, dass wichtige Verwaltungsabläufe — auf die sich Anbieter und Patienten verlassen — auch bei Ausfällen des Anbieters belastbar und leistungsfähig bleiben.
Rückverfolgbarkeit und klinische Konformität: Eine zentrale Ebene bietet die strengen Prüfprotokolle und die Rückverfolgbarkeit, die für die Datenverwaltung im Gesundheitswesen unerlässlich sind. Innovaccer kann jetzt überwachen, wie Modelle mit sensiblen Daten interagieren, und so sicherstellen, dass jeder Output nachvollziehbar ist.
Skalierung und Kostenmanagement: Die Verwaltung der Servicekosten ist für die Effizienz des Gesundheitswesens von entscheidender Bedeutung. Dieses zentralisierte Framework ermöglicht es Innovaccer, die Kosten auf der gesamten Plattform zu messen und zu optimieren und so sicherzustellen, dass die Skalierung der KI nicht zu einem unvorhersehbaren Verwaltungsaufwand führt.
Geschwindigkeit für Entwickler durch Konfiguration: Mithilfe der Orchestrierungsschicht von TrueFoundry entkoppelte Innovaccer die Anwendungslogik vom zugrunde liegenden Modell und beschleunigte die Wertschöpfung. Entwicklungsteams können nun verschiedene Basismodelle ausschließlich über die Konfiguration testen und zwischen ihnen wechseln, ohne dass Codeänderungen erforderlich sind. Diese „steckbare“ Architektur ermöglicht es uns, die neuesten klinischen LLMs sofort einzusetzen, sobald sie verfügbar sind.

Für Behandlungsteams, Ärzte und Patienten, die sich auf diese Anwendungen verlassen, um zeitnahe Erkenntnisse und Entscheidungsunterstützung zu erhalten, stellte dies potenzielle Risiken in Bezug auf die Konsistenz der Erfahrungen, die Verfügbarkeit von Dienstleistungen in Spitzenzeiten und das Vertrauen in den Umgang mit sensiblen Gesundheitsdaten dar.

Darüber hinaus verglich TrueFoundry seine Erfahrung mit Bereitstellung und Autoscaling mit Hosting-Plattformen mit alternativen Modellen beliebter Cloud-Anbieter. Das Unternehmen benötigte eine manuelle Konfiguration für die Anzahl der Aufrufe, verließ sich auf das protokollbasierte Tracking über CloudWatch, um den Zeitpunkt der automatischen Skalierung zu verstehen, und fügte einen Aufschlag von ~ 25% auf die Instance-Preise hinzu. Der Einblick in Ereignisse auf Pod-Ebene und das Autoscaling-Verhalten waren begrenzt, wodurch das Tuning langsamer und weniger transparent wurde. 

Lösung: TrueFoundry als zentrale KI-Orchestrierungsplattform

TrueFoundry wurde als DevX- und Orchestrierungsebene für beide übernommen LLM-Verkehr (AI Gateway) und KI-Bereitstellungsplattform.

1. AI Gateway: Eine einzige Steuerungsebene für LLMs

Durchschnittlich in einem Monat bedient das AI Gateway:

~17 Millionen Inferenzanfragen.
~34 Milliarden Eingabe-Token und 3,4 Milliarden Output-Token.
Über 25 Anwendungen im Gesundheitswesen sind integriert.
~40 verschiedene Modelle, umfasst OpenAI, AWS Bedrock, Azure, Gemini und selbst gehostetes Llama.

Das Gateway bietet:

Zentrales Routing anbieter- und modellübergreifend.
Einheitliche Metriken wie die Zeit bis zum ersten Token und die Latenz zwischen den Token.
Token- und Kostenverfolgung, aufgeschlüsselt nach Teams, Benutzern, Umgebungen und Modellen.
OpenTelemetry-kompatible Metriken, die direkt in die bestehenden von Innovaccer einfließen Grafana-Stapel für Dashboards und Benachrichtigungen.

Dieses zentralisierte KI-Gateway verwandelte die LLM-Nutzung von Innovaccer von fragmentierten Integrationen pro App in eine einzelne, beobachtbare Kontrollebene.

2. Zuverlässigkeit: Schutz der Arbeitsabläufe in Klinik und Versorgung durch zentrale Fallbacks

Innovaccer verwendet GenAI in den Bereichen Pflegemanagement, klinische Intelligenz und betriebliche Arbeitsabläufe, um Ärzte, Pflegemanager und Teams für Bevölkerungsgesundheit zu unterstützen. Diese Anwendungen enthalten Patientenzusammenfassungen, Risikoinformationen, Versorgungslücken und die nächstbesten Maßnahmen zum Zeitpunkt der Entscheidungsfindung

Am 10. Juni, als OpenAI erhöhte Fehlerraten verzeichnete, leitete das AI Gateway von Innovaccer den Datenverkehr auf der Grundlage vorkonfigurierter Fallback-Regeln automatisch an Azure um. Dadurch wurde sichergestellt, dass die Pflegeteams weiterhin zeitnahe und unterbrechungsfreie Einblicke erhielten, auch wenn die Anbieter des zugrunde liegenden Modells von Instabilität betroffen waren.

Durch die zentrale Konfiguration des Failovers am AI Gateway und nicht innerhalb einzelner Anwendungen stellte Innovaccer eine konsistente Zuverlässigkeit auf seiner gesamten Gesundheitsplattform sicher. Dieser Ansatz reduzierte die Variabilität in Bezug auf die Erfahrungen von Klinikern und Pflegeteams und ermöglichte es den Produktteams, sich auf die Verbesserung der Arbeitsabläufe in der Versorgung zu konzentrieren, anstatt sich mit anbieterspezifischen Ausfallszenarien zu befassen.

3. Schneller Zugriff auf erweiterte KI-Funktionen

TrueFoundry beschleunigte auch den Zugriff auf neuere OpenAI-APIs über das Gateway:

Antworten-API: Unterstützung von Workflows zur Verwendung von Tools wie der Internetsuche.
Codex-Integration: Freischaltung von Funktionen zur Codegenerierung.
OpenAI-Stapel: Unterstützung asynchroner Inferenz-Workflows mit hohem Volumen.

Anstatt dass jedes Innovaccer-Team diese Funktionen separat implementiert, werden sie zentral über das AI Gateway bereitgestellt, was eine konsistente Steuerung und Überwachung ermöglicht.

4. Schnellere Workflows für klinische Intelligenz mit latenzbewusstem Routing

GenAI von Innovaccer wird im Pflegemanagement und in Workflows für klinische Intelligenz eingesetzt, wo sich die Reaktionszeit direkt auf die Benutzerfreundlichkeit für Ärzte und Pflegeteams auswirkt. Um dies zu unterstützen, implementierte TrueFoundry ein latenzbewusstes Routing am AI Gateway, das Live-Traffic dynamisch zum schnellsten verfügbaren Modellendpunkt weiterleitet, ohne dass Änderungen an der Anwendung erforderlich sind.
Darüber hinaus ermöglichte das zentralisierte Prompt-Management den Innovaccer-Teams, sichere Versionen und schnelle Updates für alle Anwendungen bereitzustellen, wodurch ein konsistentes und zuverlässiges KI-Verhalten in klinischen und betrieblichen Arbeitsabläufen gewährleistet wurde.

5. Datensouveränität und regulierte Bereitstellungen (GovCloud)

Für Compliance-sensible Anwendungsfälle im Gesundheitswesen benötigte Innovaccer eine GenAI-Infrastruktur, die vollständig in regulierten, souveränen Umgebungen betrieben werden konnte. TrueFoundry wurde in AWS GovCloud (USA) bereitgestellt und ermöglichte es Innovaccer, GEnAI-Workloads in Regionen auszuführen, die für strenge Anforderungen an Datenresidenz, Zugriffskontrolle und Audits konzipiert sind.

Auf diese Weise kann Innovaccer dasselbe KI-Gateway und dieselbe Orchestrierungsschicht für HIPAA-orientierte, PHI-lastige Workloads verwenden und gleichzeitig sicherstellen, dass sensible Gesundheitsdaten innerhalb der genehmigten behördlichen Grenzen und Compliance-Rahmenbedingungen bleiben.

Auswirkungen auf die Reaktion der Infrastruktur und die Skalierungsorchestrierung

1. Beschleunigte Servicebereitschaft und Latenzreduzierung

Die Implementierung von TrueFoundry (TF) führte einen deterministischeren Lebenszyklus für die Modellbereitstellung ein. Beim Leistungsbenchmarking wurde der Zeitplan vom „Trigger bis zur Inbetriebnahme“ auf einen konsistenten Wert reduziert ~5-Minuten-Fenster, stellvertretend für 37,5% Optimierung gegenüber früheren Infrastrukturbasislinien.

Geschwindigkeit der Bereitstellung: Das Intervall von der Pod-Nominierung bis zur Container-Initialisierung wurde bei ca. 2 Minuten.
Integrierte Telemetrie: Im Gegensatz zu älteren Systemen, bei denen Skalierungsereignisse aus externen Logstreams abgeleitet werden müssen, bietet TF einen nativen Einblick in den Bereitstellungsstatus auf Plattformebene. Dadurch wird die „Beobachtbarkeitslücke“ in kritischen Skalierungsfenstern beseitigt.

2. Anforderungsorientierte Elastizität (RPS-basierte Skalierung)

Die standardmäßige ressourcenbasierte Skalierung (CPU/RAM) hinkt oft der überlasteten Natur des GenAI-Datenverkehrs hinterher. Innovaccer adoptiert Anfrage pro Sekundebasierte Skalierung durch TrueFoundry als primäre Skalierungsmetrik zur besseren Verarbeitung von überlastetem GenAI-Verkehr

Dynamisches Lasthandling: Durch die Skalierung auf RPS passt sich die Infrastruktur präventiv an Datenverkehrsspitzen an, bevor es zu einer Überlastung der Rechenleistung kommt, und gewährleistet so konsistente API-Reaktionszeiten für Copiloten mit Providerkontakt.
Hybride Skalierungslogik: Das Skalierungssystem von TrueFoundry integriert RPS-basierte Trigger mit zeitbasierte Heuristiken. Dies ermöglicht „Aufwärmphasen“ während der klinischen Spitzenzeiten und gewährleistet so eine hohe Verfügbarkeit ohne die finanzielle Verschwendung einer Überversorgung rund um die Uhr.

3. Einheitliche Führungs- und Kontrollebene

Durch die Konsolidierung des GenAI-Datenverkehrs auf dem zentralen Gateway von TrueFoundry stellte Innovaccer das technische „Gleichgewicht“ her, das für den Betrieb des Gesundheitswesens in Unternehmen erforderlich ist:

Programmatische Rückverfolgbarkeit: Skalierungsverhalten und Leistungskennzahlen sind über eine einheitliche API und Benutzeroberfläche zugänglich, was eine automatische Prüfung des Systemzustands ermöglicht.
Fiskalische Aufsicht: Die zentrale Verwaltung ermöglicht eine detaillierte Kostenverfolgung bei unterschiedlichen Modellanbietern und stellt sicher, dass die administrativen und klinischen Arbeitsabläufe ohne manuelles Eingreifen innerhalb der Budgetvorgaben bleiben.

4. Wert der Plattform beobachtet

Die Partnerschaft hob mehrere Vorteile der Kubernetes-basierten Plattform von TrueFoundry hervor:

Schneller Aufbau der Infrastruktur: Die Einrichtung der Azure-Steuerungs- und Rechenebene war innerhalb eines Tages abgeschlossen.
Erfahrung als Entwickler: Der Datenwissenschaftler, der das Projekt leitete, lernte schnell die Plattform kennen und führte selbstständig Workflows wie Bereitstellung und Autoscaling aus. Funktionen wie Dateisystem-Versionierung, Modell-Caching, Laufzeitvisualisierungen während der Builds und RPS-basiertes Autoscaling wurden als herausragend bezeichnet.
Bessere Beobachtbarkeit: TrueFoundry macht Logs, Metriken und Kubernetes-Ereignisse direkt verfügbar und bietet so eine tiefere Debugging-Fähigkeit als bei Hosting-Plattformen mit alternativen Modellen, die undurchsichtiger verwaltet werden.
Teilweise aufgeteilte GPUs und Spot-Instances: Die Plattform unterstützt fraktionierte GPU-Zuweisung und Spot-Instances in allen Workflows, wodurch weitere Hebel zur Kostenoptimierung hinzugefügt werden.
Kostenmodell: Während SageMaker einen Aufschlag von ~ 25% auf die Instance-Preise berechnet, verwendet TrueFoundry Kubernetes zusätzlich zu Raw-Instances, sodass Infrastruktureinsparungen an die Benutzer weitergegeben werden können. Das Dokument stellt fest, dass Kunden haben im Vergleich zu SageMaker mindestens 30% Kosteneinsparungen erzielt, das den potenziellen Kostenvorteil der Plattform charakterisiert.

Bisherige Ergebnisse

Durch die kombinierten Initiativen AI Gateway und DLOps hat Innovaccer Folgendes erreicht:

GenAI im Produktionsmaßstab auf der gesamten Gesundheitsplattform: ~17 Millionen monatliche Inferenzanfragen und über 37 Milliarden Token (~34 B Eingabe, 3,4 B Ausgabe) werden über ein einziges KI-Gateway weitergeleitet, das über 40 Modelle und mehr als 25 Anwendungen im Gesundheitswesen umfasst. Diese Skala spiegelt GenAI wider, das in zentrale Arbeitsabläufe wie klinische Zusammenfassung, Identifizierung von Versorgungslücken, Risikostratifizierung, Codierungsunterstützung und Betriebsinformationen eingebettet ist — und nicht in einzelne Pilotprojekte. 
Beobachtbarkeit und Kostenkontrolle auf Gesundheitsniveau: Der gesamte LLM-Verkehr fließt jetzt über eine einheitliche Steuerungsebene mit Token-Nutzung, Latenz (Time-to-First-Token, Latenz zwischen den Token) und Kostenmetriken, die direkt in den Grafana-Stack von Innovaccer integriert sind. Dies ermöglicht eine zentrale Überwachung von Teams, Umgebungen und Modellanbietern in PHI-lastigen, regulierten Umgebungen. 
Resilienz bei Instabilität des Anbieters: Bei erhöhten OpenAI-Fehlerraten wurde der Datenverkehr automatisch über vorkonfigurierte Fallback-Regeln an Azure umgeleitet, sodass die Kontinuität für abhängige Anwendungen im Gesundheitswesen gewahrt blieb, ohne dass Änderungen auf der Anwendungsebene erforderlich waren. 
Schnelleres und transparenteres Autoscaling für ML-Workloads: Ein Vergleich mit Hosting-Plattformen mit alternativen Modellen ergab, dass die Zeit für die automatische Skalierung vom Trigger bis zur Inbetriebnahme von ~8 Minuten auf ~5 Minuten (37,5% schneller) reduziert wurde, und dass Skalierungsereignisse und Bereitstellungsstatus auf Plattformebene besser einsehbar waren. 
Geregelte Einsatzbereitschaft: TrueFoundry, das in AWS GovCloud bereitgestellt wird, ermöglicht es Innovaccer, GenAI-Workloads in Compliance-sensiblen, souveränen Umgebungen zu betreiben und dabei dasselbe Governance- und Orchestrierungsframework zu verwenden.

Wie

Innovaccer zentralisierte GenAI und beschleunigte Deep-Learning-Bereitstellung mit

Zusammenfassung

Über Innovaccer

Kontext

Die Herausforderung

Die Entwicklung von GenAI in Gesundheitsqualität

Lösung: TrueFoundry als zentrale KI-Orchestrierungsplattform

1. AI Gateway: Eine einzige Steuerungsebene für LLMs

2. Zuverlässigkeit: Schutz der Arbeitsabläufe in Klinik und Versorgung durch zentrale Fallbacks

3. Schneller Zugriff auf erweiterte KI-Funktionen

4. Schnellere Workflows für klinische Intelligenz mit latenzbewusstem Routing

5. Datensouveränität und regulierte Bereitstellungen (GovCloud)

Auswirkungen auf die Reaktion der Infrastruktur und die Skalierungsorchestrierung

1. Beschleunigte Servicebereitschaft und Latenzreduzierung

2. Anforderungsorientierte Elastizität (RPS-basierte Skalierung)

3. Einheitliche Führungs- und Kontrollebene

4. Wert der Plattform beobachtet

Bisherige Ergebnisse

Resources

Why TrueFoundry?

Wie

Innovaccer zentralisierte GenAI und beschleunigte Deep-Learning-Bereitstellung mit

Zusammenfassung

Über Innovaccer

Kontext

Die Herausforderung

Die Entwicklung von GenAI in Gesundheitsqualität

Lösung: TrueFoundry als zentrale KI-Orchestrierungsplattform

1. AI Gateway: Eine einzige Steuerungsebene für LLMs

2. Zuverlässigkeit: Schutz der Arbeitsabläufe in Klinik und Versorgung durch zentrale Fallbacks

3. Schneller Zugriff auf erweiterte KI-Funktionen

4. Schnellere Workflows für klinische Intelligenz mit latenzbewusstem Routing

5. Datensouveränität und regulierte Bereitstellungen (GovCloud)

Auswirkungen auf die Reaktion der Infrastruktur und die Skalierungsorchestrierung

1. Beschleunigte Servicebereitschaft und Latenzreduzierung

2. Anforderungsorientierte Elastizität (RPS-basierte Skalierung)

3. Einheitliche Führungs- und Kontrollebene

4. Wert der Plattform beobachtet

Bisherige Ergebnisse

Resources

Why TrueFoundry?

Abonnieren Sie unseren Newsletter