Wie Aviva Credito die LLM-Steuerung mit TrueFoundry AI Gateway zentralisierte

Zusammenfassung

Aviva Credito ist ein in Mexiko ansässiger Kreditgeber, der sich darauf konzentriert, den Zugang zu Krediten zu erweitern. Um Kunden zu erreichen, die traditionelle Banken und Online-Fintechs nur schwer bedienen können, betreibt Aviva kleine physische Kioske, die durch ein automatisiertes Onboarding-Erlebnis unterstützt werden, bei dem das Tablet an erster Stelle steht. So wird Vertrauen aufgebaut und gleichzeitig das Betrugsrisiko reduziert.

Als die KI-Initiativen von Aviva von Computer-Vision-Modellen bis hin zu produktionstauglichen Chatbots und Workflows zur Dokumentenverifizierung wuchsen, stand das Team vor zwei wiederkehrenden Herausforderungen: (1) Bereitstellung und Betrieb von LLM-Diensten, ohne dass fundierte Kubernetes-Kenntnisse erforderlich sind, und (2) Verwaltung mehrerer LLM-Anbieter mit konsistenter Beobachtbarkeit, Kostenkontrolle und Agilität.

Durch den Einsatz des Deployment- und AI-Gateways von TrueFoundry ermöglichte Aviva jedem ML/KI-Ingenieur die unabhängige Bereitstellung von Produktionsservices, Observability über Azure- und GCP-Modellanbieter hinweg und schuf eine skalierbare Grundlage für Sicherheits- und Agentenworkflows.

AI technology icons connected to central AI block on circuit board with security and data symbols.

Green ring on white background, simple rounded square shape object.

Die Mission von Credito

Aviva hat es sich zur Aufgabe gemacht, unterversorgten Gemeinden in Mexiko den Zugang zu Krediten zu erleichtern. Das Modell von Aviva kombiniert physische Präsenz, kleine Kioske mit einem einzigen Mitarbeiter und sorgt gleichzeitig dafür, dass der gesamte Prozess mithilfe von Tablets automatisiert wird, um das Beste aus beiden Welten zu bieten: hohes Vertrauen und weniger Betrug bei gleichzeitiger Geschwindigkeit der Automatisierung.

Von Kundengesprächen bis hin zur Dokumentenverifizierung

Das KI-Team von Aviva baut und betreibt Produktionssysteme in folgenden Bereichen:

Chatbots: Mehrere Produktionsassistenten, unterstützt durch selbst gehostete/öffentliche Modelle, die sich in Richtung einer teambasierten Orchestrierung (und im Laufe der Zeit zu Standardmustern von Agent zu Agent) weiterentwickelt haben.
Dokument-KI: OCR- und LLM-Analyse für visuelle Dokumente sowie Validierungsabläufe für Adressnachweise, Identifikationsnachweise, Bankkontennachweise und Standortüberprüfungen.
Interaktionsintelligenz: Extrahieren strukturierter Signale aus Interviewskripten, Feedback-Nachrichten und transkribierten Sprachgesprächen.

Avivas erster wichtiger Wendepunkt ergab sich aus einer praktischen Notwendigkeit: der Einführung eines LLM-Modells zur Anerkennung der mexikanischen INE-Personalausweise. Das ML-Team konnte das Modell feintunen/bauen, aber um es zuverlässig zu versenden, war ein Einsatzpfad erforderlich, über den es noch nicht verfügte. Die ersten Versuche reichten von manuellen VM-basierten Bereitstellungen (langsam und fehleranfällig) bis hin zu verwalteten Diensten, die entweder keine GPU-Unterstützung hatten oder die nicht schnell bereitgestellt wurden. 

Die Bereitstellungserfahrung von TrueFoundry änderte das: Klare Logs und Observability-Sidecars deckten die Ursache für einen ausgefallenen Container auf, sodass das Team das Image reparieren und in weniger als einer Stunde erfolgreich bereitstellen konnte.

TrueFoundry Gateway architecture with TFY deployment, nodes, and model providers for observability and controls.

Plattformisierung von KI für Geschwindigkeit, Zuverlässigkeit und Governance

Sobald die ersten Implementierungen eingetroffen waren, entschied sich Aviva für eine plattformorientierte Denkweise: Jeder KI-Dienst sollte wiederholbar, leicht zu überwachen und einfach zwischen den Technikern verteilt werden können. TrueFoundry wurde zur Betriebsebene, die die Reibung in der Infrastruktur beseitigte und gleichzeitig bewährte Verfahren durchsetzte.

1. Von manuellen Bereitstellungen bis hin zur Self-Service-Produktion

Self-Service-Bereitstellungen für KI/ML-Techniker: Techniker können Dienste direkt bereitstellen und aktualisieren, ohne sich auf Plattformspezialisten verlassen zu müssen.
Schnelles Onboarding: Von neuen Ingenieuren wird erwartet, dass sie innerhalb der ersten Woche ein Update veröffentlichen oder ein Modell bereitstellen, wodurch eine enge Rückkopplungsschleife zwischen Code und Produktionsverhalten aufrechterhalten wird.
Betriebssicherheitssysteme: Plattformwarnungen und Empfehlungen (z. B. Ausfallsicherheit in Verfügbarkeitszonen und Ressourcengröße) leiten Teams zu bewährten Kubernetes-Methoden.

2. Das AI Gateway: Eine Schnittstelle für alle Modellanbieter

Als Aviva mehrere Basismodelle in Azure und Google Cloud einführte (wobei Modelle auf der Grundlage der Qualität der Aufgaben ausgewählt wurden), nahm die betriebliche Komplexität schnell zu: Unübersichtliche Geheimnisse, inkonsistente SDK-Integrationen und fragmentierte Beobachtbarkeit. Das AI Gateway von TrueFoundry bot eine einheitliche Steuerungsebene.

Unabhängigkeit des Anbieters: Anwendungen rufen eine konsistente Gateway-Schnittstelle auf, während Aviva Anbieter, Modelle und Versionen wechseln kann, ohne den Integrationscode neu schreiben zu müssen.
Zentralisierte Beobachtbarkeit: ein zentraler Ort zur Überwachung des Anforderungsvolumens, der Latenz, der Fehlermodi und der Kosten in allen Umgebungen.
Kosten- und Nutzungskontrolle: Nutzungsspitzen können über Gateway-Logs bis zum ursprünglichen Service zurückverfolgt werden, was eine schnelle Behebung ermöglicht.

White empty space with no objects or features visible in the area provided.

Empty white background with no visible objects or features present in the space.

TrueFoundry Gateway architecture diagram with chatbot, user, MCP servers, and logs object store integration.

3. Resilienz und Erfahrung für Entwickler: Fallbacks + MCP-Server

Zwei alltägliche Realitäten prägten die Einführung des Gateways bei Aviva: Die Latenzvariabilität zwischen den Anbietern und die Ergonomie der Tools für Entwickler.

Latenzbewusste Fallbacks: als die p99-Latenz bei einem Primäranbieter zunahm, führte Aviva ein automatisches Fallback-Modell ein, um das Kundenerlebnis stabil zu halten.
Persistente MCP-Verbindungen: Durch das Hosten des Atlassian MCP-Servers auf TrueFoundry verhinderte Aviva wiederholte Neuverbindungen in Cursor und erleichterte die tägliche Nutzung der Wissenstools.
Proaktive Roadmap: Aviva plant, die Leitplanken und Sicherheitskontrollen zu erweitern, da die Arbeitsabläufe der Agenten immer zentraler werden.

Auswirkung

Durch die Zentralisierung des gesamten LLM-Datenverkehrs über das AI Gateway von TrueFoundry erhielt Aviva eine durchgängige Transparenz und Kontrolle über einen schnell skalierbaren Multi-Cloud-KI-Stack. Über einen Zeitraum von 90 Tagen verwaltete das Team fast eine halbe Million Produktionsanfragen und über 1,8 Milliarden Eingabe-Token — mit vorhersehbaren Kosten, messbarer Zuverlässigkeit und deutlich verbesserter Entwicklungsgeschwindigkeit. Das Gateway ermöglichte die schnelle Erkennung von Kosten- und Latenzanomalien, Routing und Failover auf Modellebene ohne Anwendungsänderungen sowie eine gemeinsame Abstraktion, die es Ingenieuren ermöglichte, LLM-gestützte Dienste unabhängig voneinander bereitzustellen, zu aktualisieren und zu betreiben.

Wichtigste Ergebnisse in 90 Tagen

Über 10 Mio. Produktions-LLM-Anfragen werden über eine einzige Steuerungsebene weitergeleitet
Über 5 Mrd. Eingangstoken, über 210 Mio. Ausgabetokens, die zentral in Azure und GCP verfolgt werden
Effektive Ausfallrate von < 1%, mit detaillierter Aufschlüsselung nach Fehlertyp und Anbieter
P99-Latenzprobleme werden innerhalb von Minuten durch automatisiertes Modell-Fallback erkannt und behoben
Mehr als 7 Produktionsservices wurden in weniger als 20 Minuten aktualisiert, ohne Infrastrukturabhängigkeiten
Schnelleres Onboarding: Ingenieure verwenden LLMs sofort über eine gemeinsame Gateway-Abstraktion

Zitate von Kunden

Das AI Gateway von TrueFoundry gab uns einen zentralen Ort, an dem wir verwalten konnten, wie wir LLMs in Azure und GCP verwenden. Wir können Kosten- und Latenzprobleme schnell erkennen, sie auf bestimmte Dienste zurückführen und zwischen Modellen wechseln, ohne den Anwendungscode zu berühren.

Matt, Aviva

Es ist eine mächtige Abstraktion. Es spart Zeit für alle und senkt die Wissensbarriere, die mit dem Einsatz von LLMs in der Produktion verbunden ist, erheblich

Enrique, Aviva

Purple and gray gradient background with curved lines on either side.

GenAI infra- einfach, schneller, günstiger

Mehr als 10 Fortune-500-Unternehmen vertrauen uns

Probiere es jetzt

Sprechen Sie mit Experten

Wie

Zentralisierte Kontrolle, Kosten und Geschwindigkeit für Multi-Cloud-LLMs mit

KI-Gateway

Zusammenfassung

Die Mission von Credito

Von Kundengesprächen bis hin zur Dokumentenverifizierung

Plattformisierung von KI für Geschwindigkeit, Zuverlässigkeit und Governance

1. Von manuellen Bereitstellungen bis hin zur Self-Service-Produktion

2. Das AI Gateway: Eine Schnittstelle für alle Modellanbieter

3. Resilienz und Erfahrung für Entwickler: Fallbacks + MCP-Server

Auswirkung

Wichtigste Ergebnisse in 90 Tagen

Zitate von Kunden

GenAI infra- einfach, schneller, günstiger

Resources

Why TrueFoundry?

Wie

Zentralisierte Kontrolle, Kosten und Geschwindigkeit für Multi-Cloud-LLMs mit

KI-Gateway

Zusammenfassung

Die Mission von Credito

Von Kundengesprächen bis hin zur Dokumentenverifizierung

Plattformisierung von KI für Geschwindigkeit, Zuverlässigkeit und Governance

1. Von manuellen Bereitstellungen bis hin zur Self-Service-Produktion

2. Das AI Gateway: Eine Schnittstelle für alle Modellanbieter

3. Resilienz und Erfahrung für Entwickler: Fallbacks + MCP-Server

Auswirkung

Wichtigste Ergebnisse in 90 Tagen

Zitate von Kunden

GenAI infra- einfach, schneller, günstiger

Resources

Why TrueFoundry?

Abonnieren Sie unseren Newsletter