Comment Aviva Credito a centralisé le contrôle LLM avec TrueFoundry AI Gateway

Résumé

Aviva Credito est un prêteur basé au Mexique qui se concentre sur l'élargissement de l'accès au crédit. Pour atteindre les clients que les banques traditionnelles et les entreprises de technologie financière entièrement en ligne ont du mal à servir, Aviva gère de petites bornes physiques soutenues par une expérience d'intégration automatisée sur tablette, renforçant ainsi la confiance tout en réduisant les risques de fraude.

Au fur et à mesure que les initiatives d'intelligence artificielle d'Aviva se développaient, passant des modèles de vision par ordinateur aux chatbots de production et aux flux de travail de vérification des documents, l'équipe a dû faire face à deux défis récurrents : (1) déployer et exploiter des services LLM sans nécessiter une expertise approfondie de Kubernetes, et (2) gérer plusieurs fournisseurs LLM avec une observabilité, un contrôle des coûts et une agilité cohérents.

En utilisant la passerelle de déploiement et d'intelligence artificielle de TrueFoundry, Aviva a permis à chaque ingénieur ML/AI de fournir des services de production de manière indépendante, d'assurer l'observabilité entre les fournisseurs de modèles Azure et GCP, et a créé une base évolutive pour la sécurité et les flux de travail agentiques.

AI technology icons connected to central AI block on circuit board with security and data symbols.

Green ring on white background, simple rounded square shape object.

Mission de Credito

La mission d'Aviva est d'améliorer l'accès au crédit pour les communautés mal desservies du Mexique. Le modèle d'Aviva combine une présence physique, de petites bornes avec un seul employé, tout en automatisant l'ensemble du processus via des tablettes pour offrir le meilleur des deux mondes : une confiance élevée et une réduction de la fraude, avec la rapidité de l'automatisation.

Des conversations avec les clients à la vérification des documents

L'équipe d'intelligence artificielle d'Aviva construit et exploite des systèmes de production dans les domaines suivants :

Chatbots : Plusieurs assistants de production soutenus par des modèles auto-hébergés ou publics, évoluant vers une orchestration par équipes (et des modèles standard d'agent à agent au fil du temps).
Document AI : Analyse OCR + LLM pour les documents visuels, ainsi que des flux de validation pour les preuves d'adresse, les preuves d'identification, les preuves de comptes bancaires et les contrôles de localisation.
Intelligence des interactions : Extraire des signaux structurés à partir de scripts d'entretien, de messages de feedback et de conversations vocales transcrites.

Le premier point d'inflexion majeur d'Aviva est dû à un besoin pratique : le déploiement d'un modèle LLM pour reconnaître les cartes d'identité INE du Mexique. L'équipe ML a pu peaufiner et construire le modèle, mais l'expédier de manière fiable a nécessité un chemin opérationnel qu'elle ne connaissait pas encore. Les premières tentatives allaient de déploiements manuels basés sur des machines virtuelles (lents et sujets aux erreurs) à des services gérés qui ne prenaient pas en charge le GPU ou ne parvenaient pas à être fournis rapidement. 

L'expérience de déploiement de TrueFoundry a changé la donne : des journaux clairs et des sidecars d'observabilité ont révélé la cause première d'un conteneur défaillant, ce qui a permis à l'équipe de corriger l'image et de réussir le déploiement en moins d'une heure.

TrueFoundry Gateway architecture with TFY deployment, nodes, and model providers for observability and controls.

Plateformisation de l'IA pour plus de rapidité, de fiabilité et de gouvernance

Une fois les premiers déploiements effectués, Aviva a adopté un état d'esprit axé sur la plateforme : rendre chaque service d'IA reproductible à déployer, facile à surveiller et simple à transférer entre les ingénieurs. TrueFoundry est devenue la couche opérationnelle qui a supprimé les frictions liées à l'infrastructure tout en appliquant les meilleures pratiques.

1. Des déploiements manuels à la production en libre-service

Déploiements en libre-service pour les ingénieurs en IA/ML : les ingénieurs peuvent déployer et mettre à jour les services directement, sans avoir à faire appel à des spécialistes de la plateforme.
Intégration rapide : les nouveaux ingénieurs sont censés publier une mise à jour ou déployer un modèle au cours de leur première semaine, tout en préservant une boucle de rétroaction étroite entre le code et le comportement de production.
Rails de sécurité opérationnelle : les avertissements et les recommandations de la plateforme (par exemple, la résilience des zones de disponibilité et le dimensionnement des ressources) orientent les équipes vers les meilleures pratiques de Kubernetes.

2. La passerelle IA : une interface unique pour les fournisseurs de modèles

Alors qu'Aviva a adopté plusieurs modèles de base dans Azure et Google Cloud (en choisissant des modèles en fonction de la qualité au niveau des tâches), la complexité opérationnelle s'est rapidement accrue : prolifération des secrets, intégrations de SDK incohérentes et observabilité fragmentée. La passerelle IA de TrueFoundry a fourni un plan de contrôle unifié.

Indépendance du fournisseur : les applications appellent une interface de passerelle cohérente, tandis qu'Aviva peut changer de fournisseur, de modèle et de version sans réécrire le code d'intégration.
Observabilité centralisée : un endroit unique pour surveiller le volume des demandes, la latence, les modes de défaillance et les coûts dans tous les environnements.
Contrôle des coûts et de l'utilisation : les pics d'utilisation peuvent être retracés jusqu'au service d'origine via les journaux de passerelle, ce qui permet de remédier rapidement.

White empty space with no objects or features visible in the area provided.

Empty white background with no visible objects or features present in the space.

TrueFoundry Gateway architecture diagram with chatbot, user, MCP servers, and logs object store integration.

3. Résilience et expérience des développeurs : solutions de secours et serveurs MCP

Deux réalités quotidiennes ont influencé l'adoption des passerelles par Aviva : la variabilité de la latence entre les fournisseurs et l'ergonomie des outils pour les développeurs.

Des solutions de rechange tenant compte de la latence : lorsque la latence de p99 a augmenté sur un fournisseur principal, Aviva a introduit un modèle de repli automatique pour garantir la stabilité des expériences destinées aux clients.
Connexions MCP persistantes : en hébergeant le serveur Atlassian MCP sur TrueFoundry, Aviva a évité les reconnexions répétées dans Cursor et a facilité l'utilisation quotidienne des outils de connaissances.
Feuille de route proactive : Aviva prévoit d'étendre les garde-corps et les contrôles de sécurité à mesure que les flux de travail des agences deviendront plus centralisés.

Incidence

En centralisant tout le trafic LLM via la passerelle IA de TrueFoundry, Aviva a acquis une visibilité et un contrôle de bout en bout sur une pile d'IA multicloud qui évolue rapidement. Sur une période de 90 jours, l'équipe a géré près d'un demi-million de demandes de production et plus de 1,8 milliard de jetons d'entrée avec un coût prévisible, une fiabilité mesurable et une rapidité d'ingénierie considérablement améliorée. La passerelle a permis la détection rapide des anomalies de coûts et de latence, le routage au niveau du modèle et le basculement sans modification des applications, et une abstraction partagée qui a permis aux ingénieurs de déployer, de mettre à niveau et d'exploiter des services alimentés par LLM de manière indépendante.

Principaux résultats en 90 jours

Plus de 10 millions de demandes LLM de production acheminées via un seul plan de contrôle
Plus de 5 milliards de jetons d'entrée, plus de 210 millions de jetons de sortie suivis de manière centralisée sur Azure et GCP
< 1 % de taux d'échec effectif, avec ventilation granulaire par type d'erreur et par fournisseur
Problèmes de latence du P99 détectés et atténués en quelques minutes grâce à un repli automatique du modèle
Plus de 7 services de production mis à niveau en moins de 20 minutes, sans dépendances d'infrastructure
Intégration plus rapide : les ingénieurs utilisent immédiatement les LLM via une abstraction de passerelle partagée

Citations des clients

La passerelle IA de TrueFoundry nous a permis de gérer en un seul endroit la façon dont nous utilisons les LLM dans Azure et GCP. Nous pouvons détecter rapidement les problèmes de coûts et de latence, les retracer jusqu'à des services spécifiques et changer de modèle sans toucher au code de l'application.

Matt, Aviva

C'est une puissante abstraction. Cela fait gagner du temps à tout le monde et réduit considérablement la barrière des connaissances pour commencer à utiliser les LLM en production

Enrique, Aviva

Purple and gray gradient background with curved lines on either side.

GenAI infra- simple, plus rapide et moins cher

Plus de 10 entreprises du Fortune 500 nous font confiance

Essayez-le dès maintenant

Parlez à des experts

Comment

Contrôle, coût et rapidité centralisés sur les LLM multicloud avec

Passerelle IA

Résumé

Mission de Credito

Des conversations avec les clients à la vérification des documents

Plateformisation de l'IA pour plus de rapidité, de fiabilité et de gouvernance

1. Des déploiements manuels à la production en libre-service

2. La passerelle IA : une interface unique pour les fournisseurs de modèles

3. Résilience et expérience des développeurs : solutions de secours et serveurs MCP

Incidence

Principaux résultats en 90 jours

Citations des clients

GenAI infra- simple, plus rapide et moins cher

Blogue

Comment

Contrôle, coût et rapidité centralisés sur les LLM multicloud avec

Passerelle IA

Résumé

Mission de Credito

Des conversations avec les clients à la vérification des documents

Plateformisation de l'IA pour plus de rapidité, de fiabilité et de gouvernance

1. Des déploiements manuels à la production en libre-service

2. La passerelle IA : une interface unique pour les fournisseurs de modèles

3. Résilience et expérience des développeurs : solutions de secours et serveurs MCP

Incidence

Principaux résultats en 90 jours

Citations des clients

GenAI infra- simple, plus rapide et moins cher

Blogue

Abonnez-vous à notre newsletter