L'infrastructure cachée qui alimente l'IA évolutive des entreprises : Tesseract s'entretient avec Abhishek Choudhary
.webp)
Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Dans le dernier épisode de Tesseract Talks, l'animateur Oliver Rochford s'est entretenu avec Abhishek Choudhary, cofondateur et directeur technique de TrueFoundry, pour discuter de l'un des plus grands défis auxquels les entreprises sont confrontées aujourd'hui : comment concevoir des systèmes d'IA à la fois de pointe et sécurisés sans s'effondrer en raison de la complexité opérationnelle.
Qu'il s'agisse de l'étalement des modèles, des cadres d'agents, de la gouvernance et du contrôle des coûts, la conversation a clairement montré une chose : l'IA d'entreprise ne se limite plus à choisir le meilleur modèle. Il s'agit de construire la bonne infrastructure autour de celle-ci afin que les expériences puissent se transformer en systèmes de production fiables et évolutifs.
Voici les principaux thèmes et points de vue issus de la discussion.
La réalité du développement de l'IA dans un écosystème en évolution rapide
Les entreprises évoluent dans un environnement d'IA qui évolue à un rythme sans précédent. De nouveaux modèles et fournisseurs apparaissent constamment, et chacun présente des forces, des faiblesses et des API différentes. Dans le même temps, des protocoles tels que MCP (Model Context Protocol) continuent d'évoluer, tandis que les frameworks d'agents tels que LangGraph, Google ADK, les frameworks AWS et d'autres continuent de se multiplier.
Avant même de commencer à créer des applications pertinentes, les équipes doivent prendre des décisions fondamentales concernant les modèles à utiliser, la manière de gérer les invites et les versions, les frameworks sur lesquels les standardiser et la manière de déployer et de faire évoluer ce qu'elles créent. Et alors que les équipes commencent à se familiariser avec une seule pile, l'écosystème change à nouveau, avec agents vocaux et systèmes multimodaux en introduisant des exigences techniques entièrement nouvelles.
Pourquoi la plupart des projets d'IA rencontrent des difficultés en production
Comme l'explique Abhishek, « il est très facile de créer une démo qui fonctionne dans 80 % des cas. Le problème, c'est lorsque vous commencez à l'étendre. » Lorsque de véritables utilisateurs interagissent avec les systèmes de manière imprévisible, des cas extrêmes, des défaillances et des failles de fiabilité apparaissent rapidement. Une fois que les systèmes sont exposés à de vrais clients, des demandes inattendues et des cas extrêmes font rapidement apparaître des lacunes en matière de fiabilité.
La disponibilité et les performances des modèles constituent un autre obstacle majeur. « Si le fournisseur de modèles est en panne, votre application tombe en panne », a noté Abhishek. Même les principaux fournisseurs de modèles sont confrontés à des pannes, à des ralentissements et à des perturbations régionales. Lorsqu'une application dépend directement d'un seul terminal de modèle externe, toute instabilité se traduit immédiatement par une interruption de service pour le client, ce qui peut nuire à la confiance dans le produit.
Le coût est le troisième facteur critique. Contrairement aux logiciels traditionnels, les systèmes d'IA entraînent des coûts d'inférence continus qui évoluent directement en fonction de l'utilisation. Plusieurs entreprises ont d'abord adopté des modèles hébergés à source fermée pour des raisons de rapidité, pour se rendre compte plus tard que les coûts symboliques rendaient leurs cas d'utilisation économiquement insoutenables. En réponse, certaines entreprises investissent dans leur propre infrastructure GPU et peaufinent des modèles open source plus petits, préférant ainsi la commodité à court terme au contrôle des coûts à long terme et à un retour sur investissement prévisible.
Pourquoi les passerelles IA sont en train de devenir une infrastructure de base
Il y a un an, peu d'équipes parlaient des passerelles IA en tant que composant architectural distinct. Aujourd'hui, elles deviennent rapidement une pratique courante pour toute organisation soucieuse de gérer l'IA en production.
Selon Abhishek, les passerelles d'IA ont vu le jour pour résoudre trois problèmes fondamentaux des entreprises :
- Standardisation des API : une passerelle d'IA fait abstraction des différences entre les interfaces des fournisseurs de modèles, permettant aux équipes de changer de modèle ou de passer d'un modèle à l'autre sans avoir à réécrire le code de l'application.
- Sécurité et gestion des clés : grâce à une passerelle IA, les développeurs s'authentifient auprès des systèmes internes tandis que les informations d'identification des fournisseurs restent gérées, pivotées et protégées de manière centralisée.
- Gouvernance et observabilité : les garde-fous, les limites budgétaires, les journaux d'audit et les contrôles de conformité peuvent tous être appliqués de manière cohérente, au lieu de compter sur la mise en œuvre des meilleures pratiques par chaque équipe chargée de l'application. Dans certains cas, a noté Abhishek, une fois les agents validés, »la mise en production se fait littéralement en un clic.»
Pourquoi les passerelles IA ne sont pas simplement des passerelles API
Bien que le terme « passerelle » puisse sembler familier, les passerelles IA diffèrent considérablement des passerelles API traditionnelles. Les passerelles classiques ont été conçues autour de modèles requête-réponse de courte durée et de flux d'authentification simples. Ils mesurent également l'utilisation en termes de demandes, et non en fonction de l'économie basée sur les jetons qui influe sur les coûts de l'IA.
Les charges de travail liées à l'IA sont fondamentalement différentes. Les réponses sont souvent diffusées en continu, les interactions peuvent être longues et les systèmes vocaux introduisent des connexions persistantes et des contraintes en temps réel. En outre, de nombreux risques liés à l'IA sont sémantiques plutôt que syntaxiques, ce qui signifie que l'application des politiques doit opérer au niveau du sens, et pas seulement des mots clés ou des schémas.
Bien qu'il soit techniquement possible d'étendre les passerelles API existantes pour prendre en charge les cas d'utilisation de l'IA, passerelles IA spécialement conçues sont conçus dès le départ pour gérer ces modèles de manière native.
L'avenir : les passerelles IA en tant qu'orchestrateurs d'IA d'entreprise
À l'avenir, le rôle de la passerelle IA est susceptible de s'étendre bien au-delà du routage des demandes. Abhishek a décrit un futur où la passerelle deviendrait un registre central pour les modèles, les outils, les serveurs MCP et même les agents eux-mêmes.
Dans un tel environnement, les systèmes d'entreprise tels que Slack, GitHub, Confluence et les bases de données internes pourraient tous être exposés en tant que services d'IA détectables. Lorsque les utilisateurs posent des questions commerciales complexes, la passerelle peut orchestrer dynamiquement plusieurs agents et outils pour rassembler les réponses, au lieu de s'appuyer sur des applications à usage unique.
Au lieu de créer des fonctionnalités d'IA isolées, les organisations élaboreraient des flux de travail intelligents à partir de composants réutilisables. Cette approche reflète l'évolution des plateformes logicielles modernes, passant d'applications monolithiques à des écosystèmes de services interopérables.
Une passerelle dédiée à l'IA telle que TrueFoundry fournit les bases nécessaires pour aller au-delà de l'expérimentation. Il permet une gouvernance cohérente, un routage fiable, un contrôle des coûts et une observabilité approfondie sur l'ensemble de la pile d'IA. Plus important encore, il permet aux entreprises de développer l'innovation sans sacrifier la sécurité ou la conformité.
Regardez l'épisode précédent de Tesseract Talks avec Nikunj Bajaj ici Transformer le chaos de l'IA en contrôle : conversation sur l'IA agentique avec Tesseract Talks
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA














.webp)



.png)


.webp)




.webp)







