Die versteckte Infrastruktur, die skalierbare Unternehmens-KI unterstützt: Tesseract spricht mit Abhishek Choudhary

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

In der neuesten Folge von Tesseract Talks sprach Moderator Oliver Rochford mit Abhishek Choudhary, Mitbegründer und CTO von TrueFoundry, über eine der größten Herausforderungen, vor denen Unternehmen heute stehen: wie man KI-Systeme konzipiert, die sowohl auf dem neuesten Stand als auch sicher sind, ohne aufgrund betrieblicher Komplexität zusammenzubrechen.

Von der Modellwucherung und den Agenten-Frameworks bis hin zu Governance und Kostenkontrolle machte das Gespräch eines deutlich: Bei KI in Unternehmen geht es nicht mehr nur darum, das beste Modell auszuwählen. Es geht darum, die richtige Infrastruktur aufzubauen, damit aus Experimenten zuverlässige, skalierbare Produktionssysteme werden können.

Hier sind die wichtigsten Themen und Erkenntnisse aus der Diskussion.

‍

Die Realität des Aufbaus von KI in einem sich schnell verändernden Ökosystem

Unternehmen arbeiten in einer KI-Umgebung, die sich in einem beispiellosen Tempo verändert. Es erscheinen ständig neue Modelle und Anbieter, und jedes hat unterschiedliche Stärken, Schwächen und APIs. Gleichzeitig gibt es Protokolle wie MCP (Model Context Protocol) entwickeln sich immer noch weiter, während sich Agenten-Frameworks wie LangGraph, Google ADK, AWS-Frameworks und andere weiter vermehren.

Bevor Teams überhaupt mit der Entwicklung sinnvoller Anwendungen beginnen, müssen sie grundlegende Entscheidungen darüber treffen, welche Modelle verwendet werden sollen, wie Eingabeaufforderungen und Versionen verwaltet werden, auf welchen Frameworks standardisiert werden soll und wie das, was sie erstellen, letztendlich bereitgestellt und skaliert werden soll. Und gerade, wenn Teams anfangen, sich mit einem Stack vertraut zu machen, verändert sich das Ökosystem erneut, und zwar Sprachagenten und multimodale Systeme Einführung völlig neuer technischer Anforderungen.

Warum die meisten KI-Projekte in der Produktion Probleme haben

Abhishek erklärt: „Es ist wirklich einfach, eine Demo zu erstellen, die für 80% der Fälle funktioniert. Das Problem ist, wenn man anfängt, es zu skalieren.“ Sobald echte Benutzer auf unvorhersehbare Weise mit Systemen interagieren, tauchen schnell Grenzfälle, Ausfälle und Zuverlässigkeitslücken auf. Sobald Systeme echten Kunden zugänglich gemacht werden, kommt es bei unerwarteten Aufforderungen und Randfällen schnell zu Zuverlässigkeitslücken.

Ein weiterer großer Engpass ist die Verfügbarkeit und Leistung der Modelle. „Wenn der Modellanbieter ausfällt, fällt Ihre Anwendung aus“, bemerkte Abhishek. Selbst bei führenden Modellanbietern kommt es zu Ausfällen, Verlangsamungen und regionalen Störungen. Wenn eine Anwendung direkt von einem einzelnen externen Modellendpunkt abhängt, führt jede Instabilität sofort zu Ausfallzeiten für den Kunden, was das Vertrauen in das Produkt schädigen kann.

Die Kosten sind der dritte kritische Faktor. Im Gegensatz zu herkömmlicher Software sind KI-Systeme mit kontinuierlichen Inferenzkosten verbunden, die direkt mit der Nutzung skalieren. Einige Unternehmen verwenden zunächst aus Geschwindigkeitsgründen gehostete Closed-Source-Modelle, um später festzustellen, dass ihre Anwendungsfälle aufgrund der Token-Kosten wirtschaftlich nicht tragbar sind. Als Reaktion darauf investieren einige Unternehmen in ihre eigene GPU-Infrastruktur und optimieren kleinere Open-Source-Modelle. Dabei tauschen sie kurzfristigen Komfort gegen langfristige Kostenkontrolle und vorhersehbaren ROI ein.

Warum KI-Gateways zur Kerninfrastruktur werden

Vor einem Jahr sprachen nur wenige Teams über KI-Gateways als eigenständige architektonische Komponente. Heute werden sie schnell zur Standardpraxis für jedes Unternehmen, das es ernst meint, KI in der Produktion einzusetzen.

Laut Abhishek wurden KI-Gateways entwickelt, um drei grundlegende Unternehmensprobleme zu lösen:

API-Standardisierung: Ein KI-Gateway abstrahiert Unterschiede in den Schnittstellen der Modellanbieter, sodass Teams zwischen Modellen wechseln oder zwischen Modellen weiterleiten können, ohne den Anwendungscode neu schreiben zu müssen.
Sicherheit und Schlüsselverwaltung: Mit einem KI-Gateway authentifizieren sich Entwickler gegenüber internen Systemen, während die Anmeldeinformationen der Anbieter zentral verwaltet, rotiert und geschützt bleiben.
Steuerung und Beobachtbarkeit: Leitplanken, Budgetgrenzen, Auditprotokolle und Konformitätsprüfungen können einheitlich durchgesetzt werden, anstatt sich darauf zu verlassen, dass jedes Anwendungsteam die Best Practices selbst implementiert. In einigen Fällen, so Abhishek, „sobald die Agenten validiert sind,Der Produktionsstart ist buchstäblich mit einem Klick erledigt.“

Warum KI-Gateways nicht nur API-Gateways sind

Obwohl der Begriff „Gateway“ bekannt vorkommen mag, unterscheiden sich KI-Gateways erheblich von herkömmlichen API-Gateways. Herkömmliche Gateways wurden für kurzlebige Anforderungs-/Antwortmuster und einfache Authentifizierungsabläufe konzipiert. Sie messen die Nutzung auch anhand von Anfragen, nicht anhand der Token-basierten Wirtschaftlichkeit, die die KI-Kosten in die Höhe treibt.

KI-Workloads unterscheiden sich grundlegend. Antworten werden häufig gestreamt, Interaktionen können langwierig sein, und sprachgestützte Systeme führen zu dauerhaften Verbindungen und Einschränkungen in Echtzeit. Darüber hinaus sind viele Risiken im Zusammenhang mit KI eher semantischer als syntaktischer Natur, was bedeutet, dass die Durchsetzung von Richtlinien auf der Bedeutungsebene erfolgen muss, nicht nur auf Schlüsselwörtern oder Schemata.

Es ist zwar technisch möglich, bestehende API-Gateways zu erweitern, um KI-Anwendungsfälle zu unterstützen, speziell entwickelte KI-Gateways wurden von Grund auf so konzipiert, dass sie diese Muster nativ verarbeiten.

Die Zukunft: KI-Gateways als KI-Orchestratoren für Unternehmen

Mit Blick auf die Zukunft wird die Rolle des KI-Gateways wahrscheinlich weit über das Routing von Anfragen hinaus zunehmen. Abhishek beschrieb eine Zukunft, in der das Gateway zu einem zentralen Register für Modelle, Tools, MCP-Server und sogar die Agenten selbst wird.

In einer solchen Umgebung könnten Unternehmenssysteme wie Slack, GitHub, Confluence und interne Datenbanken alle als auffindbare KI-Dienste verfügbar gemacht werden. Wenn Benutzer komplexe Geschäftsfragen stellen, könnte das Gateway mehrere Agenten und Tools dynamisch orchestrieren, um Antworten zusammenzustellen, anstatt sich auf Einzweckanwendungen zu verlassen.

Anstatt isolierte KI-Funktionen zu entwickeln, würden Unternehmen intelligente Workflows aus wiederverwendbaren Komponenten zusammenstellen. Dieser Ansatz spiegelt wider, wie sich moderne Softwareplattformen weiterentwickelt haben und von monolithischen Anwendungen hin zu Ökosystemen interoperabler Dienste übergegangen sind.

Ein dediziertes KI-Gateway wie TrueFoundry bietet die Grundlage, um über das Experimentieren hinauszugehen. Es ermöglicht eine konsistente Verwaltung, zuverlässiges Routing, Kostenkontrolle und eine umfassende Beobachtbarkeit des gesamten KI-Stacks. Noch wichtiger ist, dass es Unternehmen ermöglicht, Innovationen zu skalieren, ohne Abstriche bei Sicherheit oder Compliance machen zu müssen.

Sehen Sie sich hier die vorherige Folge von Tesseract Talks with Nikunj Bajaj an KI-Chaos in Kontrolle bringen: Ein Gespräch über Agentic AI mit Tesseract Talks

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo