TrueFoundry: Jahresrückblick 2024

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Letztes Jahr Wir haben unsere Startup-Reise mit dem Bau eines Raketenschiffs verglichen, und stellte mir 2024 als das Jahr der Zündung vor — den Moment, in dem unser Raketenschiff in die Umlaufbahn springen würde. Und zünden haben wir! Haben wir groß gedacht, als wir einen Fortune-500-Kunden gewonnen haben und mit ihm zusammenarbeiten mussten nVidia, oder als anerkannt zu werden aufstrebender Marktführer im Magic Quadrant von Gartner?
Aber wie immer ist diese Geschichte nicht nur eine Würdigung unserer Erfolge, sondern auch eine Anerkennung der Herausforderungen, die wir gemeistert haben, der Wertschätzung der Chancen, die sich uns geboten haben, und der Erkenntnisse, die wir angenommen haben. Nehmen wir Sie mit auf diese aufregende Reise — von aufregenden Durchbrüchen bis hin zu unerforschten Gebieten — und lassen Sie uns auf dieser stellaren Odyssee sowohl durch Turbulenzen als auch durch Triumphe navigieren!
TrueFoundry und Jahr 2023
TrueFoundry entwickelt ein Cloud-unabhängiges PaaS auf Kubernetes, das das Training und den Einsatz von Anwendungen für maschinelles Lernen und generative KI mithilfe produktionsbereiter, entwicklerfreundlicher APIs standardisiert — und gleichzeitig eine eigensinnige Haltung dazu einnimmt, dass MLOPs/LLMops und DevOps Federn derselben Herde sind!
2023 war für die meisten Unternehmen der Welt das Jahr beispielloser Chancen und existenzieller Bedrohungen zugleich. Wie sie die veränderte Welt umarmten, würde ihre Zukunft bestimmen oder diktieren, ob sie überhaupt welche hatten! Und Organisationen suchten nach jeder erdenklichen Hilfe, um Anwendungsfälle zu definieren, Experimente durchzuführen, Sicherheitsrichtlinien zu bekämpfen und Pressemitteilungen zu verfassen, um als Vorreiter der GENai-Welt bekannt zu werden.
TrueFoundry war sehr gut positioniert, um Unternehmen bei der Bewältigung dieser unsicheren Zeiten zu unterstützen: die Wahl zwischen internen Modellen und Closed-Source-Modellen, die Komplexität der GPU-basierten Infrastruktur und das Toolkit für den Versand von Anwendungen an die Produktion. Und genau das war der Schlüssel — wir wussten, dass jede Anwendung, die nicht in Produktion ist, eine Kostenstelle ist, die keinen Mehrwert bietet. Und während der Rest der Welt Experimente zu PR-Zwecken durchführte, Fortune-100-Kunde von TrueFoundry Ich habe Anwendungen zum Prod in Windeseile produziert! Dieser Vorsprung im Jahr 2023 machte sie zu einem führenden GenAI-Anbieter in ihrer Branche! Wir haben 2023 einige wichtige Entscheidungen getroffen, die uns auf Erfolgskurs gebracht haben — wir haben unterschieden, was kurzfristig dringend war und was langfristig wichtig war!
- Zunächst konzentrierten wir uns auf Organisationen, von denen wir glaubten, dass GenAI einen klaren, langfristig differenzierten Geschäftswert bietet und nicht einfach dem Wahnsinn hinterhergelaufen ist!
- Zweitens sind wir nicht hinterher gelaufen, um Organisationen bei allem zu helfen, was damals im Trend lag — Überindizierung auf GPUs, die knapp waren, oder Organisationen, die nicht die Erlaubnis hatten, erstklassige Closed-Source-Modelle zu verwenden. Verstehen Sie mich nicht falsch — diese Probleme mussten gelöst werden, aber sie konnten nicht das Einzige sein, worauf Sie sich konzentrieren sollten, denn es war nur eine Frage der Zeit, bis sie verschwinden würden! Vielmehr haben wir uns zielstrebig auf die Herausforderungen konzentriert, vor denen Unternehmen stehen würden, wenn sie auf lange Sicht selbstbewusst Apps an die Hersteller ausliefern würden!
Dies führte uns zu zwei wichtigen Erkenntnissen, die wir richtig gemacht und zur Kenntnis genommen haben.
1. Ein echter Test besteht nicht nur darin, Ihr Produkt einem Kunden zu präsentieren, sondern auch, um einen echten Geschäftswert für diesen Kunden zu erzielen!
2. Es ist okay, wenn du eine Trendwelle erwischen willst, aber wenn es zu einem Shakedown kommt, sei bereit, auf der anderen Seite zu erscheinen — und das passiert nur, wenn du dich auf die ersten Prinzipien konzentrierst.
Auftakt 2024
Damit sind wir stark ins Jahr 2024 gestartet — ein Jahr der Umsetzung für uns, in dem wir das, was wir für möglich hielten, noch einmal verdoppelt haben — und es echten Tests unterzogen haben — auf TrueFoundry-Art!
Wir haben mit einigen der weltweit größten Organisationen zusammengearbeitet und ihnen geholfen, Anwendungen zum Leben zu erwecken, die einen Wert von 100 Millionen US-Dollar einbringen würden — durch die Automatisierung von Kundendienstanrufen, die optimale Nutzung von GPU-Clustern, die Unterstützung von Vertriebsmitarbeitern beim Verkauf von Medikamenten. Wir wurden zu einem wichtigen Bestandteil des GenAI-Stacks mehrerer Fortune-500-Unternehmen, verdoppelten unsere Teamgröße und vervierfachten unseren Umsatz — und das alles innerhalb dieses Jahres. Die Frage ist nur: Was hat dazu geführt, dass dies als das eingestuft wurde, was wir strategisch und taktisch richtig gemacht haben, und was nicht? Lassen Sie uns das genauer untersuchen —
[Strategisch, funktioniert] Einheitlichkeit von LLMops, MLOps und DevOps —
Wir haben darüber gesprochen in der nach im Detail. Aber es ist eine so wichtige Entscheidung unserer Plattform, dass es wichtig ist, sie zu erwähnen! Im Jahr 2022, als wir uns auf MLOps konzentrierten, dachten wir nie, dass es sich grundlegend von DevOps unterscheidet — ML-Modelle sind auch Anwendungen, die mit einer gewissen Rechenleistung ausgeführt werden müssen — wenn auch komplizierter. Im Jahr 2023 vertraten wir dieselbe Haltung, als GENai auf den Markt kam — LLM-Feinabstimmung oder ML-Modelltraining oder die Ausführung eines Datenpipeline-Jobs sind alles langandauernde Rechenjobs und LLM-Modell-Serving oder ML-Modell-Inferencing oder eine einfache Rest-API sind alles kontinuierlich laufende Jobs. Und solange sie architektonisch identisch sind, geht es darum, das richtige UX zu entwickeln, um die Komplexität des Umgangs mit GPU-Ressourcen, verteilter Datenverarbeitung oder großen Modellgrößen oder sehr langen Jobs zu manövrieren — sicherlich viel Engineering, aber nichts grundlegend anderes.

Mit anderen Worten, TrueFoundry nimmt im Grunde jede Anwendung oder jeden Code und übersetzt ihn in ein K8s-Manifest, während die anwendungsspezifische Komplexität verborgen bleibt. Dieses Design hatte tiefgreifende Auswirkungen darauf, wie Kunden TrueFoundry betrachteten.
TrueFoundry fungierte als Brücke vom unbekannten Gebiet der GPUs, der cloudübergreifenden Infrastruktur und sehr großen Modellen zum bekannten Gebiet ihrer bestehenden Plattform, die auf K8s basiert.
TrueFoundry sprach ihre Sprache, passte in ihren bestehenden Stack und ermöglichte es Unternehmen, alle grundlegenden Build- und Deploy-Pipelines zu nutzen, die sie sorgfältig eingerichtet hatten!
[Strategisch, funktionell] Der Kern besteht aus Grundelementen — Dienstleistungen, Jobs, Helm-Charts und Volumen
Wir bei TrueFoundry glauben, dass jede Anwendung auf der Welt grundsätzlich in Form von 4 Grundelementen gedacht werden kann —
- Dienste — APIs sind immer verfügbar und laufen
- Jobs — Offline-Jobs mit langer Laufzeit
- Helm Charts — Nutze, finde und teile Anwendungen, die auf K8s basieren.
- Volumes — Datenmounts, Dateispeicher und Speicherebene.
Diese Primitiven wurden zu unserer Kernschicht und dann wird alles darauf aufgebaut. Zum Beispiel ist LLM-Hosting nichts anderes als ein Service, Feintuning ist nichts anderes als ein Job und VectorDB ist nichts anderes als ein Helmchart!

Und das neue Paradigma der kombinierten KI-Anwendung kann als eine Kombination dieser Primitiven betrachtet werden. Eine RAG-Anwendung besteht beispielsweise aus — Lesen von Quelldaten aus einem Volume, Parsen, Chunking und Indexieren als Job, VectorDB als Steuerdiagramm, LLM als Service und RAG API als Service!
Während der Modus Operandi 2023 RAG und 2024 Agentenanwendungen waren, könnte das in Zukunft anders sein. Diese Architektur hilft uns, zukunftssicher zu sein, und wir sind nicht an bestimmte Entwicklungsmethoden gebunden. Im Jahr 2024 haben wir dieses Konzept als Produkt verallgemeinert und wurden von unseren Kunden sehr gut aufgenommen.
[Taktisch, funktioniert] Zukunftssicheres Design — vermeiden Sie Herstellersperren
Der Standard für die Entwicklung von GenAI-Apps ist noch nicht veröffentlicht, und Unternehmen sind nicht bereit, sich auf irgendetwas festzulegen. Dies gilt auch für Cloud-Anbieter, Modellanbieter und Framework-Anbieter.
Das Konzept von TrueFoundry, jede Rechenleistung von jedem Anbieter auszuwählen, ohne sich Gedanken über die Infrastrukturverwaltungsebene machen zu müssen, ein beliebiges Modell über Gateway zu wählen, ohne sich Gedanken über die API-Signatur machen zu müssen, oder Menschen bei der Orchestrierung von Bereitstellungen ohne präskriptive Programmierung zu helfen und so die Abhängigkeit von einem Framework — einschließlich unseres — zu vermeiden, hat bei unseren Kunden großen Anklang gefunden. Tatsächlich gehen wir sogar so weit, TrueFoundry überflüssig zu machen, indem wir mit TrueFoundry generierte K8s-Rohmanifeste verfügbar machen, sodass der Kunde auch nie an TrueFoundry gebunden ist!
Ich muss allerdings zugeben, dass das jetzt zwar funktioniert, wir aber nicht sicher sind, ob es auf lange Sicht so ablaufen wird. Ein mögliches Beispiel dafür, wie man eine Welle fängt, aber darauf achtet, was sich auf der anderen Seite befindet.
[Taktisch, funktioniert] Konzentrieren Sie sich auf die Zeit bis zur Wertschöpfung
TrueFoundry hat sich schon immer darauf konzentriert, die Zeit bis zur Auslieferung produktionsreifer Anwendungen für unsere Endbenutzer zu verkürzen. Die Zeit bis zur Wertschöpfung ist die zentrale Kennzahl, für die wir immer optimiert haben. Im Jahr 2024 haben wir genug Zeit damit verbracht, die Time-to-Value auch für uns als Plattform zu optimieren. Das heißt, wie schnell TrueFoundry in einer Kundenumgebung installiert werden kann und wie schnell daraus der endgültige Geschäftswert für die Endbenutzer abgeleitet wird.

Aus unseren G2-Bewertungen geht hervor, dass unsere Time-to-Go-Live von 0,42 Monaten mit 2,29 Monaten deutlich besser ist als die anderer in unserer Kategorie, und der geschätzte ROI liegt bei 4 Monaten, verglichen mit dem Durchschnitt von 13,66!
[Taktisch, hat nicht funktioniert] Näher an Anwendungsfällen
Da wir uns darauf konzentrieren, die richtige Architektur zu entwickeln, gab es unserer Meinung nach Fälle, in denen wir das Ziel verfehlt haben, dem Endziel, das der Benutzer zu erreichen versucht, sehr nahe gekommen zu sein. Das bedeutet, dass es für die Endbenutzer manchmal ein bisschen anstrengend ist, die endgültige Anwendung zu erstellen, und wir können unser Produkterlebnis besser darauf abstimmen. Zum Beispiel können Menschen heute jede beliebige Agentenanwendung auf TrueFoundry erstellen und ausliefern. Das liegt daran, dass unsere Architektur die Bereitstellung beliebiger KI-Anwendungen ermöglicht, aber ist das Erlebnis so reibungslos, wie wir es uns wünschen? Wahrscheinlich nicht!
Wir hatten 2024 mit unserem ersten Open-Source-Launch einen großen Erfolg in diesem Bereich. Cognita — ein Framework, das für die Auslieferung produktionsreifer RAG-Anwendungen entwickelt wurde und in den ersten Wochen nach der Markteinführung mehr als 3000 Sterne erhielt! Aber ich möchte sagen, das könnte zu wenig sein, zu spät! Im Idealfall hätten wir für diesen Bereich 2023 selbst optimieren und 2024 noch viel mehr bauen sollen! Aber jetzt, wo wir das erkannt haben, müssen wir 2025 aktiv darauf hinarbeiten.
[Strategisch, hat nicht funktioniert] Konzentrieren Sie sich auf die Buyer Persona
In der Startup-Welt ist allgemein bekannt: Wenn Sie beabsichtigen, eine wiederholbare Verkaufsbewegung zu erzeugen, müssen Sie sich voll und ganz auf Ihr IDEAL-Kundenprofil und die Käuferpersönlichkeit konzentrieren. Wir dachten, wir wüssten das und haben diesen Teil „rücksichtslos priorisiert“, um unsere Käufer endlich auf einen der beiden Benutzer einzugrenzen — einen Leiter der Datenwissenschaft, der versucht, eine GenAI-App in die Produktion zu bringen, und einen Leiter der Plattformentwicklung für Entwicklertools für alle internen Data-Science-Teams.
Unsere neueste Überzeugung ist — zwei sind immer noch nicht gut genug. Laserfokus bedeutet eins und nur eins! Dies wird uns helfen, alles zu optimieren, angefangen bei der Endbenutzung des Produkts über die Materialien für das Sales Enablement bis hin zum Produktmarketing und jeder Funktion, die das Unternehmen ausmacht. Die Jury steht noch nicht fest, aber bis jetzt scheint es so, als müssten wir 2025 Zeit damit verbringen, dies weiter einzugrenzen!
Ausblick und Begrüßung des Jahres 2025
Mit den Erkenntnissen, einem grundlegend und architektonisch fundierten Produkt, einer starken Kundendynamik und zusammen mit einem brillanten und unermüdlichen Team, das sich wirklich um die Lösung dieses Problems kümmert, freuen wir uns darauf, 2025 den Schritt zu wagen — wir fühlen uns stärker denn je positioniert!
Vor allem freuen wir uns darauf, die Veränderungen, die GenAI für uns als Startup mit sich gebracht hat, anzunehmen und unsere eigene Vision zu erweitern! Angesichts der Möglichkeiten, die GenAI eröffnet hat, sind wir davon überzeugt, dass all die Verbesserungen in Bezug auf die Amortisierungszeit, die Kosteneinsparungen und die Möglichkeit, mit weniger mehr zu erreichen, nur Meilensteine sind. Irgendwann wird alles sofort, am effizientesten und alles auf AutoPilot laufen! So wie wir heute beim Schreiben eines Programms nicht darüber nachdenken, ob ein Compiler Speicher effizient verschoben oder Ressourcen zugewiesen hat, werden wir morgen nicht darüber nachdenken, ob die von KI verwaltete Infrastruktur richtig gemacht ist.
Wenn wir in eine Welt eintreten, in der Tausende von Agenten mit Menschen zusammenarbeiten, um jede Aufgabe zu erfüllen, ist es weder machbar noch logisch, dass Menschen zum Engpass werden, um sie zu bewältigen. Die zentrale Plattform, die die Welt verwaltet
KI wird von KI verwaltet
Mit unseren Augen, die auf diese erweiterte Vision gerichtet sind, begrüßen wir das Jahr 2025 mit offenen Armen! Allen ein frohes neues Jahr.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren











.png)




.png)






.webp)

.webp)



