TrueFoundry implementiert und optimiert jetzt Open-Source-LLMs mit wenigen Klicks!

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir freuen uns, Ihnen vorstellen zu können, dass TrueFoundry eine leistungsstarke und dennoch benutzerfreundliche Lösung für die Bereitstellung und Feinabstimmung von Large Language Model (LLM) entwickelt hat, und zwar durch unsere Modell-Katalog. Unser Ziel ist es, Unternehmen dabei zu helfen, ihre Open-Source-LLMs selbst auf Kuberenetes zu hosten, sodass Ihre Inferenzkosten mit einem Klick 10x günstiger werden. In diesem Blog zeigen wir Ihnen, wie Sie eine bereitstellen können Dolly-V2-3B Modell und Finetune A Pythia-70 M modellieren Sie mit TrueFoundry.

Würden LLMs unsere Einstellung zu MLOPs verändern?

TrueFoundry-Plattform wurde entwickelt, um Machine Learning- und Deep-Learning-Modelle aller Art zu unterstützen, von den einfachsten Modellen wie Logistic Regression bis hin zu hochmodernen Modellen wie Stable Diffusion. Man könnte sich fragen, warum es etwas Neues entwickeln muss, wenn es um große Sprachmodelle geht?

Die schiere Größe und Komplexität dieser Modelle stellen erhebliche Herausforderungen dar, wenn es darum geht, sie in realen Anwendungen einzusetzen. Obwohl die TrueFoundry-Plattform bereits die Bereitstellung von Modellen aller Größen in großem Maßstab unterstützte, stellten wir fest, dass wir für diese Modelle weitere Optimierungen (Kosten und Zeit) und Verbesserungen der Benutzererfahrung vornehmen könnten.

Large Language Models (LLMs) sind gekommen, um zu bleiben.

Große Sprachmodelle (LLMs) wie ChatGPT haben unbestreitbar einen großen Hype auf dem Gebiet der künstlichen Intelligenz ausgelöst.

Aber nachdem ich mit über 50 Unternehmen gesprochen habe, die bereits mit der Produktion beginnen, ist der Wert, den es bereits schafft, immens. Wir glauben, dass die Nutzung von LLMs nur zunehmen wird, wenn die Menschen jeden Tag neue Anwendungsfälle entdecken.

LLMs are used to classify, search, generate, cluster, summarize, rewrite and extract — LLM-Anwendungsfälle, die bereits Mehrwert schaffen (Bildnachweis: cohere)

Der Versand von LLMs an die Produktion ist jedoch schwierig.

Die Erstellung eines Proof-of-Concept-Anwendungsfalls mit Large Language Models und OpenAI-APIs ist einfach, aber wenn Sie anfangen, an Production 🚀 zu denken, kommen noch viel mehr Überlegungen ins Spiel.

Für die meisten Unternehmen ist es schwierig und zeitaufwändig, die technischen Fähigkeiten aufzubauen, um die komplexe GPU-Infrastruktur für die zuverlässige Bereitstellung von LLMs zu handhaben. Darüber hinaus wünschen sich die meisten Unternehmen spezielle Modelle, die für ihren Anwendungsfall am besten geeignet sind. Dafür müssen sie diese Modelle entsprechend anpassen. Dies kann sowohl eine technische Herausforderung als auch eine teure Angelegenheit sein.

Common Problems in the Productionisation of Large Language Models (LLMs) — Häufige Probleme bei der Produktion großer Sprachmodelle (LLMs)

Versenden Sie Open-Source-LLMs schnell!

Unsere Haltung zur Zukunft von LLMs ist, dass Open-Source-Modelle der Weg in die Zukunft sein werden. Lesen Sie mehr über unsere Ansichten zum Thema hier. Wir haben beschlossen, diese schnell innovative Gemeinschaft von Innovatoren zu nutzen und Unternehmen dabei zu unterstützen, den vollen Wert dieser Open-Source-LLMs in ihren Organisationen auszuschöpfen.

TrueFoundry möchte, dass unsere Partner alle Vorteile nutzen können, die Open-Source-LLMs, die auf ihren spezifischen Anwendungsfall abgestimmt sind, für ihre Unternehmen haben können:

Kosteneffektiv: 5-10X geringere Kosten als bei Verwendung von OpenAI-APIs
Vollständiger Datenschutz: In Ihrem eigenen Cloud-/On-Prem-Kubernetes-Cluster
Vollständige Kontrolle: zur Feinabstimmung, zum Rollback usw.

Die Verwaltung und Bereitstellung von Open-Source-Modellen auf Ihrer eigenen Infrastruktur ist jedoch keine leichte Aufgabe. Während LLM-Bereitstellung vor Ort bietet unübertroffene Datenkontrolle, Compliance-Bereitschaft und langfristige Kosteneffizienz und erfordert fundiertes Fachwissen in den Bereichen GPU-Orchestrierung, Kubernetes-Management und Modelloptimierung.

Aber stellen Sie sich vor, es wäre genauso einfach wie das Eingeben Ihrer Daten und ein paar Klicks?

Wir verstehen die Herausforderungen, vor denen Unternehmen stehen, wenn sie LLM Proof of Concept in die Produktion überführen. Unser Ziel ist es, die Ebene aufzubauen, die diesen Prozess für unsere Partner sehr einfach macht. So machen wir das:

Vorstellung des Modellkatalogs

True Foundry's Modell-Katalog ist ein Repository aller gängigen Open Source Large Language Models (LLMs), die mit einem einzigen Klick bereitgestellt werden können. Der Benutzer kann das Modell auch direkt aus dem Modellkatalog heraus feinabstimmen.

Das Katalog hat die meisten gängigen Modelle bereits unterstützt, und wir fügen täglich Unterstützung für weitere hinzu. Einige der beliebten Modelle, die Sie bereits in Ihrer eigenen Cloud bereitstellen könnten, sind:

Und viele mehr...

Die Magie, die wir zusätzlich zu Open Source LLMs machen

Wir sind davon besessen, dass Unternehmen am ersten Tag versenden können. Um dies zu ermöglichen, sind die folgenden Prinzipien aufgeführt, auf denen wir unsere LLM-Fähigkeiten aufbauen:

Kostenoptimierung: Maximiert die Ressourcenauslastung, um die Infrastrukturkosten zu senken, ohne die Leistung zu beeinträchtigen.
Vereinfachter Einsatz: Optimierte LLM-Bereitstellung mit Containerisierung und Kubernetes für nahtlose Skalierbarkeit und Hochverfügbarkeit.
Infrastrukturmanagement: Erledigt komplizierte Aufgaben wie GPU-Zuweisung und Kubernetes-Management, sodass Unternehmen sich auf die LLM-Optimierung konzentrieren können.
Vorgefertigte Abstraktionen: Bietet vorgefertigte Lösungen für die einfache Integration von LLMs in bestehende Workflows, sodass keine kundenspezifische Entwicklung erforderlich ist.
Unterstützung für die Modellskalierung: Ermöglicht die Skalierung von LLMs aller Größen und Typen für optimale Leistung und Effizienz.

ℹ️

Eine ausführliche Anleitung zu den Trainings- und Feinabstimmungsabläufen auf der Benutzeroberfläche finden Sie unter dieses YouTube-Video

Tutorial: Stellen Sie LLMs mit drei Klicks bereit.

Die Bereitstellung Ihrer LLMs ist so einfach wie ein dreimaliges Klicken!

Wählen Sie das gewünschte Modell aus: Wählen Sie aus einer Vielzahl von Open-Source-Sprachmodellen, die auf TrueFoundry verfügbar sind. Wir schlagen die besten Modelle für Ihren Anwendungsfall vor. (Aufgabenbezogenes Benchmarking kommt bald!) Wählen Sie das Modell aus, das am besten zu Ihrem spezifischen Problem oder Anwendungsfall passt, und klicken Sie auf die Schaltfläche „Bereitstellen“.
Wählen Sie die entsprechenden Ressourcen aus: Bestätigen Sie die Ressourcen, die Sie dem Modell zuweisen möchten. TrueFoundry bietet eine kuratierte Auswahl an Hardwareoptionen, die für jedes Modell optimiert sind, um den Entscheidungsprozess zu vereinfachen, der mit dem von Ihnen ausgewählten Modell gut funktioniert.
Stellen Sie das Modell bereit: Nachdem Sie das Modell und die Bereitstellungsumgebung ausgewählt haben, klicken Sie einfach auf die Schaltfläche „Senden“. TrueFoundry kümmert sich hinter den Kulissen um die Einrichtung der Infrastruktur, die Konfiguration des Modells und dessen Vorbereitung für die Inferenz.

🚀

Ihr Modell ist jetzt im Einsatz!

Inferenz starten mit dem Modell-API-Endpunkt. TrueFoundry bietet Ihnen OpenAPI-Schnittstelle um Ihr Modell und den Beispielcode zum Aufrufen des Modells in Ihren Anwendungen zu testen.

Bereitstellung von Dolly V2 mit TrueFoundry (mit 3 Klicks!)

Tutorial: Feinabstimmung großer Sprachmodelle mit TrueFoundry

Die meisten Unternehmen würden Modelle verwenden wollen, die auf ihren spezifischen Anwendungsfall abgestimmt sind. Um ein Modell mit TrueFoundry zu optimieren:

Wählen Sie das gewünschte Modell aus: Wählen Sie das Modell, das Sie verwenden möchten, aus dem Katalog aus. Nachdem Sie das Modell ausgewählt haben, klicken Sie auf die Schaltfläche „Feinabstimmung“, um den Vorgang zu starten.
Wählen Sie die entsprechenden Ressourcen aus: Wir konfigurieren die vorgeschlagenen Ressourcen für die Feinabstimmungsaufgabe vor. Benutzer können es ändern, wenn sie aufgrund von Änderungen in den Konfigurationen mit einer höheren Auslastung rechnen.
Stellen Sie den Finetuning-Job bereit: Nachdem Sie das Modell und die gewünschten Ressourcen ausgewählt haben, klicken Sie auf die Schaltfläche „Senden“. TrueFoundry kümmert sich hinter den Kulissen um die Einrichtung der Infrastruktur und die Konfiguration des Schulungsauftrags. Der Feinabstimmungsjob wird gestartet und nutzt die angegebenen Hardwareressourcen.

🚀

Das Modell hat mit der Feinabstimmung begonnen!

Du kannst Überwachen Sie die Feinabstimmung im weiteren Verlauf. Auf der Registerkarte „Jobausführungen“ können Sie alle relevanten Informationen zum Trainingsjob einsehen, z. B. Verlustmetriken, Trainingskurven und Bewertungsergebnisse. Auf diese Weise können Sie den Feinabstimmungsprozess verfolgen und fundierte Entscheidungen treffen, die auf der Leistung des Jobs basieren.

Was kommt als Nächstes?

Dies ist erst der Anfang unserer Reise mit Large Language Models (LLMs) und generativer KI. Wir planen, in den kommenden Tagen noch viel mehr zu bauen und würden euch auf dem Laufenden halten!

Chatte mit uns

Wir lernen immer noch über dieses Thema, wie alle anderen auch. Falls Sie versuchen, Large Language Models in Ihrer Organisation zu verwenden, würden wir uns freuen, mit Ihnen zu chatten und Notizen auszutauschen.

Hab ein ☕️ bei uns

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo