Ist TrueFoundry ML Platform das Richtige für Sie?

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Die ML-Infrastrukturlandschaft bietet einige der beeindruckendsten Lösungen zur Vereinfachung der ML-Pipeline. TrueFoundry kann eine Lösung sein, wenn Sie sich auf einige der unten genannten Probleme beziehen:
Es dauert ziemlich lange, bis unsere ML-Modelle in Produktion gehen, und es besteht eine große Abhängigkeit zwischen mehreren Interessengruppen.
Der Hauptgrund, den wir für Verzögerungen bei den Zeitplänen gefunden haben, ist die Abhängigkeit zwischen den Teams und das Fehlen von Fähigkeiten mit unterschiedlichen Personas. TrueFoundry erleichtert es Datenwissenschaftlern, Kubernetes mithilfe von Python zu trainieren und bereitzustellen. Es ermöglicht Infrastrukturteams auch, Sicherheitsbeschränkungen und Kostenbudgets festzulegen. In den meisten Unternehmen, mit denen wir gesprochen haben, sieht der Implementierungsablauf etwa wie folgt aus:

TrueFoundry hilft Ihnen dabei, die Entwicklungszeit um mindestens das Drei- bis Vierfache zu reduzieren, indem Datenwissenschaftler das Modell eigenständig bereitstellen und evaluieren können, ohne sich auf das Infra/DevOps-Team verlassen zu müssen.
Bei TrueFoundry ähnelt der Ablauf dem folgenden:

Sie möchten unsere Standard-Kubernetes-Infrastruktur für ML-Schulungen und -Bereitstellungen verwenden?
TrueFoundry ist Kubernetes-nativ und funktioniert über EKS-, AKS-, GKE- (Standard- und Autopilot-Cluster) oder lokale Cluster. ML erfordert im Vergleich zur Standard-Softwareinfrastruktur einige benutzerdefinierte Dinge — wie dynamische Knotenbereitstellung, GPU-Unterstützung, Volumes für schnelleren Zugriff, Kostenbudgetierung und Entwicklerautonomie. Wir kümmern uns um alle wichtigen Details in den Clustern, sodass Sie sich auf die Entwicklung der besten Anwendungen mithilfe einer hochmodernen Infrastruktur konzentrieren können.
Datenwissenschaftler sollten sich nicht mit Infra oder YAML auseinandersetzen müssen
Wir stellen Python-APIs zur Verfügung — Sie müssen also nie mit YAML interagieren. Wir bieten YAML-Unterstützung auch, wenn Sie ihn in Ihren CI/CD-Pipelines verwenden möchten. Beispielsweise können Sie mit TrueFoundry eine Inferenz-API mithilfe des folgenden Codes bereitstellen:
Dienst = Dienst (
name= „Fastapi“,
image=BUILD (
build_spec=PythonBuild (
command="uvicorn app:app --port 8000 --host 0.0.0.0",
Anforderungen_Pfad=“ requirements.txt „,
)
),
Anschlüsse= [
Hafen (
Anschluss = 8000,
<Provide a host value based on your configured domain>Gastgeber =““
)
],
Resources=Ressourcen (
cpu_request=0,5,
CPU-Limit = 1,
Speicheranforderung = 1000,
Speicherlimit = 1500
),
env= {
„UVICORN_WEB_CONCURRENCY“: „1",
„UMGEBUNG“: „dev“
}
)
service.deploy (workspace_fqn="tfy-cluster/mein-workspace“)
Benötigen Sie eine ML-Infrastruktur, bei der wir keine Daten aus unserer Cloud verschieben müssen
TrueFoundry wird vollständig auf Ihrem eigenen Kubernetes-Cluster bereitgestellt. Die Daten bleiben in Ihrer eigenen VPC, Docker-Images werden in Ihrer eigenen Docker-Registry gespeichert und alle Modelle verbleiben in Ihrem eigenen Blob-Speichersystem. Sie können mehr über die TrueFoundry-Architektur lesen hier.
Die automatische Skalierung von Modellen ist aufgrund der Downloadzeit von ML-Modellen ziemlich langsam
Kubernetes unterstützt in der Regel Autoscaling mithilfe von HPA auf Basis von CPU und Arbeitsspeicher. Bei ML-Workloads ist die automatische Skalierung auf der Grundlage der Anzahl der Anfragen jedoch in vielen Fällen viel besser. Eine weitere Herausforderung beim Autoscaling kann die hohe Startzeit von Modellen sein, die auf große Bildgrößen und Modell-Downloadzeiten zurückzuführen ist. Truefoundry löst diese Probleme, indem es die Startzeit von Containern in Sekunden, das Zwischenspeichern von Modellen für ein schnelleres Laden und schnellere Inferenzzeiten ermöglicht.
Wir möchten die Leistungsfähigkeit von LLMs für unser Unternehmen nutzen, aber wir können die Daten nicht aus unserer Umgebung herauslassen
Können wir einige Open-Source-LLM-Modelle verwenden?
Mit TrueFoundry können Sie die Open-Source-LLMs auf Ihrer eigenen Infrastruktur bereitstellen und optimieren. Wir haben bereits die besten Einstellungen für die gängigsten Open-Source-Modelle herausgefunden, sodass Sie sie mit den optimalen Einstellungen und den niedrigsten Kosten trainieren und bereitstellen können.
Ich möchte allen meinen Entwicklern ermöglichen, schnell verschiedene LLMs auszuprobieren
Wir hosten einen internen LLM-Spielplatz, auf dem Sie entscheiden können, welche LLMs Sie für die Unternehmensentwickler auf die Whitelist setzen möchten, einschließlich intern gehosteter, und verschiedene Entwickler können mit den internen Daten experimentieren. Hier ist ein kurzes Video dazu:
Sie möchten Data Scientists Jupyter-Notebooks auf Self-Service-Basis auf kostenoptimierte Weise für mehrere Mandanten zur Verfügung stellen?

Jupyter Notebooks sind für den täglichen Entwicklungszyklus von Data Scientists unverzichtbar. Jupyter Notebooks lokal auf dem eigenen Computer auszuführen, ist aus den folgenden Gründen nicht immer eine Option:
- Wir benötigen möglicherweise höhere Ressourcen, die auf einem lokalen Laptop möglicherweise nicht verfügbar sind.
- Der Datenzugriff ist in der lokalen Umgebung möglicherweise nicht zulässig.
Wir haben große Anstrengungen unternommen, um Jupyter Notebooks reibungslos auf Kubernetes auszuführen. Jupyter-Notebooks auf TrueFoundry bieten im Vergleich zu JupyterLab- oder Kubeflow-Notebooks die folgenden Vorteile:
- Schnelle Startzeit von Notebooks (unter 10 Sekunden)
- Automatische Stoppfunktion, die die Notebooks nach einer bestimmten konfigurierbaren Zeit der Inaktivität herunterfährt. Dies reduziert die Kosten, da ein Datenwissenschaftler möglicherweise nur 8 Stunden am Tag arbeitet. Dadurch werden die Kosten im Vergleich zur Ausführung von Jupyter auf EC2-Instances um rund 60% gesenkt.
- Persistenz von Umgebungs-, Daten- und Python-Abhängigkeiten bei Neustarts.
- Möglichkeit, dem Basis-Image dynamisch Abhängigkeiten hinzuzufügen.
- Möglichkeit, Notizbücher mit anderen Teammitgliedern zu teilen.
- Möglichkeit, den Datensatzzugriff mithilfe von Dienstkonten anstelle von Schlüsseln/Passwörtern zu konfigurieren.
Möchten Sie alle Modelle innerhalb des Unternehmens an einem Ort verfolgen und herausfinden, welche Modelle in welcher Umgebung eingesetzt werden?
TrueFoundry bietet eine Modellregistrierung, die verfolgen kann, welche Modelle sich in welcher Phase befinden, sowie das Schema und die API aller Modelle in der Registrierung.
Möchten Sie den Traffic auf meine neue Version des Modells spiegeln oder aufteilen, damit wir es im Online-Verkehr testen können, bevor wir es vollständig einführen?
TrueFoundry ermöglicht das Aufteilen oder Spiegeln des Datenverkehrs von einem Modell auf ein anderes. Dies ist besonders nützlich, wenn Sie eine neue Modellversion einige Zeit im Live-Verkehr testen möchten, bevor Sie sie in die Produktion überführen. Truefoundry unterstützt auch die Rollout-Strategien Canary und Blue-Green bei der Modellbereitstellung.
Sie möchten Hardware verwenden und cloudübergreifend und vor Ort rechnen. Wie verbinde ich sie, damit Entwickler Workloads nahtlos von einer Umgebung in eine andere verlagern können?
Wir haben große Anstrengungen unternommen, um sicherzustellen, dass wir uns um die grundlegenden Unterschiede der Kubernetes-Cluster zwischen den Clouds kümmern. Entwickler können denselben Code in jeder Umgebung schreiben und bereitstellen, ohne sich Gedanken über die zugrunde liegende Infrastruktur machen zu müssen. Wir überprüfen, ob die zugrunde liegenden Komponenten von Kubernetes installiert sind, überprüfen inkompatible Migrationen und informieren die Entwickler entsprechend.
Das verursacht hohe Kosten für unsere ML-Infrastruktur und es wird immer schwieriger, sie zu verfolgen und zu reduzieren.
Wir machen Entwicklern die Kostentransparenz von Dienstleistungen zugänglich und bieten Einblicke, um die Kosten zu senken. Alle unsere aktuellen Kunden konnten nach der Einführung von TrueFoundry eine Kostensenkung von mindestens 30% verzeichnen.
Wahre Gießerei ist ein ML Deployment (PaaS over Kubernetes), das zur Vereinfachung entwickelt wurde Einsatz von KI-Modellen, beschleunigen die Arbeitsabläufe der Entwickler und behalten die volle Kontrolle über die Infrastruktur. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren












.png)




.png)






.webp)

.webp)



