Aktualisierungen der Bereitstellungsplattform

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Das Truefoundry-Team hat im letzten Monat sehr hart daran gearbeitet, unserer ML Deployment-Plattform Funktionen hinzuzufügen. Unser Ziel ist es, eine Bereitstellungsplattform zu entwickeln, die es absolut einfach macht, ML-Modelle und -Dienste bereitzustellen und gleichzeitig die besten technischen und Sicherheitsprinzipien durchzusetzen. Um eine großartige ML-Plattform aufzubauen, benötigen wir eine solide Engineering-Plattform. Aus diesem Grund lag der Schwerpunkt zunächst hauptsächlich auf der Bereitstellung einer soliden Plattform für die Codebereitstellung.

Von allen oben beschriebenen Teilen der Ml-Plattform konzentrieren wir uns auf die Serverinfrastruktur, die Überwachung und die gesamte Automatisierung, die damit verbunden ist.
Es wurde viel Arbeit in den Aufbau unserer Bereitstellungsplattform auf Kubernetes gesteckt. Das Ziel dabei war es, die Bereitstellung in weniger als 5 Minuten absolut einfach zu machen, wobei die Plattform sich darum kümmert, das Image aus dem Quellcode zu erstellen, es in einer Docker-Registry zu speichern und dann die Anwendung schließlich auf Kubernetes bereitzustellen. Einige der Updates aus unserem letzten Monat beinhalten Folgendes:
Möglichkeit, bei der Bereitstellung eine Instanzfamilie auszuwählen
Modelle für maschinelles Lernen können je nach Instanztyp eine sehr unterschiedliche Inferenzlatenz oder Leistung aufweisen. Als wir beispielsweise die Inferenzlatenz eines Modells mit umarmtem Gesicht auf Intel- und AMD-Prozessoren testeten, stellten wir fest, dass Intel-Prozessoren etwa 30% schneller sind. Aus diesem Grund haben wir jetzt eine Option, mit der Benutzer bei der Bereitstellung ihrer Workloads den Instance-Typ wählen können. Wenn der Instanztyp nicht ausgewählt ist, kann der Workload auf jedem verfügbaren Instanztyp bereitgestellt werden.

Protokolle und Metriken für Bereitstellungen
Wir hatten zuvor einen Grafana-Link zum Anzeigen von Protokollen und Metriken. Grafana war zwar hochgradig anpassbar, aber Berechtigungen und Zugriffskontrolle waren auf Grafana nicht wirklich möglich. Außerdem stellte sich heraus, dass es für Benutzer, die nicht an Grafana gewöhnt waren, etwas langsam und schwer zu verstehen war. Aus diesem Grund haben wir unsere eigene Benutzeroberfläche für die Anzeige von Protokollen und Metriken implementiert, was in den meisten Fällen ausreichen sollte. Wir bieten weiterhin die Grafana-Integration in der Public Cloud für fortgeschrittenere Benutzer an.


Berechtigungskontrolle für geheime Gruppen
Wir können jetzt Benutzer als Editor, Viewer oder Admin zu geheimen Gruppen hinzufügen.

Integration von Github und Bitbucket
Wir können jetzt von jedem Github- oder Bitbucket-Repositorys aus direkt auf Truefoundry bereitstellen. Benutzer können mithilfe des OAuth Flow eine Integration in ihre eigenen privaten Repositorys vornehmen und die entsprechenden Parameter für die Bereitstellung der Anwendung auswählen.

Im nächsten Monat arbeiten wir an einigen aufregenden Funktionen wie:
- Die Plattform wird intuitiver und benutzerfreundlicher.
- Automatisierte Bereitstellung des Truefoundry-Stacks auf jedem Kubernetes-Cluster
- Unterstützung für Teams
- Rollback-Funktionalität für die Bereitstellung
Bleiben Sie dran und teilen Sie uns Ihr Feedback mit!
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren















.png)




.png)






.webp)

.webp)



