Kostenvergleich mit Sagemaker

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
TrueFoundry ermöglicht einen kostengünstigen Ansatz für die Bereitstellung von Workloads für maschinelles Lernen, indem Kubernetes auf EKS genutzt wird. Im Vergleich zur Ausführung ähnlicher Workloads auf SageMaker bietet TrueFoundry Kostensenkungen von 40— 60%.
TLDR: 40— 60% Kosteneinsparungen für KI/ML-Workloads
1) Ohne Aufschlag auf die Rechenkosten, sparen Sie 15— 30% bei EC2-Instances im Vergleich zu SageMaker
2) Einfache Konfiguration von Spot-Instances sowohl für Training als auch für Inferenz, im Gegensatz zu SageMaker (nur Training), wodurch bis zu 70% eingespart werden
3) Vereinfacht die Ressource Skalierung auf Null für Notebooks, CPUs und GPUs, wodurch die Entwicklungskosten um 30— 70% gesenkt werden
4) Ersetzt S3-Lese-/Schreibvorgänge durch EFS-Caching, wodurch die Datenkosten um 20% gesenkt werden
5) Verwendungen erweiterte Serving-Frameworks wie VLLM und sGLang, wodurch die Latenz gesenkt und der Durchsatz um 40% gesteigert wird
6) Passt Ressourcen dynamisch an mit Infra auf Autopilot wodurch die Produktionskosten um 40— 50% gesenkt wurden
7) Unterstützt fraktionierte CPUs und GPUs, wodurch 20— 50% der Rechenkosten eingespart werden
Kein Aufschlag bei den Berechnungskosten
Der Verzicht auf die Rechenkosten ist ein entscheidender Faktor für die Gesamteinsparungen und bietet 15— 30% Ersparnisse allein bei den Kosten für Recheninstanzen.

Nahtlose Unterstützung für die Verwendung von Spot-Instances
Truefoundry macht die Konfiguration von Spot-Instances sehr einfach und wechselt nahtlos zwischen der darunter liegenden Instanz, wenn die Spot-Instance zurückgewonnen wird, mit Einsparungen von bis zu 70%

Truefoundry verwendet Karpenter und konfiguriert es optimal. Es verfügt über fortschrittliche Algorithmen, um mithilfe von AWS-APIs den richtigen Instanztyp basierend auf Verfügbarkeit und Kosten abzurufen. Auf der anderen Seite, während SageMaker unterstützt Spot-Instances für Trainingsjobs, erweitert diese Funktion jedoch nicht auf Inferenzdienste.
Vergleich der Inferenzkosten anhand einiger beliebter Inferenzinstanzen -

Automatische Abschaltung und Skalierung auf 0
Truefoundry bietet eine Auto-Shutdown-Funktion für CPU-, GPU-, Notebook- und SSH-Instanzen mit 30-70% Einsparungen bei der Entwicklung
Dies führt dazu, dass Computer automatisch heruntergefahren werden, wenn Entwickler den Computer nicht verwenden — z. B. bei Jupyter-Notebooks oder bei Demos, die wie Streamlit und Gradio gehostet werden.

In Sagemaker ist es möglich, Autoshutdown auf Jupyter-Notebooks zu konfigurieren, aber das ist ziemlich umständlich für Datenwissenschaftler zu konfigurieren was dazu führt, dass sie es überhaupt nicht konfigurieren. In Sagemaker gibt es kein automatisches Herunterfahren für GPU-Instances.
Native Unterstützung für Volumes
Sagemaker empfiehlt, während der Trainingsiterationen Daten zu lesen und in S3 zu schreiben. Dies führt zu massiven Lese- und Schreibkosten auf S3, insbesondere wenn mehrere Datenwissenschaftler Modelle mit denselben Daten trainieren. Truefoundry unterstützt das Zwischenspeichern der Daten in Volumes, für die im Vergleich zu S3 viel geringere Lese- und Schreibkosten anfallen, und zwar Reduzierung der S3-Lese-/Schreibkosten um ~ 20%, Stärkung seiner Position als zuverlässiger und budgetfreundlicher Alternative zu Sagemaker. Dieser Ansatz wird häufig von Unternehmen wie Salesforce und Netflix verwendet, um die Lese- und Schreibkosten zu senken.
Amazon S3 wird teuer, da für hochfrequente Lesevorgänge Preise pro Anfrage berechnet werden.

Niedrigere Latenz und höherer Durchsatz der Modelle
Truefoundry unterstützt nativ fortschrittliche Serving-Frameworks wie Sglang, VLLM, die einen höheren Durchsatz bei geringerer Latenz bieten können.
Truefoundry geht noch einen Schritt weiter und automatische Empfehlung des optimalen Modells auf Serverbasis zur Modellarchitektur und zum Anwendungsfall, wodurch das Rätselraten für Datenwissenschaftler entfällt, das zu ~ 40% Ermäßigung für LLMs und von Triton unterstützte Modelle
Im Gegensatz dazu beinhaltet die Standardauswahl von SageMaker oft große Bilder, die möglicherweise nicht für bestimmte Workloads optimiert sind. Dies erfordert Datenwissenschaftler, die optimale Konfigurationen manuell auswählen und testen müssen, was zu Ineffizienzen führt.
Autopilot-Funktion zur automatischen Kostensenkung
Truefoundry analysiert automatisch die laufenden Workloads und schlägt mögliche Kostenoptimierungen auf der Grundlage der angeforderten Ressourcen und der tatsächlichen Nutzung, des eingehenden Datenverkehrs usw. vor. Dies hat gezeigt Kostenoptimierung bis zu 40-50% in einigen Fällen. Sagemaker hat keine Autopilot-Funktion.

Bruchteile an CPU und Arbeitsspeicher
Truefoundry bietet Unterstützung für fraktionierte CPU-Rechenleistung und Arbeitsspeicher, sodass mehrere Workloads auf einem Computer ausgeführt werden können. Das Bin-Packing ermöglicht Einsparungen von 20% oder mehr bei der CPU-Arbeitslast. Dies ist der gleiche Grund, warum Kubernetes Ressourcen besser nutzen kann als das Ausführen von Workloads auf VMs. In Sagemaker entsprechen die minimalen CPU-/Speichereinheiten der von AWS bereitgestellten VM-spezifischen Konfiguration.
Fraktionierte GPU
Truefoundry unterstützt Sowohl Timeslicing-basierte als auch MIG-basierte GPU-Partitionierung, was zu Einsparungen von ~ 40-50% bei der GPU-Berechnung führt. Auf diese Weise können Entwickler mehrere Workloads auf einem einzigen GPU-Computer ausführen und diese nahtlos skalieren. Dies ist sehr wichtig, da GPU-Ressourcen sehr teuer sind und deren gemeinsame Nutzung zu einer massiven Kostensenkung führen kann. Sagemaker bietet keine fraktionierte GPU-Unterstützung.

Fallstudie
Eine prominente Spieleplattform, sah sich mit einer monatlichen Rechnung von 40.000 USD für die Ausführung ihrer Machine-Learning-Workloads auf SageMaker konfrontiert. Durch die Umstellung auf die kostenoptimierte Plattform von TrueFoundry konnten sie ihre Ausgaben drastisch auf nur 6.000 USD pro Monat senken. Diese Kosteneinsparungen von 85% wurden erzielt, ohne Kompromisse bei Skalierbarkeit, Leistung oder Benutzerfreundlichkeit einzugehen.
Externe Fallstudien haben auch deutliche Kostensenkungen bei der Umstellung von SageMaker auf EKS aufgezeigt. Organisationen wie LebonCoin berichten beispielsweise von Einsparungen von 30 bis 40%, nachdem sie ihre Workloads für maschinelles Lernen von SageMaker auf EKS auf Kubernetes migriert haben. Lesen Sie mehr - https://medium.com/leboncoin-tech-blog/migrating-our-machine-learning-platform-from-aws-sagemaker-to-kubernetes-kubeflow-166c56f40e5c
Häufig gestellte Fragen
Wie viel kostet AWS SageMaker?
Die SageMaker-Preisgestaltung beinhaltet eine Kombination aus instanzbasierten Gebühren für Notebooks, Schulung und Hosting. Da AWS einen Premium-Aufschlag auf die zugrunde liegende Rechenleistung berechnet, können die Kosten schnell eskalieren. Die Kosten hängen von den Instance-Typen, dem Datenverarbeitungsvolumen und den Speicheranforderungen ab. Daher ist es unerlässlich, die Nutzungsmuster im Auge zu behalten, um unerwartete monatliche Rechnungen zu vermeiden.
Ist SageMaker besser als TrueFoundry?
Die Wahl hängt von Ihren spezifischen Infrastrukturzielen ab. SageMaker bietet eine breite Palette von Tools innerhalb des AWS-Ökosystems. TrueFoundry ist oft besser für Teams, die Geschwindigkeit und Portabilität priorisieren, da es nativ auf Kubernetes in Ihrer eigenen Cloud läuft. Dies bietet eine bessere Kontrolle über die Ressourcenzuweisung und ein optimiertes Entwicklererlebnis.
Was macht TrueFoundry zu einer idealen Sagemaker-Alternative?
TrueFoundry ist eine ideale Alternative für Teams, die die betriebliche Komplexität und den hohen Overhead von SageMaker vermeiden möchten. Es bietet eine zentrale Steuerungsebene für die Bereitstellung und Überwachung und sorgt gleichzeitig für die Sicherheit der Daten in Ihrer eigenen VPC. Ihr Fokus auf automatisiertes Ressourcenmanagement und Entwicklerautonomie macht sie zu einer flexibleren Wahl für die Produktion.
Was ist teurer, TrueFoundry oder Sagemaker?
Beim Vergleich der Preise von Sagemaker und Truefoundry fallen bei SageMaker aufgrund von Infrastrukturaufschlägen und Verwaltungsgebühren in der Regel höhere Kosten an. TrueFoundry hilft, die Kosten zu senken, indem es reine Cloud-Computing- und Spot-Instances nutzt. Dieser Ansatz kann in Kombination mit der automatischen Skalierung und der Erkennung ungenutzter Ressourcen die Gesamtausgaben für die Infrastruktur reduzieren.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren















.png)




.png)






.webp)

.webp)



