Die 360.000-Dollar-Frage zu Large Language Models Economics

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Der Zweck dieses Artikels besteht darin, den Leser darüber aufzuklären, wie die Preisgestaltung für Large Language Models (LLM) funktioniert. Dies ist auf unsere Gespräche mit mehreren Unternehmen zurückzuführen, die LLMs kommerziell einsetzen. In diesen Gesprächen wurde uns klar, dass die LLM-Ökonomie oft missverstanden wird, sodass ein enormer Optimierungsspielraum bleibt.

Ist dir klar, dass du das machst? Dieselbe Aufgabe kann entweder 3500$ für ein Modell oder 1.260.000$ für ein anderes Modell kosten? Dies hat zwar den Preis eines Leistungsunterschieds, lässt aber in der Mitte viel Spielraum, um darüber nachzudenken, was der Kompromiss zwischen Kosten und Leistung ist? Ist die Aufgabe so, dass ich etwas verwenden kann, das billiger ist?

‍

$360k Question - Understanding the LLM Economics - Video | MLOps Community

Most of us are using LLMs and some of us are getting to the point where LLMs are going to production. Honeymoon phase is going to get over soon and practical realities like cost & maintainability are going to become mainstream. However, the cost of running..

MLOps Community

‍

Wir haben immer wieder festgestellt, dass Unternehmen ihre Ausgaben für Large Language Models über- oder unterschätzen. An dieser Stelle würden wir also versuchen, die Kosten für den Betrieb einiger der beliebten Large Language Models zu verstehen und zu verstehen, wie ihre Preisgestaltung funktioniert.

ℹ️

Der Zweck dieses Blogs besteht nicht darin, den Leser über LLMs oder deren Leistungen aufzuklären. Dies ist ein mathematikintensiver Blog, der sich auf das Verständnis der LLM-Preisgestaltung konzentriert. Der Einfachheit halber würden wir die Leistung dieser Modelle nicht vergleichen.

Zusammenfassung von Wikipedia

`Das` Beispiel für die Preisanalyse

Um zu verstehen, wie die Preise für LLMs funktionieren, würden wir die Kosten vergleichen, die für dieselbe Aufgabe anfallen, d. h. Wikipedia auf die Hälfte ihrer Größe zusammenfassen.

Details Größe der Aufgabe

Wir würden einige Näherungen verwenden, um die Berechnungen zu vereinfachen und leicht verständlich zu machen

Größe des Wikipedia-Korpus

~ 6 Millionen Artikel insgesamt
~ 750 Wörter pro Artikel
~ 1000 Tokens pro Artikel

❓

Tokens sind Unterteile von Wörtern, die nicht genau vom Anfang oder Ende von Wörtern abhängen. Es ist die Einheit, in der die OpenAI-APIs die Eingabe in Token aufteilen, bevor sie verarbeitet werden. Token können Leerzeichen und sogar Unterwörter enthalten.

Die erwartete Größe der zusammengefassten Ausgabe

Bei dieser Aufgabe gehen wir der Einfachheit halber davon aus, dass jeder Artikel gerade auf die Hälfte seiner Größe komprimiert wird. Daher werden die Ergebnisse, die wir erwarten, wie folgt aussehen:

~6 Millionen Artikel
~375 Wörter pro zusammengefasster Artikel
~500 Tokens pro Artikel

Sample Task: Summarising Wikipedia Articles — **Beispielaufgabe: Wikipedia-Artikel zusammenfassen**

Die Kosten verstehen

Vergleich der Kosten, die die Verwendung verschiedener Modelle für diese Aufgabe kosten würde

Hebel der Preisgestaltung in OpenAI/APIs von Drittanbietern

OpenAI und andere APIs von Drittanbietern berechnen normalerweise auf der Grundlage von zwei Hebeln; wenn Sie anhand ihrer APIs ableiten möchten

Inputkosten

Diese Kosten hängen von der Anzahl der Token (oben erklärt) ab, die als Kontext/Eingabeaufforderung/Anweisung an die API übergeben werden.

Produktionskosten

Die Kosten basieren auf der Anzahl der Token, die die API als Antwort zurückgibt.

Da Sie bei einer Aufgabe wie einer Zusammenfassung das gesamte Dokument oder den Auszug zur Zusammenfassung an das Modell übergeben müssen, kann die Anzahl der Token, die Teil der Aufforderung sind, erheblich werden, daher die Eingabekosten.

Grundlage der Kosten, die bei selbst gehosteten Modellen anfallen

Bei selbst gehosteten Modellen muss der Benutzer die Maschine verwalten/bereitstellen, die für die Ausführung des Modells benötigt wird. Zwar können darin die Kosten für die Verwaltung dieser Ressourcen enthalten sein, doch die Preisgestaltung ist relativ leicht nachzuvollziehen, da sie lediglich auf den Betriebskosten der Maschine basiert (in der Regel den Kosten, die von den Cloud-Anbietern in Rechnung gestellt werden, es sei denn, Sie haben einen eigenen lokalen Cluster)

Kosten der Maschine

Kosten für die Bereitstellung der erforderlichen Maschine zum Ausführen/Hosten des Modells. Da die meisten dieser größeren Modelle größer sind als das, was auf einem Laptop oder einem einzelnen lokalen Gerät ausgeführt werden kann, wird für diese Maschinen am häufigsten ein Cloud-Anbieter verwendet.

Cloud-Anbieter geben diese Instanzen heraus, obwohl Benutzer möglicherweise Probleme mit der GPU-Verfügbarkeit haben, da für diese Modelle eine GPU erforderlich ist.

Kosten für AWS-Instanzen

Kosten der Google Cloud-Instanz

Kosten für Microsoft Azure-Instances

Spot-Instanzen

Cloud-Anbieter geben ihre freien Kapazitäten zu einem Preis an, der 40-90% günstiger ist als bei On-Demand-Instances

Vergleich der Kosten der verschiedenen Modelle

GPT 4 — 8K Kontextlänge

Kosten pro Einheit

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$30	$60

‍

Kostenformel

Kosten = Nein. Anzahl der Tokens (pro 1000 Artikel) X Anzahl der Artikel (in Tausenden) X Stückkosten (pro 1 Million Tokens)

Kosten der Eingabe

1.000 (Token/Artikel) X 6.000K (Artikel) X 30$ (/Mio. Tokens) = 180.000$

Produktionskosten

0,5 K (Token/Artikel) X 6.000K (Artikel) X 60$ (/Mio. Token) = 180.000$

Gesamtkosten

Inputkosten + Outputkosten

= 360.000$

GPT 4 — 32K Kontextlänge

Kosten pro Einheit

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$60	$120

COST OF RUNNING MACHINE (/HR FOR SPOT A100-80GB)

$10

Kosten für den Betrieb der Maschine (/Stunde für Spot A100-80Gb) 10$

Kostenformel

Kosten = Anzahl der Tokens (pro 1000 Artikel) X Anzahl der Artikel (in 1000) X Stückkosten (pro 1 Million Tokens)

Kosten der Eingabe

1.000 (Token/Artikel) X 6.000K (Artikel) X 30$ (/Mio. Tokens) = 180.000$

Produktionskosten

0,5 K (Token/Artikel) X 6.000K (Artikel) X 60$ (/Mio. Token) = 180.000$

Gesamtkosten

Inputkosten + Outputkosten

= 360.000$

Feinabstimmung von Modellen

In den meisten Anwendungsfällen benötigen Unternehmen sie zur Feinabstimmung von Modellen, die für ihre eigenen Daten und für bestimmte Aufgaben spezifisch sind. Mehrere Unternehmen haben berichtet, dass fein abgestimmte Open-Source-Modelle bei der jeweiligen Aufgabe ebenbürtig oder manchmal sogar besser sind als APIs von Drittanbietern wie OpenAI.

Alles zusammenfügen

PRETRAINED / FINE TUNED	MODEL NAME	PARAMS*	FINE TUNING COST ($)	INPUT COST ($)	OUTPUT COST ($)	TOTAL COST ($)
Pretrained	GPT-4 32K	1 Tn +	NA	360k	360k	720k
	GPT-4 8K	1 Tn +	NA	180k	180k	360k
	DaVinci	175 Bn	NA	120k	60k	180k
	Claude v1	52 Bn	NA	66k	96k	162k
	Curie	13 Bn	NA	12k	6k	18k
	Self-hosted 7B	7 Bn	NA	350	1750	2.1k
Fine Tuned	DaVinci	175 Bn	180k	720k	360k	1.26M
	Curie	13 Bn	18k	72k	36k	126k
	Self-hosted 7B	7 Bn	1400	350	1750	3.5k

‍

Dinge, die Sie bei der Preisgestaltung beachten sollten:

DaVinci- und Curie-Modelle sind ~7-mal teurer, wenn Sie sie an Ihren Anwendungsfall anpassen
Die Kosten steigen mit einer Erhöhung des Kontextfensters um ~2X
Die Kosten für die Verwendung des Modells steigen mit der Anzahl der Parameter des Modells

Auswirkung der Feinabstimmung auf die Leistung

Wir verwenden den folgenden Benchmark, um die Auswirkungen der Feinabstimmung von Modellen auf die Leistung der Modelle zu analysieren. Es ist interessant festzustellen, dass:

Modelle mit niedrigeren Parametern können auch besser abschneiden als größere Modelle, wenn sie für einen bestimmten Anwendungsfall optimiert werden.
Signifikante Kosteneinsparungen sind möglich, ohne die Leistung wesentlich zu beeinträchtigen, wenn der richtige Kompromiss zwischen Kosten und Leistung gefunden wird.

AufgabentypBest 6B/7B OOTB Model Few-ShotMoveLM 7B Zero-ShotGPT-3.5 Turbo Zero-ShotGPT-3.5 Turbo Few-ShotGPT-4 Zero-ShotGPT-4 Few-ShotRelevance - interner Datensatz0,330,930,840,840,920,95Extraktion — strukturierte Ausgabe für Abfragen0.380,980,220.720.380.73Begründung — benutzerdefinierte Triggerung0,620,930.870.880.90.88Klassifikation - Domäne der Benutzerabfrage0,210,790.60.730.70.76Extraction — strukturierte Ausgabe aus der Entitätstypisierung0,830,870,90,890,890,89

TASK TYPE	BEST 6B/7B OOTB MODEL FEW-SHOT	MOVELM 7B ZERO-SHOT	GPT-3.5 TURBO ZERO-SHOT	GPT-3.5 TURBO FEW-SHOT	GPT-4 ZERO-SHOT	GPT-4 FEW-SHOT
Relevance - internal dataset	0.33	0.93	0.84	0.84	0.92	0.95
Extraction - structured output for queries	0.38	0.98	0.22	0.72	0.38	0.73
Reasoning - custom triggering	0.62	0.93	0.87	0.88	0.9	0.88
Classification - domain of user query	0.21	0.79	0.6	0.73	0.7	0.76
Extraction - structured output from entity typing	0.83	0.87	0.9	0.89	0.89	0.89

‍

Was wir machen

TrueFoundry glaubt, dass die Zukunft von LLMs in der Koexistenz von Open-Source-und kommerziellen LLMs in derselben Anwendung liegt!

Wir glauben an einen Zustand von Anwendungen, in dem die einfacheren Aufgaben von leichten Open-Source-LLMs erledigt werden, wohingegen komplexere Aufgaben oder solche, die besondere Funktionen erfordern (z. B. Websuche, API-Aufrufe usw.), die nur von kommerziellen Closed-LLMs angeboten werden, an sie delegiert werden können.

Wenn Sie OpenAI verwenden

Wir helfen dabei, die Anzahl der an OpenAI-APIs gesendeten Token zu reduzieren. Warum wir uns entschieden haben, daran zu arbeiten, weil:

Wir haben festgestellt, dass mehr als die Hälfte der Kosten auf die Verarbeitung von Kontext-/Prompt-Token entfällt.
Alle Wörter sind nicht notwendig. LLMs eignen sich hervorragend für die Arbeit mit unvollständigen Sätzen.

Daher Wahre Gießerei erstellt eine Komprimierungs-API für sparen Sie OpenAI-Kosten um ~ 30%.

Compression in OpenAI — Komprimierung in OpenAI

Wenn Sie Open Source LLMs verwenden möchten

Wir vereinfachen den Betrieb dieser Modelle in Ihrer eigenen Infrastruktur durch unsere folgenden Angebote:

Modellkatalog: Von Open-Source-LLMs — optimiert für Inferenz und Feinabstimmung.
Drop-In-APIs: Diese können direkt gegen die HuggingFace- und OpenAI-APIs ausgetauscht werden, die Sie bereits in Ihren Anwendungen ausführen.
Kostenoptimierung: Across-Cloud auf K8s, indem Sie Ihre Cloud-Credits oder Ihr Budget nutzen.

🚀 Build your own LLM application with us

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo