Blank white background with no objects or features visible.

Werden Sie Teil unseres VAR- und VAD-Ökosystems – und ermöglichen Sie die Governance von Unternehmens-KI über LLMs, MCPs und Agents hinweg. Read →

Die 360.000-Dollar-Frage zu Large Language Models Economics

von TrueFoundry

Aktualisiert: June 22, 2023

Fassen Sie zusammen mit
Metallic silver knot design with interlocking loops and circular shape forming a decorative pattern.
Blurry black butterfly or moth icon with outstretched wings on white background.
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.
Der Zweck dieses Artikels besteht darin, den Leser darüber aufzuklären, wie die Preisgestaltung für Large Language Models (LLM) funktioniert. Dies ist auf unsere Gespräche mit mehreren Unternehmen zurückzuführen, die LLMs kommerziell einsetzen. In diesen Gesprächen wurde uns klar, dass die LLM-Ökonomie oft missverstanden wird, sodass ein enormer Optimierungsspielraum bleibt.

Ist dir klar, dass du das machst? Dieselbe Aufgabe kann entweder 3500$ für ein Modell oder 1.260.000$ für ein anderes Modell kosten? Dies hat zwar den Preis eines Leistungsunterschieds, lässt aber in der Mitte viel Spielraum, um darüber nachzudenken, was der Kompromiss zwischen Kosten und Leistung ist? Ist die Aufgabe so, dass ich etwas verwenden kann, das billiger ist?

Wir haben immer wieder festgestellt, dass Unternehmen ihre Ausgaben für Large Language Models über- oder unterschätzen. An dieser Stelle würden wir also versuchen, die Kosten für den Betrieb einiger der beliebten Large Language Models zu verstehen und zu verstehen, wie ihre Preisgestaltung funktioniert.

ℹ️

Der Zweck dieses Blogs besteht nicht darin, den Leser über LLMs oder deren Leistungen aufzuklären. Dies ist ein mathematikintensiver Blog, der sich auf das Verständnis der LLM-Preisgestaltung konzentriert. Der Einfachheit halber würden wir die Leistung dieser Modelle nicht vergleichen.

Zusammenfassung von Wikipedia

Das Beispiel für die Preisanalyse

Um zu verstehen, wie die Preise für LLMs funktionieren, würden wir die Kosten vergleichen, die für dieselbe Aufgabe anfallen, d. h. Wikipedia auf die Hälfte ihrer Größe zusammenfassen.

Details Größe der Aufgabe

Wir würden einige Näherungen verwenden, um die Berechnungen zu vereinfachen und leicht verständlich zu machen

Größe des Wikipedia-Korpus

  • ~ 6 Millionen Artikel insgesamt
  • ~ 750 Wörter pro Artikel
  • ~ 1000 Tokens pro Artikel

Tokens sind Unterteile von Wörtern, die nicht genau vom Anfang oder Ende von Wörtern abhängen. Es ist die Einheit, in der die OpenAI-APIs die Eingabe in Token aufteilen, bevor sie verarbeitet werden. Token können Leerzeichen und sogar Unterwörter enthalten.

Die erwartete Größe der zusammengefassten Ausgabe

Bei dieser Aufgabe gehen wir der Einfachheit halber davon aus, dass jeder Artikel gerade auf die Hälfte seiner Größe komprimiert wird. Daher werden die Ergebnisse, die wir erwarten, wie folgt aussehen:

  • ~6 Millionen Artikel
  • ~375 Wörter pro zusammengefasster Artikel
  • ~500 Tokens pro Artikel
Sample Task: Summarising Wikipedia Articles
Beispielaufgabe: Wikipedia-Artikel zusammenfassen

Die Kosten verstehen

Vergleich der Kosten, die die Verwendung verschiedener Modelle für diese Aufgabe kosten würde

Hebel der Preisgestaltung in OpenAI/APIs von Drittanbietern

OpenAI und andere APIs von Drittanbietern berechnen normalerweise auf der Grundlage von zwei Hebeln; wenn Sie anhand ihrer APIs ableiten möchten

Inputkosten

Diese Kosten hängen von der Anzahl der Token (oben erklärt) ab, die als Kontext/Eingabeaufforderung/Anweisung an die API übergeben werden.

Produktionskosten

Die Kosten basieren auf der Anzahl der Token, die die API als Antwort zurückgibt.

Da Sie bei einer Aufgabe wie einer Zusammenfassung das gesamte Dokument oder den Auszug zur Zusammenfassung an das Modell übergeben müssen, kann die Anzahl der Token, die Teil der Aufforderung sind, erheblich werden, daher die Eingabekosten.

Grundlage der Kosten, die bei selbst gehosteten Modellen anfallen

Bei selbst gehosteten Modellen muss der Benutzer die Maschine verwalten/bereitstellen, die für die Ausführung des Modells benötigt wird. Zwar können darin die Kosten für die Verwaltung dieser Ressourcen enthalten sein, doch die Preisgestaltung ist relativ leicht nachzuvollziehen, da sie lediglich auf den Betriebskosten der Maschine basiert (in der Regel den Kosten, die von den Cloud-Anbietern in Rechnung gestellt werden, es sei denn, Sie haben einen eigenen lokalen Cluster)

Kosten der Maschine

Kosten für die Bereitstellung der erforderlichen Maschine zum Ausführen/Hosten des Modells. Da die meisten dieser größeren Modelle größer sind als das, was auf einem Laptop oder einem einzelnen lokalen Gerät ausgeführt werden kann, wird für diese Maschinen am häufigsten ein Cloud-Anbieter verwendet.

Cloud-Anbieter geben diese Instanzen heraus, obwohl Benutzer möglicherweise Probleme mit der GPU-Verfügbarkeit haben, da für diese Modelle eine GPU erforderlich ist.

Kosten für AWS-Instanzen

Kosten der Google Cloud-Instanz

Kosten für Microsoft Azure-Instances

Spot-Instanzen

Cloud-Anbieter geben ihre freien Kapazitäten zu einem Preis an, der 40-90% günstiger ist als bei On-Demand-Instances

Vergleich der Kosten der verschiedenen Modelle

GPT 4 — 8K Kontextlänge

Kosten pro Einheit

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$30 $60

Kostenformel

Kosten = Nein. Anzahl der Tokens (pro 1000 Artikel) X Anzahl der Artikel (in Tausenden) X Stückkosten (pro 1 Million Tokens)

Kosten der Eingabe

1.000 (Token/Artikel) X 6.000K (Artikel) X 30$ (/Mio. Tokens) = 180.000$

Produktionskosten

0,5 K (Token/Artikel) X 6.000K (Artikel) X 60$ (/Mio. Token) = 180.000$

Gesamtkosten

Inputkosten + Outputkosten

= 360.000$

GPT 4 — 32K Kontextlänge

Kosten pro Einheit

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$60 $120

Eingabekosten (/Mio. Tokens) Ausgabekosten (/Mio. Tokens) $60$120

Kostenformel

Kosten = Nein. Anzahl der Tokens (pro 1000 Artikel) X Anzahl der Artikel (in Tausenden) X Stückkosten (pro 1 Million Tokens)

Kosten der Eingabe

1.000 (Token/Artikel) X 6.000K (Artikel) X 60$ (/Mio. Tokens) = 360.000$

Produktionskosten

0,5 K (Token/Artikel) X 6.000K (Artikel) X 120$ (/Mio. Token) = 360.000$

Gesamtkosten

Inputkosten + Outputkosten

= 720.000$

Anthropic Claude V1

Kosten pro Einheit

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$11 $32

Kostenformel

Kosten = Anzahl der Tokens (pro 1000 Artikel) X Anzahl der Artikel (in 1000) X Stückkosten (pro 1 Million Tokens)

Kosten der Eingabe

1.000 (Token/Artikel) X 6.000K (Artikel) X 11$ (/Mio. Tokens) = 66.000$

Produktionskosten

0,5 K (Token/Artikel) X 6.000K (Artikel) X 60$ (/Mio. Token) = 96.000$

Gesamtkosten

Inputkosten + Outputkosten

= 162.000$

InstructGPT - DaVinci

Kosten pro Einheit

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$20 $20

Kostenformel

Kosten = Nein. Anzahl der Tokens (pro 1000 Artikel) X Anzahl der Artikel (in Tausenden) X Stückkosten (pro 1 Million Tokens)

Kosten der Eingabe

1.000 (Token/Artikel) X 6.000K (Artikel) X 20$ (/Mio. Tokens) = 120.000$

Produktionskosten

0,5 K (Token/Artikel) X 6.000K (Artikel) X 20$ (/Mio. Token) = 60.000$

Gesamtkosten

Inputkosten + Outputkosten

= 180.000$

Curie

Kosten pro Einheit

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$2 $2

Kostenformel

Kosten = Nein. Anzahl der Tokens (pro 1000 Artikel) X Anzahl der Artikel (in Tausenden) X Stückkosten (pro 1 Million Tokens)

Kosten der Eingabe

1.000 (Token/Artikel) X 6.000K (Artikel) X 2$ (/Mio. Tokens) = 12.000$

Produktionskosten

0,5 K (Token/Artikel) X 6.000K (Artikel) X 60$ (/Mio. Token) = 6.000$

Gesamtkosten

Inputkosten + Outputkosten

= 18.000$

Selbst gehostetes 7B-Modell

Kosten pro Einheit

COST OF RUNNING MACHINE (/HR FOR SPOT A100-80GB)
$10

Kosten für den Betrieb der Maschine (/Stunde für Spot A100-80Gb) 10$

Kostenformel

Kosten = Anzahl der Tokens (pro 1000 Artikel) X Anzahl der Artikel (in 1000) X Stückkosten (pro 1 Million Tokens)

Kosten der Eingabe

1.000 (Token/Artikel) X 6.000K (Artikel) X 30$ (/Mio. Tokens) = 180.000$

Produktionskosten

0,5 K (Token/Artikel) X 6.000K (Artikel) X 60$ (/Mio. Token) = 180.000$

Gesamtkosten

Inputkosten + Outputkosten

= 360.000$

Feinabstimmung von Modellen

In den meisten Anwendungsfällen benötigen Unternehmen sie zur Feinabstimmung von Modellen, die für ihre eigenen Daten und für bestimmte Aufgaben spezifisch sind. Mehrere Unternehmen haben berichtet, dass fein abgestimmte Open-Source-Modelle bei der jeweiligen Aufgabe ebenbürtig oder manchmal sogar besser sind als APIs von Drittanbietern wie OpenAI.

Fein abgestimmter DaVinci

Zusammenfassung der Kosten mit einem fein abgestimmten DaVinci-Modell

Gesamtkosten

Inputkosten + Outputkosten

= 1.260.000$

Fein abgestimmter Curie

Kosten der Zusammenfassung mit einem fein abgestimmten Curie-Modell

Gesamtkosten

Inputkosten + Outputkosten

= 126.000$

Selbst gehostet, fein abgestimmt, 7B-Modell

Zusammenfassung der Kosten mit einem selbst gehosteten, fein abgestimmten 7B-Modell

Gesamtkosten

Inputkosten + Outputkosten

= 126.000$

Alles zusammenfügen

PRETRAINED / FINE TUNED MODEL NAME PARAMS* FINE TUNING COST ($) INPUT COST ($) OUTPUT COST ($) TOTAL COST ($)
Pretrained GPT-4 32K 1 Tn + NA 360k 360k 720k
GPT-4 8K 1 Tn + NA 180k 180k 360k
DaVinci 175 Bn NA 120k 60k 180k
Claude v1 52 Bn NA 66k 96k 162k
Curie 13 Bn NA 12k 6k 18k
Self-hosted 7B 7 Bn NA 350 1750 2.1k
Fine Tuned DaVinci 175 Bn 180k 720k 360k 1.26M
Curie 13 Bn 18k 72k 36k 126k
Self-hosted 7B 7 Bn 1400 350 1750 3.5k

Dinge, die Sie bei der Preisgestaltung beachten sollten:

  1. DaVinci- und Curie-Modelle sind ~7-mal teurer, wenn Sie sie an Ihren Anwendungsfall anpassen
  2. Die Kosten steigen mit einer Erhöhung des Kontextfensters um ~2X
  3. Die Kosten für die Verwendung des Modells steigen mit der Anzahl der Parameter des Modells

Auswirkung der Feinabstimmung auf die Leistung

Wir verwenden den folgenden Benchmark, um die Auswirkungen der Feinabstimmung von Modellen auf die Leistung der Modelle zu analysieren. Es ist interessant festzustellen, dass:

  1. Modelle mit niedrigeren Parametern können auch besser abschneiden als größere Modelle, wenn sie für einen bestimmten Anwendungsfall optimiert werden.
  2. Signifikante Kosteneinsparungen sind möglich, ohne die Leistung wesentlich zu beeinträchtigen, wenn der richtige Kompromiss zwischen Kosten und Leistung gefunden wird.

AufgabentypBest 6B/7B OOTB Model Few-ShotMoveLM 7B Zero-ShotGPT-3.5 Turbo Zero-ShotGPT-3.5 Turbo Few-ShotGPT-4 Zero-ShotGPT-4 Few-ShotRelevance - interner Datensatz0,330,930,840,840,920,95Extraktion — strukturierte Ausgabe für Abfragen0.380,980,220.720.380.73Begründung — benutzerdefinierte Triggerung0,620,930.870.880.90.88Klassifikation - Domäne der Benutzerabfrage0,210,790.60.730.70.76Extraction — strukturierte Ausgabe aus der Entitätstypisierung0,830,870,90,890,890,89

TASK TYPE BEST 6B/7B OOTB MODEL FEW-SHOT MOVELM 7B ZERO-SHOT GPT-3.5 TURBO ZERO-SHOT GPT-3.5 TURBO FEW-SHOT GPT-4 ZERO-SHOT GPT-4 FEW-SHOT
Relevance - internal dataset 0.33 0.93 0.84 0.84 0.92 0.95
Extraction - structured output for queries 0.38 0.98 0.22 0.72 0.38 0.73
Reasoning - custom triggering 0.62 0.93 0.87 0.88 0.9 0.88
Classification - domain of user query 0.21 0.79 0.6 0.73 0.7 0.76
Extraction - structured output from entity typing 0.83 0.87 0.9 0.89 0.89 0.89

Was wir machen

TrueFoundry glaubt, dass die Zukunft von LLMs in der Koexistenz von Open-Source-und kommerziellen LLMs in derselben Anwendung liegt!

Wir glauben an einen Zustand von Anwendungen, in dem die einfacheren Aufgaben von leichten Open-Source-LLMs erledigt werden, wohingegen komplexere Aufgaben oder solche, die besondere Funktionen erfordern (z. B. Websuche, API-Aufrufe usw.), die nur von kommerziellen Closed-LLMs angeboten werden, an sie delegiert werden können.

Wenn Sie OpenAI verwenden

Wir helfen dabei, die Anzahl der an OpenAI-APIs gesendeten Token zu reduzieren. Warum wir uns entschieden haben, daran zu arbeiten, weil:

  1. Wir haben festgestellt, dass mehr als die Hälfte der Kosten auf die Verarbeitung von Kontext-/Prompt-Token entfällt.
  2. Alle Wörter sind nicht notwendig. LLMs eignen sich hervorragend für die Arbeit mit unvollständigen Sätzen.

Daher Wahre Gießerei erstellt eine Komprimierungs-API für sparen Sie OpenAI-Kosten um ~ 30%.

Compression in OpenAI
Komprimierung in OpenAI

Wenn Sie Open Source LLMs verwenden möchten

Wir vereinfachen den Betrieb dieser Modelle in Ihrer eigenen Infrastruktur durch unsere folgenden Angebote:

  1. Modellkatalog: Von Open-Source-LLMs — optimiert für Inferenz und Feinabstimmung.
  2. Drop-In-APIs: Diese können direkt gegen die HuggingFace- und OpenAI-APIs ausgetauscht werden, die Sie bereits in Ihren Anwendungen ausführen.
  3. Kostenoptimierung: Across-Cloud auf K8s, indem Sie Ihre Cloud-Credits oder Ihr Budget nutzen.
Das Open-Source-LLM von TrueFoundry

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Melde dich an
Inhaltsverzeichniss

Steuern, implementieren und verfolgen Sie KI in Ihrer eigenen Infrastruktur

Buchen Sie eine 30-minütige Fahrt mit unserem KI-Experte

Eine Demo buchen

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Demo buchen

Entdecke mehr

July 20, 2023
|
Lesedauer: 5 Minuten

LLMops CoE: Die nächste Grenze in der MLOps-Landschaft

April 16, 2024
|
Lesedauer: 5 Minuten

Cognita: Entwicklung modularer Open-Source-RAG-Anwendungen für die Produktion

May 25, 2023
|
Lesedauer: 5 Minuten

Open-Source-LLMs: Umarmen oder untergehen

August 27, 2025
|
Lesedauer: 5 Minuten

Kartierung des KI-Marktes vor Ort: Von Chips bis zu Steuerflugzeugen

May 16, 2026
|
Lesedauer: 5 Minuten

The Agent Sprawl Problem: Why Enterprises Need Control Before Autonomy

Keine Artikel gefunden.
May 15, 2026
|
Lesedauer: 5 Minuten

Introducing Skills Registry: Reusable Agent Skills for Production AI Systems

Keine Artikel gefunden.
Types of AI agents governed by TrueFoundry enterprise control plane
May 15, 2026
|
Lesedauer: 5 Minuten

Types of AI Agents: Definitions, Roles, and What They Mean for Enterprise Deployment

Keine Artikel gefunden.
May 15, 2026
|
Lesedauer: 5 Minuten

OAuth at the MCP Layer: How We Solved Enterprise Token Management for AI Agents

Keine Artikel gefunden.
Keine Artikel gefunden.

Aktuelle Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Machen Sie eine kurze Produkttour
Produkttour starten
Produkttour