Aufschlüsselung der Nutzung von KI-Gateways: Analysen auf Kunden- und Benutzerebene

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Da die LLM-Nutzung teamübergreifend skaliert und Funktionen wie Chat, Einbettung, Reranking und Echtzeit-Inferenz genutzt werden, führt die tokenbasierte Abrechnung zu einer Kostenkomplexität. Vielen Unternehmen fehlt jedoch der Einblick in zentrale Fragen wie: Wer verwendet die meisten Tokens? , welche Funktionen sind am teuersten? , und wie verteilt sich die Nutzung auf Teams oder Kunden? Ohne eine detaillierte Zuordnung wird es schwierig, die Ausgaben zu kontrollieren oder die Auswirkungen zu bewerten.

TrueFoundry verändert das Narrativ, indem es Metadaten-Tagging direkt in jeden LLM-Aufruf einbettet. Ganz gleich, ob Sie ein SaaS-Anbieter mit mehreren Mandanten sind, der die Kundenausgaben verfolgt, oder ein internes Plattformteam sind, das die Nutzung von Funktionen überwacht, Wahre Gießerei bietet eine transparente Ansicht der Nutzungsdaten. Alle Beteiligten aus den Bereichen Technik, Finanzen und Produkt erhalten sofortigen Zugriff auf detaillierte Dashboards, die die Kosten dem richtigen Kunden, Team oder Anwendungsfall zuordnen.

In diesem Artikel erfahren Sie, wie detailliertes Tracking und Kostenzuweisung intelligentere Entscheidungen ermöglichen und das volle Potenzial Ihrer LLM-Investitionen ausschöpfen.

So verfolgt TrueFoundry die Nutzung und die Kosten von LLM

TrueFoundry bietet detaillierte Beobachtbarkeit für jede LLM-Anfrage und ermöglicht eine detaillierte Kostenzuweisung und Nutzungsanalyse für Teams, Funktionen und Kunden. Jede Anfrage wird automatisch mit umfassenden Metadaten protokolliert, darunter:

Name des Modells
Zeitstempel
Anzahl der Eingabe- und Ausgabe-Tokens
Temperatur- und Maximalwerte
Latenz und Kosten
Art der Anfrage (z. B. Chat, Abschluss)
Benutzerdefinierte Metadaten (z. B. Tags)

Verfolgung der LLM-Nutzung über mehrere Dimensionen hinweg

Bei der Initialisierung des TrueFoundry-Clients können Entwickler benutzerdefinierte Tags wie customer_id, business_unit oder feature_name übergeben. Diese Tags werden zusammen mit jeder Anfrage gespeichert und können über Dashboards und APIs abgefragt werden. Auf diese Weise können Unternehmen:

Attributieren Sie die Kosten pro Mandant in einer SaaS-Umgebung mit mehreren Mandanten mithilfe von customer_id
Verfolgen Sie die Nutzung nach Geschäftsbereich oder Abteilung mithilfe von Organisationstags
Analysieren Sie den Token-Verbrauch nach Produktfunktionen wie Chatbots, Empfehlungsmaschinen oder Analysemodulen

‍

TrueFoundry LLM Usage Analytics:

Feeling in the dark about where your LLM spending and usage are going? TrueFoundry’s usage analytics shines a spotlight on every token and dollar, transforming uncertainty into actionable insights.

TrueFoundry equips you with:

Custom metadata tagging: Automatically tag each LLM request with fields like customer_id, business_unit, or feature_name for precise attribution.
Multi-dimensional usage breakdown: View usage and cost by model, user, team, or custom tag to identify high-consumption workloads at a glance.
Interactive dashboards: Access real-time graphs for requests, input/output tokens, latencies, error rates, and cost trends across all models.
Granular cost attribution: Drill into token counts, cost per request, and total spend per customer or feature to optimize budgets and show ROI.
Queryable analytics API: Export and query raw usage data or integrate with external BI tools for custom reporting, alerts, and deeper analysis.

Get Started with Truefoundry

Einblicke und Optimierung in Echtzeit

Getaggte Metadaten unterstützen flexibles Filtern und Gruppieren, sodass funktionsübergreifende Teams die Nutzung nach beliebigen benutzerdefinierten Dimensionen aufschlüsseln können. Zum Beispiel:

Ein Produktteam kann überwachen, welche Funktionen die meiste Token-Nutzung generieren, und dies mit der Nutzerbindung korrelieren.
Finanzteams können mithilfe von markierten Nutzungsdaten Kosten präzise internen Teams oder Kunden zuordnen.
Technische Leiter können die Leistung verfolgen und kostenintensive Aufforderungen oder Dienste auf der Grundlage von Token- und Latenztrends optimieren.

Vorteile der granularen Attribution

Transparente Rückbuchungen: Ermöglicht eine automatische, nutzungsbasierte interne oder externe Abrechnung, um die Verantwortlichkeit zwischen Teams oder Kunden zu stärken.
Verbesserte ROI-Analyse: Hilft Produkt- und Analyseteams bei der Bewertung der Rendite von KI-Investitionen, indem die Token-Nutzung den Geschäftsergebnissen zugeordnet wird.
Vorhersagbare Budgetierung: Unterstützt präzise Prognosen und die Durchsetzung des Budgets durch Ausgabenüberwachung und Warnmeldungen auf der Grundlage von Trends auf Tag-Ebene.

Durch die Kombination von umfassender Transparenz auf Anforderungsebene mit benutzerdefiniertem Tagging ermöglicht TrueFoundry Unternehmen die Operationalisierung LLM-Beobachtbarkeit, Kostenkontrolle und Leistungsoptimierung auf skalierbare, transparente Weise.

Key Metrics for Evaluating Gateway

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

Evaluating an AI Gateway?

A practical guide used by platform & infra teams

Strategische Maßnahmen mit LLM Usage Analytics vorantreiben

TrueFoundry wandelt detaillierte LLM-Nutzungsdaten in umsetzbare Erkenntnisse um, sodass Produkt-, Konstruktions- und Finanzteams fundierte Entscheidungen treffen können, um die Leistung zu optimieren und die Kosten zu kontrollieren.

Strategische Entscheidungen, die durch Nutzungsausfälle ermöglicht werden

Gestaffelte Preismodelle

Mit einem umfassenden Einblick in die Token-Nutzungsmuster können Unternehmen Preisstufen entwerfen, die der tatsächlichen Nutzung entsprechen. Durch die Analyse historischer Daten können Teams:

Legen Sie Basispläne fest, die auf die durchschnittliche monatliche Token-Nutzung abgestimmt sind.
Bieten Sie Kunden, die Token effizient verwenden, ermäßigte Überschreitungsraten an.
Führen Sie Premium-Stufen für Vielnutzer ein, die größere Kontingente benötigen.

Beispiel: Ein SaaS-Anbieter könnte eine Standardstufe einrichten, die auf 200.000 Token pro Monat begrenzt ist, und eine Professional-Stufe auf 1 Million Token. Wenn sich die Bedürfnisse der Kunden weiterentwickeln, können sie nahtlos zwischen den Stufen wechseln und so eine faire und vorhersehbare Preisgestaltung gewährleisten.

Durchsetzung von Benutzerquoten

TrueFoundry bietet über sein AI Gateway integrierte Unterstützung für die Durchsetzung von Nutzungsquoten, indem es Ratenbegrenzung im AI-Gateway Regeln, die den Verbrauch von Benutzern, Teams und virtuellen Konten kontrollieren. Diese Funktion stellt sicher, dass Unternehmen den Verbrauch auf mehreren Ebenen kontrollieren können, wodurch Kostenüberschreitungen vermieden und sichere Experimente ermöglicht werden.

Kontingente können angewendet werden für:

Einzelne Nutzer
Beispiel: Beschränken Sie bob@email.com auf 1.000 Anfragen pro Tag.
Mannschaften
Beispiel: Beschränken Sie das Frontend-Team auf 5.000 Anfragen pro Tag.
Virtuelle Konten
Beispiel: Obergrenzen Sie das virtuelle Konto va-james auf 1.500 Anfragen pro Tag.

Diese Einschränkungen werden mithilfe einer Gateway-Rate-Limiting-Config-YAML-Datei konfiguriert, in der jede Regel den Betreff, den Schwellenwert und die Maßeinheit definiert. Regeln werden nacheinander ausgewertet, und die erste geltende Regel löst die Durchsetzung aus.

Beispielkonfiguration:

name: ratelimiting-config
type: gateway-rate-limiting-config
rules:
  - id: "rule-id"
    when:
      subjects: ["team:frontend"] # or ["user:email"] or ["virtualaccount:name"]
    limit_to: 5000
    unit: requests_per_day

Alle passenden Regeln werden berücksichtigt, und wenn einige überschritten werden, wird die entsprechende Regel-ID an den Benutzer zurückgegeben, sodass Klarheit darüber besteht, welches Kontingent ausgelöst wurde.

Dieser Durchsetzungsmechanismus ermöglicht Ihnen:

Vermeiden Sie unerwartete Nutzungsspitzen, indem Sie den Traffic auf Benutzer-, Team- oder virtueller Kontoebene begrenzen.
Bieten Sie gestaffelte Tarife mit vordefinierten Limits für Freemium- oder Testkonten an.
Lösen Sie Warnmeldungen aus, wenn sich Schwellenwerte nähern, sodass die Beteiligten Korrekturmaßnahmen ergreifen können.

Da die Quotendurchsetzung auf Gateway-Ebene konfiguriert ist, gewährleistet TrueFoundry eine feinkörnige Steuerung, ohne dass Änderungen an nachgelagerten Modellen oder der Infrastruktur erforderlich sind. Dies macht es ideal für die Durchführung von Pilotprojekten, das Anbieten von Testversionen und den Aufbau skalierbarer, kostenkontrollierter KI-Services mit mehreren Mandanten.

Identifizierung unteroptimierter Kunden oder Funktionen

Durch die Kombination von Kostendaten mit Leistungskennzahlen hilft TrueFoundry dabei, Ineffizienzen zu identifizieren. Diese Erkenntnisse helfen Teams auch bei der Optimierung LLM-Router, sodass Anfragen an das Modell weitergeleitet werden können, das Latenz, Kosten und Ausgabequalität am besten ausgleicht. Teams können:

Kennzeichnen Sie Kundensegmente oder Funktionen mit hohen Token-Ausgaben, aber geringem Engagement.
Analysieren Sie Vorlagen und Workflows für Aufforderungen, die zu einer übermäßigen Nutzung führen.
Priorisieren Sie Optimierungsbemühungen oder überarbeiten Sie Codepfade, um den ROI zu verbessern.

Beispiel: Wenn für eine Übersetzungsfunktion hohe Kosten anfallen, ohne dass zusätzliche Einnahmen generiert werden, können die Teams anhand der Modellanweisungen iterieren oder zu einem effizienteren Modell wechseln, um Leistung und Preis in Einklang zu bringen.

Funktionsübergreifende Wirkung

Teams für die Markteinführung

Vertriebs- und Marketingteams nutzen die Nutzungsberichte von TrueFoundry, um Wertversprechen an den Kundenergebnissen auszurichten. Sie können:

Begründen Sie die Premium-Preise, indem Sie nachweisen, wie die Token-Nutzung mit den Geschäftsergebnissen korreliert.
Erstellen Sie gezielte Upsell-Kampagnen für Konten, die tendenziell zu einem höheren Konsum tendieren.
Bieten Sie Ihren Kunden transparente Nutzungsberichte, bauen Sie Vertrauen auf und reduzieren Sie die Kundenabwanderung.

Finanzen und Betrieb

Finanzteams gewinnen an Prognosegenauigkeit, indem sie markierte Nutzungstrends im Zeitverlauf analysieren. Mit diesen Daten können sie:

Projizieren Sie die Ausgaben für KI auf der Grundlage der Wachstumsraten im Vergleich zum Vormonat.
Implementieren Sie interne Chargeback-Modelle, um die Kosten an die Umsatzzentren anzupassen.
Planen Sie die Infrastrukturkapazität so, dass sie der Nachfrage entspricht, und vermeiden Sie sowohl eine Überversorgung als auch Leistungsengpässe.

TrueFoundry übersetzt detaillierte Nutzungsaufschlüsselungen in klare, umsetzbare Erkenntnisse und versetzt jedes Team in einer Organisation in die Lage, Kosten zu optimieren, die Funktionsleistung zu verbessern und KI-Initiativen mit Zuversicht zu skalieren.

Implementierung von Tagging und Nutzungsverfolgung in TrueFoundry

Die Implementierung einer granularen Nutzungsverfolgung mit TrueFoundry umfasst drei Kernschritte: das Anwenden von Metadaten-Tags bei jedem Anruf, die Integration dieser Daten in Ihre Analyse- oder Abrechnungstools und das Einbetten von Best Practices, um die Erkenntnisse mit den Geschäftszielen in Einklang zu bringen.

Implementieren Sie Tagging und Nutzungsverfolgung

Tagging und Metadaten-Tracking in TrueFoundry ermöglichen eine detaillierte Beobachtung der Nutzung der LLM-Infrastruktur in Umgebungen, Teams, Funktionen und Kunden.

Metadaten zu LLM-API-Anfragen hinzufügen

Mit TrueFoundry können Sie mithilfe des X-TFY-METADATA-Headers benutzerdefinierte Metadaten an jede LLM-Anfrage anhängen. Diese Metadaten werden zusammen mit jedem Aufruf gespeichert und können für die Protokollierung, Filterung und Zuordnung verwendet werden.

Beispiel:

metadata = {
    "tfy_log_request": "true",      # Enables request logging
    "environment": "staging",       # Tracks deployment environment
    "feature": "countdown-bot"      # Identifies the calling feature
}

client.chat.completions.create(
    # ... other parameters ...
    extra_headers={
        "X-TFY-METADATA": '{"tfy_log_request":"true"}'
    }
)

Dadurch wird sichergestellt, dass jeder API-Aufruf einen umfassenden Kontext für Analysen, Kostenzuweisung und Debugging enthält.

Tags auf ML-Läufe anwenden

Wenn Sie die ML-Plattform von TrueFoundry für Schulungen oder Experimente verwenden, können Sie jeden Lauf taggen, um die Experimente nach Framework, Aufgabe oder Geschäftsziel zu organisieren.

Beispiel:

import truefoundry.ml as tfm

client = tfm.get_client()
run = client.create_run(ml_repo="my-classification-project")
run.set_tags({"nlp.framework": "Spark NLP"})
run.end()

Diese Tags helfen dir dabei, Läufe in Dashboards zu kategorisieren, vergangene Experimente zu durchsuchen und Governance-Richtlinien durchzusetzen.

Bewährte Methoden für das Taggen

Verwenden Sie konsistente Formate wie snake_case für Tag-Schlüssel und -Werte
Validieren Sie Tag-Eingaben über CI- oder Pre-Commit-Hooks
Überprüfe und rotiere veraltete Tags regelmäßig, um saubere Protokolle zu führen

Integrieren Sie in Abrechnungs-Dashboards und Analysetools

Sobald das Tagging aktiviert ist, bietet TrueFoundry mehrere Möglichkeiten, die LLM-Nutzung in Ihrem Unternehmen zu visualisieren und zu analysieren. Das integrierte Analyse-Dashboard bietet in Echtzeit Einblicke in den Token-Verbrauch, die Latenzperzentile (P50, P90, P99), die Fehlerraten und die Kosten. Diese Metriken sind nach Benutzer, Modell und Anforderungstyp aufgeschlüsselt, sodass Teams den API-Zustand überwachen und Muster mit hohen Kosten oder hoher Latenz schnell erkennen können.

Für erweiterte Analysen unterstützt TrueFoundry die Integration mit Tools wie Tableau, Looker und Grafana. Sie können Ihren Nutzungsdatensatz verbinden, um Dashboards zu erstellen, die Tokens pro Kunde, Kosten pro Funktion und Nutzungstrends im Laufe der Zeit hervorheben.

Finanz- und Betriebsteams können Nutzungsdaten über die Usage API in zentralisierte Data Warehouses wie Snowflake, BigQuery oder Redshift exportieren. Dies ermöglicht Chargeback-Berichte, den Vergleich der KI-Ausgaben zwischen Abteilungen und Finanzprognosen.

TrueFoundry lässt sich auch in Observability-Plattformen wie Datadog, Prometheus, CloudWatch und New Relic integrieren. Diese Integrationen ermöglichen eine einheitliche Überwachung der Systemleistung und der LLM-Nutzungsmetriken.

Grafana-Benutzer können Echtzeit-Dashboards erstellen, die die CPU-, GPU- und Netzwerkauslastung auf Auftrags- oder Bereitstellungsebene visualisieren. Dies gewährleistet einen vollständigen Überblick sowohl über das Modellverhalten als auch über die zugrunde liegende Infrastruktur.

Daten an Geschäftszielen ausrichten

Rohkennzahlen werden nur dann wertvoll, wenn sie mit aussagekräftigen Geschäftszielen verknüpft sind. Mit den Tagging- und Beobachtbarkeitsfunktionen von TrueFoundry können Teams Leistungsindikatoren definieren, die den tatsächlichen Wert widerspiegeln. Arbeiten Sie mit Stakeholdern aus den Bereichen Produkt, Finanzen und Analytik zusammen, um KPIs wie Kosten pro Interaktion, Tokens pro Conversion oder Umsatz pro tausend Tokens festzulegen.

Diese KPIs sollten in Geschäftsberichte, Produktpläne und Finanzplanungssitzungen eingebettet werden, um sicherzustellen, dass die LLM-Ausgaben auf die strategischen Ergebnisse abgestimmt sind. Nutzungsdaten können als Leitfaden für Investitionsentscheidungen dienen, leistungsschwache Funktionen identifizieren und Möglichkeiten zur Modelloptimierung aufzeigen.

Pflegen Sie ein gemeinsames Glossar mit Stichwörtern, Funktionen und KPIs, um neue Teammitglieder bei der Aufnahme neuer Teammitglieder zu unterstützen und Unklarheiten zwischen Funktionen zu vermeiden. Bieten Sie Teams, die nicht nur für die technische Abteilung zuständig sind, Zugriff auf Dashboards, einschließlich Vertrieb, Marketing und Support. Dies ermöglicht ihnen:

Überwachen Sie Nutzungsspitzen oder -anomalien
Validieren Sie Optimierungsmaßnahmen, z. B. eine schnelle Optimierung, die den Token-Verbrauch reduziert
Schlagen Sie Experimente vor und evaluieren Sie sie, z. B. die Umstellung auf ein kleineres Modell für weniger kritische Anwendungsfälle

Wenn Nutzungsdaten an klare Ziele gebunden sind, werden sie zu einer strategischen Ressource. TrueFoundry stimmt Tagging, Tracking und Analysen auf die Unternehmensprioritäten ab und hilft Unternehmen dabei, die Einführung von LLM verantwortungsbewusst zu skalieren und gleichzeitig die Investitionsrendite zu maximieren.

Fazit

TrueFoundry verwandelt die Nutzung von LLM von einer versteckten Ausgabe in einen Motor für Innovation und Wachstum. Mit jedem API-Aufruf, der nach Kunde, Team oder Funktion gekennzeichnet ist, erhält Ihr Unternehmen einen glasklaren Überblick über die Token-Ausgaben und die Leistung. Die nahtlose Integration mit Analyse- und Abrechnungstools stellt sicher, dass die Finanz- und Betriebsteams mit aktuellen Daten arbeiten. Durch die Abstimmung der Nutzungsmetriken an den Geschäftszielen priorisieren Produktmanager wichtige Funktionen, und das Engineering optimiert kostspielige Arbeitsabläufe. Das Ergebnis ist eine intelligentere Budgetierung, ein klarerer ROI und schnellere Entscheidungen in Ihrem gesamten Unternehmen. Nutzen Sie noch heute die detaillierte Nutzungsaufschlüsselung von TrueFoundry, um das volle Potenzial Ihrer LLM-Investitionen auszuschöpfen.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo