Analyse de l'utilisation d'AI Gateway : analyses au niveau du client et de l'utilisateur

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Alors que l'utilisation de LLM évolue selon les équipes et les fonctionnalités telles que le chat, l'intégration, la lecture et l'inférence en temps réel, la facturation basée sur des jetons complexifie les coûts. Pourtant, de nombreuses organisations manquent de visibilité sur des questions fondamentales telles que qui utilise le plus de jetons ? , quelles fonctionnalités sont les plus coûteuses ? , et comment l'utilisation est-elle distribuée entre les équipes ou les clients ? Sans attribution détaillée, il devient difficile de contrôler les dépenses ou d'évaluer l'impact.

TrueFoundry change la donne en intégrant le balisage des métadonnées directement dans chaque appel LLM. Que vous soyez un fournisseur SaaS multi-tenant qui suit les dépenses des clients ou une équipe de plateforme interne surveillant la consommation des fonctionnalités, True Foundry fournit une vue transparente des données d'utilisation. Les parties prenantes de l'ingénierie, des finances et des produits ont toutes un accès instantané à des tableaux de bord détaillés qui répercutent les coûts sur le client, l'équipe ou le cas d'utilisation approprié.

Dans cet article, vous découvrirez comment le suivi granulaire et l'attribution des coûts permettent de prendre des décisions plus intelligentes et de libérer le plein potentiel de vos investissements en matière de LLM.

Comment TrueFoundry suit l'utilisation et les coûts de LLM

TrueFoundry fournit une observabilité détaillée pour chaque demande LLM, permettant une attribution précise des coûts et une analyse de l'utilisation entre les équipes, les fonctionnalités et les clients. Chaque demande est automatiquement enregistrée avec des métadonnées complètes, notamment :

Nom du modèle
Horodatage
Nombre de jetons d'entrée et de sortie
Indicateurs de température et de maximum
Latence et coût
Type de demande (par exemple, chat, finalisation)
Métadonnées personnalisées (balises, par exemple)

Suivi de l'utilisation du LLM sur plusieurs dimensions

Lors de l'initialisation du client TrueFoundry, les développeurs peuvent transmettre des balises personnalisées, telles que customer_id, business_unit ou feature_name. Ces balises sont stockées à côté de chaque demande et peuvent être interrogées via des tableaux de bord et des API. Cela permet aux organisations de :

Attribuez les coûts par locataire dans un environnement SaaS multi-locataires à l'aide de customer_id
Suivez l'utilisation par unité commerciale ou service à l'aide de balises organisationnelles
Analysez la consommation de jetons par fonctionnalité du produit, telle que les chatbots, les moteurs de recommandation ou les modules d'analyse

‍

TrueFoundry LLM Usage Analytics:

Feeling in the dark about where your LLM spending and usage are going? TrueFoundry’s usage analytics shines a spotlight on every token and dollar, transforming uncertainty into actionable insights.

TrueFoundry equips you with:

Custom metadata tagging: Automatically tag each LLM request with fields like customer_id, business_unit, or feature_name for precise attribution.
Multi-dimensional usage breakdown: View usage and cost by model, user, team, or custom tag to identify high-consumption workloads at a glance.
Interactive dashboards: Access real-time graphs for requests, input/output tokens, latencies, error rates, and cost trends across all models.
Granular cost attribution: Drill into token counts, cost per request, and total spend per customer or feature to optimize budgets and show ROI.
Queryable analytics API: Export and query raw usage data or integrate with external BI tools for custom reporting, alerts, and deeper analysis.

Get Started with Truefoundry

Informations et optimisation en temps réel

Les métadonnées balisées permettent un filtrage et un regroupement flexibles, ce qui permet aux équipes interfonctionnelles de ventiler l'utilisation selon n'importe quelle dimension personnalisée. Par exemple :

Une équipe produit peut surveiller les fonctionnalités qui génèrent le plus d'utilisation de jetons et les corréler à l'engagement des utilisateurs.
Les équipes financières peuvent répartir les coûts avec précision entre les équipes internes ou les clients à l'aide de données d'utilisation balisées.
Les responsables de l'ingénierie peuvent suivre les performances et optimiser les invites ou les services coûteux en fonction des tendances en matière de jetons et de latence.

Avantages de l'attribution granulaire

Rétrofacturations transparentes : permet une facturation interne ou externe automatisée, basée sur l'utilisation, afin de renforcer la responsabilisation des équipes ou des clients.
Analyse du retour sur investissement améliorée : aide les équipes chargées des produits et des analyses à évaluer le retour sur investissement dans l'IA en faisant correspondre l'utilisation des jetons aux résultats commerciaux.
Budgétisation prévisible : permet des prévisions précises et l'application du budget grâce à un suivi des dépenses et à des alertes basées sur les tendances au niveau des balises.

En combinant une visibilité approfondie au niveau des demandes avec un balisage personnalisé, TrueFoundry permet aux organisations d'opérationnaliser Observabilité LLM, le contrôle des coûts et l'optimisation des performances de manière évolutive et transparente.

Key Metrics for Evaluating Gateway

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

Evaluating an AI Gateway?

A practical guide used by platform & infra teams

Conduire des actions stratégiques grâce à LLM Usage Analytics

TrueFoundry transforme les données d'utilisation détaillées du LLM en informations exploitables, permettant aux équipes chargées des produits, de l'ingénierie et des finances de prendre des décisions éclairées qui optimisent les performances et contrôlent les coûts.

Décisions stratégiques rendues possibles par les ventilations d'utilisation

Modèles de tarification échelonnés

Grâce à une visibilité complète sur les habitudes de consommation des jetons, les entreprises peuvent concevoir des niveaux de tarification qui reflètent l'utilisation réelle. En analysant les données historiques, les équipes peuvent :

Définissez des plans de base adaptés à l'utilisation mensuelle moyenne des jetons.
Offrez des taux d'excédent réduits aux clients qui utilisent les jetons de manière efficace.
Introduisez des niveaux premium pour les utilisateurs intensifs nécessitant des quotas plus importants.

Exemple : Un fournisseur SaaS peut établir un niveau standard plafonné à 200 000 jetons par mois et un niveau professionnel à 1 million de jetons. Au fur et à mesure que les besoins des clients évoluent, ils peuvent passer d'un niveau à l'autre en toute fluidité, garantissant ainsi une tarification juste et prévisible.

Application des quotas d'utilisateurs

TrueFoundry propose un support intégré pour appliquer les quotas d'utilisation via son AI Gateway en tirant parti limitation de débit dans la passerelle AI règles qui contrôlent la consommation entre les utilisateurs, les équipes et les comptes virtuels. Cette fonctionnalité permet aux organisations de contrôler la consommation à plusieurs niveaux, d'éviter les dépassements de coûts et de permettre des expériences en toute sécurité.

Les quotas peuvent être appliqués pour :

Utilisateurs individuels
Exemple : limitez bob@email.com à 1 000 demandes par jour.
Équipes
Exemple : limitez l'équipe du frontend à 5 000 demandes par jour.
Comptes virtuels
Exemple : plafonnez le compte virtuel va-james à 1 500 requêtes par jour.

Ces contraintes sont configurées à l'aide d'un fichier YAML gateway-rate-limiting-config, dans lequel chaque règle définit le sujet, le seuil et l'unité de mesure. Les règles sont évaluées dans l'ordre, et la première règle applicable déclenche leur application.

Exemple de configuration :

name: ratelimiting-config
type: gateway-rate-limiting-config
rules:
  - id: "rule-id"
    when:
      subjects: ["team:frontend"] # or ["user:email"] or ["virtualaccount:name"]
    limit_to: 5000
    unit: requests_per_day

Toutes les règles correspondantes sont prises en compte et, si certaines sont dépassées, l'ID de règle correspondant est renvoyé à l'utilisateur, ce qui permet de savoir clairement quel quota a été déclenché.

Ce mécanisme d'exécution vous permet de :

Prévenez les pics d'utilisation imprévus en limitant le trafic au niveau de l'utilisateur, de l'équipe ou du compte virtuel.
Proposez des plans échelonnés avec des limites prédéfinies pour les comptes freemium ou d'essai.
Déclenchez des alertes à l'approche des seuils, afin de permettre aux parties prenantes de prendre des mesures correctives.

L'application des quotas étant configurée au niveau de la passerelle, TrueFoundry garantit un contrôle précis sans nécessiter de modifications des modèles ou de l'infrastructure en aval. Il est donc idéal pour exécuter des projets pilotes, proposer des essais et créer des services d'IA multi-locataires évolutifs et à coûts maîtrisés.

Identifier les clients ou les fonctionnalités sous-optimisés

En combinant les données de coûts avec les mesures de performance, TrueFoundry permet d'identifier les inefficacités. Ces informations aident également les équipes à ajuster Routeur LLM, afin que les demandes puissent être dirigées vers le modèle qui équilibre le mieux la latence, les coûts et la qualité de sortie. Les équipes peuvent :

Signalez les segments de clientèle ou les fonctionnalités dont les dépenses en jetons sont élevées mais dont l'engagement est faible.
Analysez les modèles et les flux de travail rapides qui entraînent une consommation excessive.
Priorisez les efforts d'optimisation ou remaniez les chemins de code pour améliorer le retour sur investissement.

Exemple : Si une fonctionnalité de traduction entraîne des coûts symboliques élevés sans générer de revenus supplémentaires, les équipes peuvent itérer en fonction des instructions du modèle ou passer à un modèle plus efficace pour équilibrer performances et prix.

Impact interfonctionnel

Équipes de mise sur le marché

Les équipes commerciales et marketing exploitent les rapports d'utilisation de TrueFoundry pour aligner les propositions de valeur sur les résultats des clients. Ils peuvent :

Justifiez la tarification premium en démontrant comment l'utilisation des jetons est en corrélation avec les résultats commerciaux.
Créez des campagnes de vente incitative ciblées pour les comptes ayant tendance à augmenter leur consommation.
Fournissez aux clients des rapports d'utilisation transparents, renforcez la confiance et réduisez le taux de désabonnement.

Finances et opérations

Les équipes financières améliorent la précision des prévisions en analysant les tendances d'utilisation balisées au fil du temps. Grâce à ces données, ils peuvent :

Dépenses liées à l'IA des projets en fonction des taux de croissance mensuels.
Mettez en œuvre des modèles de rétrofacturation internes pour aligner les coûts sur ceux des centres de recettes.
Planifiez la capacité de l'infrastructure en fonction de la demande, en évitant à la fois le surprovisionnement et les goulots d'étranglement en termes de performances.

En traduisant les ventilations d'utilisation détaillées en informations claires et exploitables, TrueFoundry permet à chaque équipe d'une organisation d'optimiser les coûts, d'améliorer les performances des fonctionnalités et de développer les initiatives d'IA en toute confiance.

Mise en œuvre du balisage et du suivi de l'utilisation dans TrueFoundry

La mise en œuvre d'un suivi granulaire de l'utilisation avec TrueFoundry implique trois étapes principales : appliquer des balises de métadonnées à chaque appel, intégrer ces données à vos outils d'analyse ou de facturation et intégrer les meilleures pratiques pour aligner les informations sur les objectifs commerciaux.

Mettre en œuvre le balisage et le suivi de l'utilisation

Le balisage et le suivi des métadonnées dans TrueFoundry permettent une observabilité granulaire de la manière dont l'infrastructure LLM est utilisée dans les environnements, les équipes, les fonctionnalités et les clients.

Ajouter des métadonnées aux demandes d'API LLM

TrueFoundry vous permet de joindre des métadonnées personnalisées à chaque demande LLM à l'aide de l'en-tête X-TFY-METADATA. Ces métadonnées sont stockées à côté de chaque appel et peuvent être utilisées pour la journalisation, le filtrage et l'attribution.

Exemple :

metadata = {
    "tfy_log_request": "true",      # Enables request logging
    "environment": "staging",       # Tracks deployment environment
    "feature": "countdown-bot"      # Identifies the calling feature
}

client.chat.completions.create(
    # ... other parameters ...
    extra_headers={
        "X-TFY-METADATA": '{"tfy_log_request":"true"}'
    }
)

Cela garantit que chaque appel d'API comporte un contexte riche pour les analyses, l'attribution des coûts et le débogage.

Appliquer des balises aux exécutions de machine learning

Si vous utilisez la plateforme ML de TrueFoundry à des fins de formation ou d'expérimentation, vous pouvez baliser chaque exécution pour organiser les expériences par framework, tâche ou objectif commercial.

Exemple :

import truefoundry.ml as tfm

client = tfm.get_client()
run = client.create_run(ml_repo="my-classification-project")
run.set_tags({"nlp.framework": "Spark NLP"})
run.end()

Ces balises vous aident à classer les exécutions dans des tableaux de bord, à effectuer des recherches sur les expériences passées et à appliquer les politiques de gouvernance.

Meilleures pratiques en matière de balisage

Utilisez des formats cohérents, tels que snake_case pour les clés et les valeurs des balises
Validez les entrées de balises via CI ou des hooks de pré-validation
Auditez et modifiez périodiquement les étiquettes obsolètes pour maintenir des journaux propres

Intégration aux tableaux de bord de facturation et aux outils d'analyse

Une fois le balisage activé, TrueFoundry propose plusieurs moyens de visualiser et d'analyser l'utilisation du LLM dans votre organisation. Le tableau de bord d'analyse intégré fournit des informations en temps réel sur la consommation de jetons, les percentiles de latence (P50, P90, P99), les taux d'erreur et les coûts. Ces mesures sont ventilées par utilisateur, modèle et type de demande, ce qui permet aux équipes de surveiller l'état de l'API et d'identifier rapidement les modèles à coût élevé ou à latence élevée.

Pour des analyses avancées, TrueFoundry prend en charge l'intégration avec des outils tels que Tableau, Looker et Grafana. Vous pouvez connecter votre ensemble de données d'utilisation pour créer des tableaux de bord qui mettent en évidence les jetons par client, le coût par fonctionnalité et les tendances d'utilisation au fil du temps.

Les équipes financières et opérationnelles peuvent exporter les données d'utilisation via l'API Usage vers des entrepôts de données centralisés tels que Snowflake, BigQuery ou Redshift. Cela permet de générer des rapports sur les rétrofacturations, de comparer les dépenses d'IA entre les différents services et de faire des prévisions financières.

TrueFoundry s'intègre également aux plateformes d'observabilité, notamment Datadog, Prometheus, CloudWatch et New Relic. Ces intégrations fournissent une surveillance unifiée des performances du système et des mesures d'utilisation du LLM.

Les utilisateurs de Grafana peuvent créer des tableaux de bord en temps réel qui visualisent l'utilisation du processeur, du GPU et du réseau au niveau de la tâche ou du déploiement. Cela garantit une visibilité complète à la fois sur le comportement du modèle et sur l'infrastructure sous-jacente.

Aligner les données sur les objectifs commerciaux

Les indicateurs bruts n'ont de valeur que lorsqu'ils sont associés à des objectifs commerciaux significatifs. Grâce aux fonctionnalités de balisage et d'observabilité de TrueFoundry, les équipes peuvent définir des indicateurs de performance qui reflètent la valeur réelle. Collaborez avec les parties prenantes des produits, des finances et de l'analyse pour établir des indicateurs de performance clés tels que le coût par engagement, les jetons par conversion ou les revenus générés par millier de jetons.

Ces indicateurs de performance clés doivent être intégrés dans les évaluations commerciales, les feuilles de route des produits et les sessions de planification financière afin de garantir que les dépenses de LLM sont alignées sur les résultats stratégiques. Les données d'utilisation peuvent orienter les décisions d'investissement, identifier les fonctionnalités peu performantes et mettre en évidence les opportunités d'optimisation des modèles.

Tenez à jour un glossaire partagé des balises, des fonctionnalités et des indicateurs de performance clés pour faciliter l'intégration des nouveaux membres de l'équipe et éviter toute confusion entre les fonctions. Donnez accès à des tableaux de bord pour les équipes au-delà de l'ingénierie, y compris les ventes, le marketing et le support. Cela leur permet de :

Surveillez les pics d'utilisation ou les anomalies
Validez les efforts d'optimisation, tels que le réglage rapide qui réduit la consommation de jetons
Proposez et évaluez des expériences, par exemple en passant à un modèle plus petit pour des cas d'utilisation moins critiques

Lorsqu'elles sont associées à des objectifs clairs, les données d'utilisation deviennent un atout stratégique. En alignant le balisage, le suivi et l'analyse sur les priorités organisationnelles, TrueFoundry aide les entreprises à développer l'adoption du LLM de manière responsable tout en maximisant le retour sur investissement.

Conclusion

TrueFoundry transforme l'utilisation de LLM d'une dépense cachée en un moteur d'innovation et de croissance. Chaque appel d'API étant marqué par un client, une équipe ou une fonctionnalité, votre organisation bénéficie d'une visibilité parfaitement claire sur les dépenses et les performances des jetons. L'intégration fluide avec les outils d'analyse et de facturation permet aux équipes financières et opérationnelles de travailler avec des données à jour. En alignant les indicateurs d'utilisation sur les objectifs commerciaux, les chefs de produit donnent la priorité aux fonctionnalités à fort impact, et l'ingénierie optimise les flux de travail coûteux. Il en résulte une budgétisation plus intelligente, un retour sur investissement plus clair et une prise de décision plus rapide dans l'ensemble de votre organisation. Adoptez dès aujourd'hui la répartition granulaire de l'utilisation de TrueFoundry pour exploiter tout le potentiel de vos investissements en matière de LLM.

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant