Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

La question de 360 000$ sur l'économie des grands modèles linguistiques

Par TrueFoundry

Mis à jour : June 22, 2023

Résumez avec
Le but de cet article est d'informer le lecteur sur le fonctionnement de la tarification des grands modèles linguistiques (LLM). Ceci est motivé par nos conversations avec de nombreuses entreprises utilisant des LLM à des fins commerciales. Au cours de ces conversations, nous nous sommes rendu compte que l'économie du LLM est souvent mal comprise, ce qui laisse une énorme marge d'optimisation.

Vous rendez-vous compte que le fait de la même tâche peut prendre 3 500$ avec un modèle ou 1 260 000$ avec un autre? Cela se fait au prix de la différence de performance, mais cela laisse une grande marge de manœuvre pour réfléchir au compromis entre les coûts et les performances. La tâche est-elle telle que je puisse utiliser quelque chose de moins cher ?

Nous avons constaté à maintes reprises que des entreprises surestimaient ou sous-estimaient leurs dépenses consacrées aux grands modèles linguistiques. Nous essaierons donc ici de comprendre le coût de fonctionnement de certains des modèles linguistiques les plus populaires et de comprendre comment fonctionne leur tarification.

ℹ️

Le but de ce blog n'est pas d'éduquer le lecteur sur les LLM ou leurs performances. Il s'agit d'un blog à forte intensité mathématique axé sur la compréhension de la tarification du LLM. Par souci de simplicité, nous ne comparerions pas les performances de ces modèles.

Résumé de Wikipedia

Le échantillon pour l'analyse des prix

Pour comprendre comment fonctionne la tarification des LLM, nous comparerions les coûts engagés pour la même tâche, c'est-à-dire pour résumer Wikipédia à la moitié de sa taille.

Détails Taille de la tâche

Nous utiliserions quelques approximations pour simplifier les calculs et les rendre facilement compréhensibles

Taille du corpus Wikipedia

  • ~ 6 millions d'articles au total
  • ~ 750 mots par article
  • ~ 1000 jetons par article

Jetons sont des sous-parties de mots qui ne dépendent pas précisément du début ou de la fin des mots. Il s'agit de l'unité dans laquelle les API OpenAI divisent l'entrée en jetons avant qu'elle ne soit traitée. Les jetons peuvent inclure des espaces de fin et même des sous-mots.

Taille attendue de la sortie résumée

Pour cette tâche, nous supposons que chaque article est simplement compressé à la moitié de sa taille pour des raisons de simplicité. Par conséquent, les résultats que nous attendons seront les suivants :

  • ~6 millions d'articles
  • ~375 mots par article résumé
  • ~500 jetons par article
Sample Task: Summarising Wikipedia Articles
Exemple de tâche : résumer les articles de Wikipédia

Comprendre les coûts

Comparer ce que coûterait l'utilisation de différents modèles pour cette tâche

Les leviers de la tarification dans les API OpenAI/tierces

OpenAI et les autres API tierces facturent généralement en fonction de deux leviers ; si vous souhaitez déduire à l'aide de leurs API

Coût d'entrée

Ce coût dépend du nombre de jetons (expliqué ci-dessus) transmis en tant que contexte/invite/instruction à l'API.

Coût de sortie

Son coût est basé sur le nombre de jetons que l'API renvoie en réponse.

Pour une tâche telle que la synthèse, étant donné que vous devez transmettre l'intégralité du document ou de l'extrait à résumer au modèle, le nombre de jetons qui font partie de l'invite peut devenir significatif, d'où le coût d'entrée.

Base du coût supporté par les modèles auto-hébergés

Avec les modèles auto-hébergés, l'utilisateur doit gérer/approvisionner la machine nécessaire à l'exécution du modèle. Bien que cela puisse inclure le coût de gestion de ces ressources, la tarification est relativement facile à comprendre puisqu'elle est uniquement basée sur le coût de fonctionnement de la machine (généralement celui facturé par les fournisseurs de cloud, sauf si vous avez votre propre cluster sur site)

Coût de la machine

Coût du provisionnement de la machine requise pour exécuter/héberger le modèle. Étant donné que la plupart de ces modèles plus grands sont plus grands que ce qui peut être exécuté sur un ordinateur portable ou un seul appareil local, l'utilisation d'un fournisseur de cloud pour ces machines est la plus courante.

Les fournisseurs de cloud proposent ces instances, mais les utilisateurs peuvent être confrontés à des problèmes de disponibilité du GPU car ces modèles nécessitent un GPU.

Coûts des instances AWS

Coûts des instances Google Cloud

Coûts des instances Microsoft Azure

Instances ponctuelles

Les fournisseurs de cloud fournissent leur capacité inutilisée à un coût 40 à 90 % inférieur à celui des instances à la demande

Comparaison des coûts des différents modèles

GPT 4 - Longueur de contexte 8K

Coûts unitaires

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$30 $60

Formule de coût

Coût = Non Nombre de jetons (pour 1 000 articles) X Nombre d'articles (en milliers) X Coût unitaire (pour 1 million de jetons)

Coût des intrants

1 000 (jetons/article) X 6 000 000 (articles) X 30$ (/Mn de jetons) = 180 000$

Coût de production

0,5 K (jetons/article) X 6 000 K (articles) X 60$ (/Mn de jetons) = 180 000$

Coût total

Coût d'entrée + coût de sortie

= 360 000 dollars

GPT 4 - Longueur de contexte de 32 Ko

Coûts unitaires

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$60 $120

Coût d'entrée (/Mn de jetons) Coût de sortie (/Mn de jetons) 60$ à 120$

Formule de coût

Coût = Non Nombre de jetons (pour 1 000 articles) X Nombre d'articles (en milliers) X Coût unitaire (pour 1 million de jetons)

Coût des intrants

1 000 (jetons/article) X 6 000 000 (articles) X 60$ (/Mn de jetons) = 360 000$

Coût de production

0,5 K (jetons/article) X 6 000 K (articles) X 120$ (/Mn de jetons) = 360 000$

Coût total

Coût d'entrée + coût de sortie

= 720 000 dollars

Claude anthropique V1

Coûts unitaires

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$11 $32

Formule de coût

Coût = Nombre de jetons (pour 1 000 articles) X Nombre d'articles (en milliers) X Coût unitaire (pour 1 million de jetons)

Coût des intrants

1 000 (jetons/article) X 6 000 000 (articles) X 11$ (/Mn de jetons) = 66 000$

Coût de production

0,5 K (jetons/article) X 6 000 K (articles) X 60$ (/Mn de jetons) = 96 000$

Coût total

Coût d'entrée + coût de sortie

= 162 000 dollars

InstructGPT - DaVinci

Coûts unitaires

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$20 $20

Formule de coût

Coût = Non Nombre de jetons (pour 1 000 articles) X Nombre d'articles (en milliers) X Coût unitaire (pour 1 million de jetons)

Coût des intrants

1 000 (jetons/article) X 6 000 000 (articles) X 20$ (/Mn de jetons) = 120 000$

Coût de production

0,5 K (jetons/article) X 6 000 K (articles) X 20$ (/Mn de jetons) = 60 000$

Coût total

Coût d'entrée + coût de sortie

= 180 000 dollars

Curie

Coûts unitaires

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$2 $2

Formule de coût

Coût = Non Nombre de jetons (pour 1 000 articles) X Nombre d'articles (en milliers) X Coût unitaire (pour 1 million de jetons)

Coût des intrants

1 000 (jetons/article) X 6 000 000 (articles) X 2$ (/Mn de jetons) = 12 000$

Coût de production

0,5 K (jetons/article) X 6 000 K (articles) X 60$ (/Mn de jetons) = 6 000$

Coût total

Coût d'entrée + coût de sortie

= 18 000 dollars

Modèle 7B auto-hébergé

Coûts unitaires

COST OF RUNNING MACHINE (/HR FOR SPOT A100-80GB)
$10

Coût de fonctionnement de la machine (/h pour Spot A100-80 Go) 10$

Formule de coût

Coût = Nombre de jetons (pour 1 000 articles) X Nombre d'articles (en milliers) X Coût unitaire (pour 1 million de jetons)

Coût des intrants

1 000 (jetons/article) X 6 000 000 (articles) X 30$ (/Mn de jetons) = 180 000$

Coût de production

0,5 K (jetons/article) X 6 000 K (articles) X 60$ (/Mn de jetons) = 180 000$

Coût total

Coût d'entrée + coût de sortie

= 360 000 dollars

Modèles de réglage fin

Dans la plupart des cas d'utilisation, les entreprises en ont besoin pour affiner des modèles spécifiques à leurs propres données et à des tâches particulières. De nombreuses entreprises ont indiqué que les modèles open source affinés étaient comparables, voire parfois meilleurs, que les API tierces comme OpenAI sur une tâche spécifique.

Un DaVinci affiné

Coût de la synthèse avec un modèle DaVinci affiné

Coût total

Coût d'entrée + coût de sortie

= 1 260 000 dollars

Curie affiné

Coût de la synthèse avec un modèle de Curie affiné

Coût total

Coût d'entrée + coût de sortie

= 126 000 dollars

Modèle 7B auto-hébergé et affiné

Coût de la synthèse avec un modèle 7B auto-hébergé et affiné

Coût total

Coût d'entrée + coût de sortie

= 126 000 dollars

Assembler le tout

PRETRAINED / FINE TUNED MODEL NAME PARAMS* FINE TUNING COST ($) INPUT COST ($) OUTPUT COST ($) TOTAL COST ($)
Pretrained GPT-4 32K 1 Tn + NA 360k 360k 720k
GPT-4 8K 1 Tn + NA 180k 180k 360k
DaVinci 175 Bn NA 120k 60k 180k
Claude v1 52 Bn NA 66k 96k 162k
Curie 13 Bn NA 12k 6k 18k
Self-hosted 7B 7 Bn NA 350 1750 2.1k
Fine Tuned DaVinci 175 Bn 180k 720k 360k 1.26M
Curie 13 Bn 18k 72k 36k 126k
Self-hosted 7B 7 Bn 1400 350 1750 3.5k

Points à retenir de la tarification :

  1. Les modèles DaVinci et Curie sont environ 7 fois plus chers si vous les adaptez à votre cas d'utilisation
  2. Les coûts augmentent avec une augmentation de la fenêtre contextuelle d'environ 2 fois
  3. Le coût d'utilisation du modèle augmente avec l'augmentation du nombre de paramètres du modèle

Effet de l'ajustement sur les performances

Nous utilisons le benchmark suivant pour analyser l'effet du réglage fin des modèles sur les performances des modèles. Il est intéressant de noter que :

  1. Les modèles à paramètres inférieurs peuvent également être plus performants que les modèles plus grands lorsqu'ils sont adaptés à un cas d'utilisation particulier.
  2. Des économies de coûts importantes sont possibles sans nuire aux performances, si le bon compromis est établi entre le coût et la performance.

Type de tâcheBest 6B/7B OOTB Model Few-ShotMoveLM 7B Zero-ShotGPT-3.5 Turbo Zero-ShotGPT-3.5 Turbo Few-ShotGPT-4 Zero-shotGPT-4 Few-ShotGPT-4 Few-ShotRevance - jeu de données interne0,330,930,840,840,920,95Extraction - sortie structurée pour les requêtes0.380,980,220.720.380.73 Raisonnement - déclenchement personnalisé0,620,930.870.880.90.88Classification - domaine de la requête de l'utilisateur0,210,790.60.730.70.76Extraction - sortie structurée à partir du typage d'entités0,830,870,90,890,890,89

TASK TYPE BEST 6B/7B OOTB MODEL FEW-SHOT MOVELM 7B ZERO-SHOT GPT-3.5 TURBO ZERO-SHOT GPT-3.5 TURBO FEW-SHOT GPT-4 ZERO-SHOT GPT-4 FEW-SHOT
Relevance - internal dataset 0.33 0.93 0.84 0.84 0.92 0.95
Extraction - structured output for queries 0.38 0.98 0.22 0.72 0.38 0.73
Reasoning - custom triggering 0.62 0.93 0.87 0.88 0.9 0.88
Classification - domain of user query 0.21 0.79 0.6 0.73 0.7 0.76
Extraction - structured output from entity typing 0.83 0.87 0.9 0.89 0.89 0.89

Ce que nous faisons

TrueFoundry pense que l'avenir des LLM réside dans la coexistence de LLM open source et commerciaux au sein d'une même application !

Nous croyons en un état d'applications où les tâches les plus simples sont gérées par des LLM open source légers, tandis que les tâches les plus complexes ou celles qui nécessitent des fonctionnalités distinctes (par exemple, la recherche sur le Web, les appels d'API, etc.), qui ne sont proposées que par des LLM commerciaux à source fermée, peuvent leur être déléguées.

Si vous utilisez OpenAI

Nous contribuons à réduire le nombre de jetons envoyés aux API OpenAI. Pourquoi nous avons décidé de travailler là-dessus parce que :

  1. Nous avons remarqué que plus de la moitié des coûts étaient liés au traitement des jetons contextuels/rapides.
  2. Tous les mots ne sont pas nécessaires. Les LLM sont excellents pour travailler avec des phrases incomplètes.

D'où True Foundry construit une API de compression pour économisez le coût d'OpenAI d'environ 30 %.

Compression in OpenAI
Compression dans OpenAI

Si vous souhaitez utiliser des LLM Open Source

Nous simplifions l'exécution de ces modèles au sein de votre propre infrastructure grâce à nos offres suivantes :

  1. Catalogue de modèles : Des LLM open source optimisés pour l'inférence et le réglage fin.
  2. API intégrées : Elles peuvent être directement échangées contre les API HuggingFace et OpenAI que vous utilisez déjà dans vos applications.
  3. Optimisation des coûts : Trans-cloud sur K8s en tirant parti de vos crédits ou de votre budget cloud.
LLM Open Source de TrueFoundry

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

July 20, 2023
|
5 min de lecture

LLMoPS CoE : la prochaine frontière dans le paysage MLOps

April 16, 2024
|
5 min de lecture

Cognita : Création d'applications RAG modulaires et open source pour la production

May 25, 2023
|
5 min de lecture

LLMs open source : Embrace or Perish

August 27, 2025
|
5 min de lecture

Cartographie du marché de l'IA sur site : des puces aux plans de contrôle

 Best AI Gateways in 2026
April 22, 2026
|
5 min de lecture

5 meilleures passerelles IA en 2026

comparaison
April 22, 2026
|
5 min de lecture

Intégration de Cline avec TrueFoundry AI Gateway

Outils LLM
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 min de lecture

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

LLM Embeddings 101 : un guide complet 2024

Terminologie LLM
Aucun article n'a été trouvé.

Blogs récents

Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit