La question de 360 000$ sur l'économie des grands modèles linguistiques

Mis à jour : June 22, 2023

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Le but de cet article est d'informer le lecteur sur le fonctionnement de la tarification des grands modèles linguistiques (LLM). Ceci est motivé par nos conversations avec de nombreuses entreprises utilisant des LLM à des fins commerciales. Au cours de ces conversations, nous nous sommes rendu compte que l'économie du LLM est souvent mal comprise, ce qui laisse une énorme marge d'optimisation.

Vous rendez-vous compte que le fait de la même tâche peut prendre 3 500$ avec un modèle ou 1 260 000$ avec un autre? Cela se fait au prix de la différence de performance, mais cela laisse une grande marge de manœuvre pour réfléchir au compromis entre les coûts et les performances. La tâche est-elle telle que je puisse utiliser quelque chose de moins cher ?

‍

$360k Question - Understanding the LLM Economics - Video | MLOps Community

Most of us are using LLMs and some of us are getting to the point where LLMs are going to production. Honeymoon phase is going to get over soon and practical realities like cost & maintainability are going to become mainstream. However, the cost of running..

MLOps Community

‍

Nous avons constaté à maintes reprises que des entreprises surestimaient ou sous-estimaient leurs dépenses consacrées aux grands modèles linguistiques. Nous essaierons donc ici de comprendre le coût de fonctionnement de certains des modèles linguistiques les plus populaires et de comprendre comment fonctionne leur tarification.

ℹ️

Le but de ce blog n'est pas d'éduquer le lecteur sur les LLM ou leurs performances. Il s'agit d'un blog à forte intensité mathématique axé sur la compréhension de la tarification du LLM. Par souci de simplicité, nous ne comparerions pas les performances de ces modèles.

Résumé de Wikipedia

`Le` échantillon pour l'analyse des prix

Pour comprendre comment fonctionne la tarification des LLM, nous comparerions les coûts engagés pour la même tâche, c'est-à-dire pour résumer Wikipédia à la moitié de sa taille.

Détails Taille de la tâche

Nous utiliserions quelques approximations pour simplifier les calculs et les rendre facilement compréhensibles

Taille du corpus Wikipedia

~ 6 millions d'articles au total
~ 750 mots par article
~ 1000 jetons par article

❓

Jetons sont des sous-parties de mots qui ne dépendent pas précisément du début ou de la fin des mots. Il s'agit de l'unité dans laquelle les API OpenAI divisent l'entrée en jetons avant qu'elle ne soit traitée. Les jetons peuvent inclure des espaces de fin et même des sous-mots.

Taille attendue de la sortie résumée

Pour cette tâche, nous supposons que chaque article est simplement compressé à la moitié de sa taille pour des raisons de simplicité. Par conséquent, les résultats que nous attendons seront les suivants :

~6 millions d'articles
~375 mots par article résumé
~500 jetons par article

Sample Task: Summarising Wikipedia Articles — **Exemple de tâche : résumer les articles de Wikipédia**

Comprendre les coûts

Comparer ce que coûterait l'utilisation de différents modèles pour cette tâche

Les leviers de la tarification dans les API OpenAI/tierces

OpenAI et les autres API tierces facturent généralement en fonction de deux leviers ; si vous souhaitez déduire à l'aide de leurs API

Coût d'entrée

Ce coût dépend du nombre de jetons (expliqué ci-dessus) transmis en tant que contexte/invite/instruction à l'API.

Coût de sortie

Son coût est basé sur le nombre de jetons que l'API renvoie en réponse.

Pour une tâche telle que la synthèse, étant donné que vous devez transmettre l'intégralité du document ou de l'extrait à résumer au modèle, le nombre de jetons qui font partie de l'invite peut devenir significatif, d'où le coût d'entrée.

Base du coût supporté par les modèles auto-hébergés

Avec les modèles auto-hébergés, l'utilisateur doit gérer/approvisionner la machine nécessaire à l'exécution du modèle. Bien que cela puisse inclure le coût de gestion de ces ressources, la tarification est relativement facile à comprendre puisqu'elle est uniquement basée sur le coût de fonctionnement de la machine (généralement celui facturé par les fournisseurs de cloud, sauf si vous avez votre propre cluster sur site)

Coût de la machine

Coût du provisionnement de la machine requise pour exécuter/héberger le modèle. Étant donné que la plupart de ces modèles plus grands sont plus grands que ce qui peut être exécuté sur un ordinateur portable ou un seul appareil local, l'utilisation d'un fournisseur de cloud pour ces machines est la plus courante.

Les fournisseurs de cloud proposent ces instances, mais les utilisateurs peuvent être confrontés à des problèmes de disponibilité du GPU car ces modèles nécessitent un GPU.

Coûts des instances AWS

Coûts des instances Google Cloud

Coûts des instances Microsoft Azure

Instances ponctuelles

Les fournisseurs de cloud fournissent leur capacité inutilisée à un coût 40 à 90 % inférieur à celui des instances à la demande

Comparaison des coûts des différents modèles

GPT 4 - Longueur de contexte 8K

Coûts unitaires

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$30	$60

‍

Formule de coût

Coût = Non Nombre de jetons (pour 1 000 articles) X Nombre d'articles (en milliers) X Coût unitaire (pour 1 million de jetons)

Coût des intrants

1 000 (jetons/article) X 6 000 000 (articles) X 30$ (/Mn de jetons) = 180 000$

Coût de production

0,5 K (jetons/article) X 6 000 K (articles) X 60$ (/Mn de jetons) = 180 000$

Coût total

Coût d'entrée + coût de sortie

= 360 000 dollars

GPT 4 - Longueur de contexte de 32 Ko

Coûts unitaires

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$60	$120

COST OF RUNNING MACHINE (/HR FOR SPOT A100-80GB)

$10

Coût de fonctionnement de la machine (/h pour Spot A100-80 Go) 10$

Formule de coût

Coût = Nombre de jetons (pour 1 000 articles) X Nombre d'articles (en milliers) X Coût unitaire (pour 1 million de jetons)

Coût des intrants

1 000 (jetons/article) X 6 000 000 (articles) X 30$ (/Mn de jetons) = 180 000$

Coût de production

0,5 K (jetons/article) X 6 000 K (articles) X 60$ (/Mn de jetons) = 180 000$

Coût total

Coût d'entrée + coût de sortie

= 360 000 dollars

Modèles de réglage fin

Dans la plupart des cas d'utilisation, les entreprises en ont besoin pour affiner des modèles spécifiques à leurs propres données et à des tâches particulières. De nombreuses entreprises ont indiqué que les modèles open source affinés étaient comparables, voire parfois meilleurs, que les API tierces comme OpenAI sur une tâche spécifique.

Assembler le tout

PRETRAINED / FINE TUNED	MODEL NAME	PARAMS*	FINE TUNING COST ($)	INPUT COST ($)	OUTPUT COST ($)	TOTAL COST ($)
Pretrained	GPT-4 32K	1 Tn +	NA	360k	360k	720k
	GPT-4 8K	1 Tn +	NA	180k	180k	360k
	DaVinci	175 Bn	NA	120k	60k	180k
	Claude v1	52 Bn	NA	66k	96k	162k
	Curie	13 Bn	NA	12k	6k	18k
	Self-hosted 7B	7 Bn	NA	350	1750	2.1k
Fine Tuned	DaVinci	175 Bn	180k	720k	360k	1.26M
	Curie	13 Bn	18k	72k	36k	126k
	Self-hosted 7B	7 Bn	1400	350	1750	3.5k

‍

Points à retenir de la tarification :

Les modèles DaVinci et Curie sont environ 7 fois plus chers si vous les adaptez à votre cas d'utilisation
Les coûts augmentent avec une augmentation de la fenêtre contextuelle d'environ 2 fois
Le coût d'utilisation du modèle augmente avec l'augmentation du nombre de paramètres du modèle

Effet de l'ajustement sur les performances

Nous utilisons le benchmark suivant pour analyser l'effet du réglage fin des modèles sur les performances des modèles. Il est intéressant de noter que :

Les modèles à paramètres inférieurs peuvent également être plus performants que les modèles plus grands lorsqu'ils sont adaptés à un cas d'utilisation particulier.
Des économies de coûts importantes sont possibles sans nuire aux performances, si le bon compromis est établi entre le coût et la performance.

Type de tâcheBest 6B/7B OOTB Model Few-ShotMoveLM 7B Zero-ShotGPT-3.5 Turbo Zero-ShotGPT-3.5 Turbo Few-ShotGPT-4 Zero-shotGPT-4 Few-ShotGPT-4 Few-ShotRevance - jeu de données interne0,330,930,840,840,920,95Extraction - sortie structurée pour les requêtes0.380,980,220.720.380.73 Raisonnement - déclenchement personnalisé0,620,930.870.880.90.88Classification - domaine de la requête de l'utilisateur0,210,790.60.730.70.76Extraction - sortie structurée à partir du typage d'entités0,830,870,90,890,890,89

TASK TYPE	BEST 6B/7B OOTB MODEL FEW-SHOT	MOVELM 7B ZERO-SHOT	GPT-3.5 TURBO ZERO-SHOT	GPT-3.5 TURBO FEW-SHOT	GPT-4 ZERO-SHOT	GPT-4 FEW-SHOT
Relevance - internal dataset	0.33	0.93	0.84	0.84	0.92	0.95
Extraction - structured output for queries	0.38	0.98	0.22	0.72	0.38	0.73
Reasoning - custom triggering	0.62	0.93	0.87	0.88	0.9	0.88
Classification - domain of user query	0.21	0.79	0.6	0.73	0.7	0.76
Extraction - structured output from entity typing	0.83	0.87	0.9	0.89	0.89	0.89

‍

Ce que nous faisons

TrueFoundry pense que l'avenir des LLM réside dans la coexistence de LLM open source et commerciaux au sein d'une même application !

Nous croyons en un état d'applications où les tâches les plus simples sont gérées par des LLM open source légers, tandis que les tâches les plus complexes ou celles qui nécessitent des fonctionnalités distinctes (par exemple, la recherche sur le Web, les appels d'API, etc.), qui ne sont proposées que par des LLM commerciaux à source fermée, peuvent leur être déléguées.

Si vous utilisez OpenAI

Nous contribuons à réduire le nombre de jetons envoyés aux API OpenAI. Pourquoi nous avons décidé de travailler là-dessus parce que :

Nous avons remarqué que plus de la moitié des coûts étaient liés au traitement des jetons contextuels/rapides.
Tous les mots ne sont pas nécessaires. Les LLM sont excellents pour travailler avec des phrases incomplètes.

D'où True Foundry construit une API de compression pour économisez le coût d'OpenAI d'environ 30 %.

Compression in OpenAI — Compression dans OpenAI

Si vous souhaitez utiliser des LLM Open Source

Nous simplifions l'exécution de ces modèles au sein de votre propre infrastructure grâce à nos offres suivantes :

Catalogue de modèles : Des LLM open source optimisés pour l'inférence et le réglage fin.
API intégrées : Elles peuvent être directement échangées contre les API HuggingFace et OpenAI que vous utilisez déjà dans vos applications.
Optimisation des coûts : Trans-cloud sur K8s en tirant parti de vos crédits ou de votre budget cloud.

🚀 Build your own LLM application with us

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant