La pregunta de 360 000 dólares sobre la economía de los modelos lingüísticos grandes

Actualizado: June 22, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

El propósito de este artículo es educar al lector sobre cómo funcionan los precios de los modelos de lenguaje grande (LLM). Esto está motivado por nuestras conversaciones con varias empresas que utilizan los LLM con fines comerciales. En estas conversaciones nos dimos cuenta de que la economía de la LLM a menudo se malinterpreta, lo que deja un enorme margen de optimización.

¿Te das cuenta de que haciendo el la misma tarea puede llevar 3500$ con un modelo o 1 260 000$ con otro? Esto se produce a costa de la diferencia en el rendimiento, pero deja mucho espacio a la mitad para pensar en cuál es la compensación entre costo y rendimiento. ¿La tarea es tal que puedo usar algo que sea más barato?

‍

$360k Question - Understanding the LLM Economics - Video | MLOps Community

Most of us are using LLMs and some of us are getting to the point where LLMs are going to production. Honeymoon phase is going to get over soon and practical realities like cost & maintainability are going to become mainstream. However, the cost of running..

MLOps Community

‍

Hemos descubierto que, una y otra vez, las empresas sobrestiman o subestiman su gasto en modelos lingüísticos de gran tamaño. En este caso, trataremos de entender el coste que supone utilizar algunos de los modelos lingüísticos más populares y entender cómo funcionan sus precios.

ℹ️

El propósito de este blog no es educar al lector sobre los LLM o sus actuaciones. Este es un blog intensivo en matemáticas centrado en entender los precios de los LLM. Para simplificar, no compararíamos el rendimiento entre estos modelos.

Resumiendo Wikipedia

`El` muestra para el análisis de precios

Para entender cómo funcionan los precios de los LLM, compararíamos el costo incurrido en la misma tarea, es decir, resumir Wikipedia con la mitad de su tamaño.

Detalles del tamaño de la tarea

Usaríamos algunas aproximaciones para simplificar los cálculos y hacerlos más fáciles de entender

Tamaño del corpus de Wikipedia

~ 6 millones de artículos en total
~ 750 palabras por artículo
~ 1000 fichas por artículo

❓

Fichas son subpartes de palabras que no dependen precisamente del principio o el final de las palabras. Es la unidad en la que las API de OpenAI dividen la entrada en fichas antes de que se procesen. Los símbolos pueden incluir espacios al final e incluso subpalabras.

El tamaño esperado de la salida resumida

Para esta tarea, asumimos que cada artículo se está comprimiendo a la mitad de su tamaño para simplificar. Por lo tanto, los resultados que esperamos serán los siguientes:

~6 millones de artículos
~375 palabras por artículo resumido
~500 fichas por artículo

Sample Task: Summarising Wikipedia Articles — **Ejemplo de tarea: resumir artículos de Wikipedia**

Comprensión de los costos

Comparar lo que costaría usar diferentes modelos para esta tarea

Palancas de precios en OpenAI/API de terceros

OpenAI y otras API de terceros suelen cobrar en función de dos palancas: si quieres inferir el uso de sus API

Coste de entrada

Este costo depende de la cantidad de tokens (explicados anteriormente) que se pasen como contexto/indicación/instrucción a la API.

Coste de producción

El costo se basa en la cantidad de tokens que la API devuelve como respuesta.

En el caso de una tarea como la de resumir, dado que es necesario pasar al modelo todo el documento o extracto que se va a resumir, la cantidad de fichas que forman parte del mensaje puede llegar a ser significativa y, por lo tanto, el costo de los insumos.

Base del costo incurrido con los modelos autohospedados

Con los modelos autohospedados, el usuario debe administrar o aprovisionar la máquina necesaria para ejecutar el modelo. Si bien puede incluir el costo de administrar estos recursos, el precio es relativamente fácil de entender, ya que se basa únicamente en el costo de funcionamiento de la máquina (por lo general, lo que cobran los proveedores de la nube, a menos que tenga su propio clúster local)

Costo de la máquina

Costo de aprovisionamiento de la máquina requerida para ejecutar o alojar el modelo. Dado que la mayoría de estos modelos más grandes son más grandes que lo que se puede ejecutar en un portátil o en un único dispositivo local, lo más común es utilizar un proveedor de nube para estas máquinas.

Los proveedores de nube ofrecen estas instancias, aunque los usuarios pueden tener problemas de disponibilidad de GPU, ya que estos modelos requieren GPU.

Costos de las instancias de AWS

Costos de Google Cloud Instance

Costos de las instancias de Microsoft Azure

Instancias puntuales

Los proveedores de nube ofrecen su capacidad sobrante a un costo entre un 40 y un 90% más económico que las instancias bajo demanda

Comparación del costo de los diferentes modelos

GPT 4: longitud de contexto de 8K

Costos unitarios

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$30	$60

‍

Fórmula de costo

Costo = No. De fichas (por cada 1000 artículos) x número de artículos (en miles) x coste unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 30$ (/millón de fichas) = 180.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 60$ (/millón de fichas) = 180.000 dólares

Coste total

Costo de entrada + costo de salida

= 360.000$

GPT 4: longitud de contexto de 32 K

Costos unitarios

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$60	$120

‍

Costo de entrada (/Mn de tokens) Costo de salida (/Mn de tokens) $60 $120

Fórmula de costo

Costo = No. De fichas (por cada 1000 artículos) x número de artículos (en miles) x coste unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 60$ (/Mn de fichas) = 360.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 120$ (/millón de fichas) = 360.000 dólares

Coste total

Costo de entrada + costo de salida

= 720.000$

Claude antrópico V1

Costos unitarios

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$11	$32

‍

Fórmula de costo

Costo = número de fichas (por 1000 artículos) x número de artículos (en miles) x costo unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6.000 (artículos) X 11$ (/millón de fichas) = 66.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 60$ (/millón de fichas) = 96.000 dólares

Coste total

Costo de entrada + costo de salida

= 162.000$

InstructGP - Da Vinci

Costos unitarios

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$20	$20

‍

Fórmula de costo

Costo = No. De fichas (por cada 1000 artículos) x número de artículos (en miles) x coste unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 20$ (/Mn de fichas) = 120.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 20$ (/Mn de fichas) = 60.000 dólares

Coste total

Costo de entrada + costo de salida

= 180.000$

Curie

Costos unitarios

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$2	$2

‍

Fórmula de costo

Costo = No. De fichas (por cada 1000 artículos) x número de artículos (en miles) x coste unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 2$ (/millón de fichas) = 12.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 60$ (/millón de fichas) = 6.000 dólares

Coste total

Costo de entrada + costo de salida

= 18.000$

Modelo 7B autohospedado

Costos unitarios

COST OF RUNNING MACHINE (/HR FOR SPOT A100-80GB)

$10

Costo de funcionamiento de la máquina (/hora para Spot A100-80 Gb) 10$

Fórmula de costo

Costo = número de fichas (por 1000 artículos) x número de artículos (en miles) x costo unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 30$ (/millón de fichas) = 180.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 60$ (/millón de fichas) = 180.000 dólares

Coste total

Costo de entrada + costo de salida

= 360.000$

Modelos de ajuste fino

En la mayoría de los casos de uso, las empresas las necesitan para ajustar modelos específicos para sus propios datos y para tareas particulares. Varias empresas han informado de que los modelos de código abierto perfeccionados están a la altura o, a veces, incluso son mejores que las API de terceros, como OpenAI, para una tarea específica.

DaVinci afinado

Coste total

Costo de entrada + costo de salida

= 1.260.000 dólares

Curie afinado

Coste total

Costo de entrada + costo de salida

= 126.000$

Modelo 7B autohospedado, ajustado con precisión

Costo del resumen con un modelo 7B autohospedado y ajustado

Coste total

Costo de entrada + costo de salida

= 126.000$

Poniéndolo todo junto

PRETRAINED / FINE TUNED	MODEL NAME	PARAMS*	FINE TUNING COST ($)	INPUT COST ($)	OUTPUT COST ($)	TOTAL COST ($)
Pretrained	GPT-4 32K	1 Tn +	NA	360k	360k	720k
	GPT-4 8K	1 Tn +	NA	180k	180k	360k
	DaVinci	175 Bn	NA	120k	60k	180k
	Claude v1	52 Bn	NA	66k	96k	162k
	Curie	13 Bn	NA	12k	6k	18k
	Self-hosted 7B	7 Bn	NA	350	1750	2.1k
Fine Tuned	DaVinci	175 Bn	180k	720k	360k	1.26M
	Curie	13 Bn	18k	72k	36k	126k
	Self-hosted 7B	7 Bn	1400	350	1750	3.5k

‍

Aspectos a tener en cuenta en los precios:

Los modelos DaVinci y Curie son aproximadamente 7 veces más caros si los estás ajustando según tu caso de uso
El costo aumenta con un aumento de la ventana de contexto de aproximadamente el doble
El costo de usar el modelo aumenta con un aumento en el número de parámetros del modelo

Efecto del ajuste fino en el rendimiento

Usamos el siguiente punto de referencia para analizar el efecto del ajuste fino de los modelos en el rendimiento de los modelos. Es interesante observar que:

Los modelos con parámetros más bajos también pueden funcionar mejor que los modelos más grandes cuando se ajustan a un caso de uso en particular.
Es posible ahorrar costos de manera significativa sin dañar demasiado el rendimiento si se establece el equilibrio correcto entre costo y rendimiento.

Tipo de tarea Best 6B/7B OOTB Model Few-ShotMoveLM 7B Zero-Shot GPT-3.5 Turbo Zero-Shot GPT-3.5 Turbo Few-Shot GPT-4 Few-Shot Relevancia: conjunto de datos interno0,330,930,840,920,95Extracción: salida estructurada para consultas0.380,980,220.720.380.73Razonamiento: activación personalizada0,620,930.870.880.90.88Clasificación: dominio de la consulta del usuario0,210,790.60.730.70.76 Extracción: salida estructurada de la escritura de entidades0,830,870,90,890,890,89

TASK TYPE	BEST 6B/7B OOTB MODEL FEW-SHOT	MOVELM 7B ZERO-SHOT	GPT-3.5 TURBO ZERO-SHOT	GPT-3.5 TURBO FEW-SHOT	GPT-4 ZERO-SHOT	GPT-4 FEW-SHOT
Relevance - internal dataset	0.33	0.93	0.84	0.84	0.92	0.95
Extraction - structured output for queries	0.38	0.98	0.22	0.72	0.38	0.73
Reasoning - custom triggering	0.62	0.93	0.87	0.88	0.9	0.88
Classification - domain of user query	0.21	0.79	0.6	0.73	0.7	0.76
Extraction - structured output from entity typing	0.83	0.87	0.9	0.89	0.89	0.89

‍

Qué estamos haciendo

¡TrueFoundry cree que el futuro de los LLM es la coexistencia de los LLM comerciales y de código abierto dentro de la misma aplicación!

Creemos en un estado de aplicaciones en el que las tareas más sencillas se gestionen mediante LLM livianos de código abierto, mientras que las tareas más complejas o las que requieren capacidades distintas (por ejemplo, búsqueda web, llamadas a API, etc.), que solo ofrecen los LLM comerciales de código cerrado, se les pueden delegar.

Si está utilizando OpenAI

Ayudamos a reducir la cantidad de tokens enviados a las API de OpenAI. Por eso decidimos trabajar en esto porque:

Nos dimos cuenta de que más de la mitad del costo consistía en procesar los tokens contextuales y de aviso.
No todas las palabras son necesarias. Los LLM son excelentes para trabajar con oraciones incompletas.

Por lo tanto True Foundry está creando una API de compresión para ahorre el costo de OpenAI en un ~ 30%.

Compression in OpenAI — Compresión en OpenAI

Si quieres usar LLMs de código abierto

Simplificamos la ejecución de estos modelos dentro de su propia infraestructura a través de nuestras siguientes ofertas:

Catálogo de modelos: De LLM de código abierto, optimizados para la inferencia y el ajuste fino.
API integradas: Estas se pueden cambiar directamente por las API de HuggingFace y OpenAI que ya ejecutas en tus aplicaciones.
Optimización de costos: Across cloud en K8s al aprovechar sus créditos o su presupuesto en la nube.

🚀 Build your own LLM application with us

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora