Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

La pregunta de 360 000 dólares sobre la economía de los modelos lingüísticos grandes

Por TrueFoundry

Actualizado: June 22, 2023

Resumir con
El propósito de este artículo es educar al lector sobre cómo funcionan los precios de los modelos de lenguaje grande (LLM). Esto está motivado por nuestras conversaciones con varias empresas que utilizan los LLM con fines comerciales. En estas conversaciones nos dimos cuenta de que la economía de la LLM a menudo se malinterpreta, lo que deja un enorme margen de optimización.

¿Te das cuenta de que haciendo el la misma tarea puede llevar 3500$ con un modelo o 1 260 000$ con otro? Esto se produce a costa de la diferencia en el rendimiento, pero deja mucho espacio a la mitad para pensar en cuál es la compensación entre costo y rendimiento. ¿La tarea es tal que puedo usar algo que sea más barato?

Hemos descubierto que, una y otra vez, las empresas sobrestiman o subestiman su gasto en modelos lingüísticos de gran tamaño. En este caso, trataremos de entender el coste que supone utilizar algunos de los modelos lingüísticos más populares y entender cómo funcionan sus precios.

ℹ️

El propósito de este blog no es educar al lector sobre los LLM o sus actuaciones. Este es un blog intensivo en matemáticas centrado en entender los precios de los LLM. Para simplificar, no compararíamos el rendimiento entre estos modelos.

Resumiendo Wikipedia

El muestra para el análisis de precios

Para entender cómo funcionan los precios de los LLM, compararíamos el costo incurrido en la misma tarea, es decir, resumir Wikipedia con la mitad de su tamaño.

Detalles del tamaño de la tarea

Usaríamos algunas aproximaciones para simplificar los cálculos y hacerlos más fáciles de entender

Tamaño del corpus de Wikipedia

  • ~ 6 millones de artículos en total
  • ~ 750 palabras por artículo
  • ~ 1000 fichas por artículo

Fichas son subpartes de palabras que no dependen precisamente del principio o el final de las palabras. Es la unidad en la que las API de OpenAI dividen la entrada en fichas antes de que se procesen. Los símbolos pueden incluir espacios al final e incluso subpalabras.

El tamaño esperado de la salida resumida

Para esta tarea, asumimos que cada artículo se está comprimiendo a la mitad de su tamaño para simplificar. Por lo tanto, los resultados que esperamos serán los siguientes:

  • ~6 millones de artículos
  • ~375 palabras por artículo resumido
  • ~500 fichas por artículo
Sample Task: Summarising Wikipedia Articles
Ejemplo de tarea: resumir artículos de Wikipedia

Comprensión de los costos

Comparar lo que costaría usar diferentes modelos para esta tarea

Palancas de precios en OpenAI/API de terceros

OpenAI y otras API de terceros suelen cobrar en función de dos palancas: si quieres inferir el uso de sus API

Coste de entrada

Este costo depende de la cantidad de tokens (explicados anteriormente) que se pasen como contexto/indicación/instrucción a la API.

Coste de producción

El costo se basa en la cantidad de tokens que la API devuelve como respuesta.

En el caso de una tarea como la de resumir, dado que es necesario pasar al modelo todo el documento o extracto que se va a resumir, la cantidad de fichas que forman parte del mensaje puede llegar a ser significativa y, por lo tanto, el costo de los insumos.

Base del costo incurrido con los modelos autohospedados

Con los modelos autohospedados, el usuario debe administrar o aprovisionar la máquina necesaria para ejecutar el modelo. Si bien puede incluir el costo de administrar estos recursos, el precio es relativamente fácil de entender, ya que se basa únicamente en el costo de funcionamiento de la máquina (por lo general, lo que cobran los proveedores de la nube, a menos que tenga su propio clúster local)

Costo de la máquina

Costo de aprovisionamiento de la máquina requerida para ejecutar o alojar el modelo. Dado que la mayoría de estos modelos más grandes son más grandes que lo que se puede ejecutar en un portátil o en un único dispositivo local, lo más común es utilizar un proveedor de nube para estas máquinas.

Los proveedores de nube ofrecen estas instancias, aunque los usuarios pueden tener problemas de disponibilidad de GPU, ya que estos modelos requieren GPU.

Costos de las instancias de AWS

Costos de Google Cloud Instance

Costos de las instancias de Microsoft Azure

Instancias puntuales

Los proveedores de nube ofrecen su capacidad sobrante a un costo entre un 40 y un 90% más económico que las instancias bajo demanda

Comparación del costo de los diferentes modelos

GPT 4: longitud de contexto de 8K

Costos unitarios

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$30 $60

Fórmula de costo

Costo = No. De fichas (por cada 1000 artículos) x número de artículos (en miles) x coste unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 30$ (/millón de fichas) = 180.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 60$ (/millón de fichas) = 180.000 dólares

Coste total

Costo de entrada + costo de salida

= 360.000$

GPT 4: longitud de contexto de 32 K

Costos unitarios

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$60 $120

Costo de entrada (/Mn de tokens) Costo de salida (/Mn de tokens) $60 $120

Fórmula de costo

Costo = No. De fichas (por cada 1000 artículos) x número de artículos (en miles) x coste unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 60$ (/Mn de fichas) = 360.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 120$ (/millón de fichas) = 360.000 dólares

Coste total

Costo de entrada + costo de salida

= 720.000$

Claude antrópico V1

Costos unitarios

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$11 $32

Fórmula de costo

Costo = número de fichas (por 1000 artículos) x número de artículos (en miles) x costo unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6.000 (artículos) X 11$ (/millón de fichas) = 66.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 60$ (/millón de fichas) = 96.000 dólares

Coste total

Costo de entrada + costo de salida

= 162.000$

InstructGP - Da Vinci

Costos unitarios

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$20 $20

Fórmula de costo

Costo = No. De fichas (por cada 1000 artículos) x número de artículos (en miles) x coste unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 20$ (/Mn de fichas) = 120.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 20$ (/Mn de fichas) = 60.000 dólares

Coste total

Costo de entrada + costo de salida

= 180.000$

Curie

Costos unitarios

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$2 $2

Fórmula de costo

Costo = No. De fichas (por cada 1000 artículos) x número de artículos (en miles) x coste unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 2$ (/millón de fichas) = 12.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 60$ (/millón de fichas) = 6.000 dólares

Coste total

Costo de entrada + costo de salida

= 18.000$

Modelo 7B autohospedado

Costos unitarios

COST OF RUNNING MACHINE (/HR FOR SPOT A100-80GB)
$10

Costo de funcionamiento de la máquina (/hora para Spot A100-80 Gb) 10$

Fórmula de costo

Costo = número de fichas (por 1000 artículos) x número de artículos (en miles) x costo unitario (por millón de fichas)

Costo de la entrada

1000 (tokens/artículo) X 6000 000 (artículos) X 30$ (/millón de fichas) = 180.000 dólares

Coste de producción

0,5 K (tokens/artículo) X 6.000 K (artículos) X 60$ (/millón de fichas) = 180.000 dólares

Coste total

Costo de entrada + costo de salida

= 360.000$

Modelos de ajuste fino

En la mayoría de los casos de uso, las empresas las necesitan para ajustar modelos específicos para sus propios datos y para tareas particulares. Varias empresas han informado de que los modelos de código abierto perfeccionados están a la altura o, a veces, incluso son mejores que las API de terceros, como OpenAI, para una tarea específica.

DaVinci afinado

Costo del resumen con un modelo DaVinci afinado

Coste total

Costo de entrada + costo de salida

= 1.260.000 dólares

Curie afinado

Costo del resumen con un modelo de Curie afinado

Coste total

Costo de entrada + costo de salida

= 126.000$

Modelo 7B autohospedado, ajustado con precisión

Costo del resumen con un modelo 7B autohospedado y ajustado

Coste total

Costo de entrada + costo de salida

= 126.000$

Poniéndolo todo junto

PRETRAINED / FINE TUNED MODEL NAME PARAMS* FINE TUNING COST ($) INPUT COST ($) OUTPUT COST ($) TOTAL COST ($)
Pretrained GPT-4 32K 1 Tn + NA 360k 360k 720k
GPT-4 8K 1 Tn + NA 180k 180k 360k
DaVinci 175 Bn NA 120k 60k 180k
Claude v1 52 Bn NA 66k 96k 162k
Curie 13 Bn NA 12k 6k 18k
Self-hosted 7B 7 Bn NA 350 1750 2.1k
Fine Tuned DaVinci 175 Bn 180k 720k 360k 1.26M
Curie 13 Bn 18k 72k 36k 126k
Self-hosted 7B 7 Bn 1400 350 1750 3.5k

Aspectos a tener en cuenta en los precios:

  1. Los modelos DaVinci y Curie son aproximadamente 7 veces más caros si los estás ajustando según tu caso de uso
  2. El costo aumenta con un aumento de la ventana de contexto de aproximadamente el doble
  3. El costo de usar el modelo aumenta con un aumento en el número de parámetros del modelo

Efecto del ajuste fino en el rendimiento

Usamos el siguiente punto de referencia para analizar el efecto del ajuste fino de los modelos en el rendimiento de los modelos. Es interesante observar que:

  1. Los modelos con parámetros más bajos también pueden funcionar mejor que los modelos más grandes cuando se ajustan a un caso de uso en particular.
  2. Es posible ahorrar costos de manera significativa sin dañar demasiado el rendimiento si se establece el equilibrio correcto entre costo y rendimiento.

Tipo de tarea Best 6B/7B OOTB Model Few-ShotMoveLM 7B Zero-Shot GPT-3.5 Turbo Zero-Shot GPT-3.5 Turbo Few-Shot GPT-4 Few-Shot Relevancia: conjunto de datos interno0,330,930,840,920,95Extracción: salida estructurada para consultas0.380,980,220.720.380.73Razonamiento: activación personalizada0,620,930.870.880.90.88Clasificación: dominio de la consulta del usuario0,210,790.60.730.70.76 Extracción: salida estructurada de la escritura de entidades0,830,870,90,890,890,89

TASK TYPE BEST 6B/7B OOTB MODEL FEW-SHOT MOVELM 7B ZERO-SHOT GPT-3.5 TURBO ZERO-SHOT GPT-3.5 TURBO FEW-SHOT GPT-4 ZERO-SHOT GPT-4 FEW-SHOT
Relevance - internal dataset 0.33 0.93 0.84 0.84 0.92 0.95
Extraction - structured output for queries 0.38 0.98 0.22 0.72 0.38 0.73
Reasoning - custom triggering 0.62 0.93 0.87 0.88 0.9 0.88
Classification - domain of user query 0.21 0.79 0.6 0.73 0.7 0.76
Extraction - structured output from entity typing 0.83 0.87 0.9 0.89 0.89 0.89

Qué estamos haciendo

¡TrueFoundry cree que el futuro de los LLM es la coexistencia de los LLM comerciales y de código abierto dentro de la misma aplicación!

Creemos en un estado de aplicaciones en el que las tareas más sencillas se gestionen mediante LLM livianos de código abierto, mientras que las tareas más complejas o las que requieren capacidades distintas (por ejemplo, búsqueda web, llamadas a API, etc.), que solo ofrecen los LLM comerciales de código cerrado, se les pueden delegar.

Si está utilizando OpenAI

Ayudamos a reducir la cantidad de tokens enviados a las API de OpenAI. Por eso decidimos trabajar en esto porque:

  1. Nos dimos cuenta de que más de la mitad del costo consistía en procesar los tokens contextuales y de aviso.
  2. No todas las palabras son necesarias. Los LLM son excelentes para trabajar con oraciones incompletas.

Por lo tanto True Foundry está creando una API de compresión para ahorre el costo de OpenAI en un ~ 30%.

Compression in OpenAI
Compresión en OpenAI

Si quieres usar LLMs de código abierto

Simplificamos la ejecución de estos modelos dentro de su propia infraestructura a través de nuestras siguientes ofertas:

  1. Catálogo de modelos: De LLM de código abierto, optimizados para la inferencia y el ajuste fino.
  2. API integradas: Estas se pueden cambiar directamente por las API de HuggingFace y OpenAI que ya ejecutas en tus aplicaciones.
  3. Optimización de costos: Across cloud en K8s al aprovechar sus créditos o su presupuesto en la nube.
LLM de código abierto de TrueFoundry

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

July 20, 2023
|
5 minutos de lectura

LLMOps CoE: la próxima frontera en el panorama de los MLOps

April 16, 2024
|
5 minutos de lectura

Cognita: Creación de aplicaciones RAG modulares y de código abierto para la producción

May 25, 2023
|
5 minutos de lectura

LLM de código abierto: abrazar o perecer

August 27, 2025
|
5 minutos de lectura

Mapeando el mercado de la IA local: desde chips hasta aviones de control

April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto