A pergunta de US$ 360 mil sobre a Economia dos Grandes Modelos de Linguagem

Published: May 21, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

O objetivo deste artigo é educar o leitor sobre como funciona a precificação dos Grandes Modelos de Linguagem (LLM). Isso é motivado por nossas conversas com várias empresas que utilizam LLMs comercialmente. Percebemos nessas conversas que a economia dos LLMs é frequentemente mal compreendida, deixando um vasto campo para otimização.

Você percebe que fazer a mesma tarefa pode custar US$ 3.500 com um modelo ou US$ 1.260.000 com outro? Isso vem com o custo de uma diferença de desempenho, mas deixa muito espaço para pensar sobre qual é o equilíbrio entre custo e desempenho. A tarefa é tal que posso usar algo mais barato?

‍

$360k Question - Understanding the LLM Economics - Video | MLOps Community

Most of us are using LLMs and some of us are getting to the point where LLMs are going to production. Honeymoon phase is going to get over soon and practical realities like cost & maintainability are going to become mainstream. However, the cost of running..

MLOps Community

‍

Temos encontrado empresas, repetidamente, superestimando ou subestimando seus gastos com Grandes Modelos de Linguagem. Então, aqui, tentaríamos entender o custo de operar alguns dos modelos de linguagem grandes populares e como funciona sua precificação.

ℹ️

O objetivo deste blog não é educar o leitor sobre LLMs ou seus desempenhos. Este é um blog com foco em matemática, dedicado a entender a precificação de LLMs. Para simplificar, não compararemos o desempenho entre esses modelos.

Resumindo a Wikipédia

`A` amostra para análise de precificação

Para entender como funciona a precificação dos LLMs, compararemos o custo incorrido para a mesma tarefa, ou seja, resumir a Wikipédia à metade de seu tamanho.

Detalhes do Tamanho da Tarefa

Usaremos algumas aproximações para simplificar os cálculos e torná-los facilmente compreensíveis.

Tamanho do Corpus da Wikipédia

~ 6 milhões de artigos no total
~ 750 palavras por artigo
~ 1000 tokens por artigo

❓

Tokens são subpartes de palavras que não dependem precisamente do início ou fim das palavras. É a unidade em que as APIs da OpenAI dividem a entrada em tokens antes de serem processadas. Os tokens podem incluir espaços finais e até subpalavras.

O tamanho esperado da saída resumida

Para esta tarefa, assumimos que cada artigo é simplesmente compactado para metade do seu tamanho, para simplificar. Assim, os resultados que esperamos serão os seguintes:

~6 milhões de artigos
~375 palavras por artigo resumido
~500 tokens por artigo

Sample Task: Summarising Wikipedia Articles — **Exemplo de Tarefa: Resumir Artigos da Wikipédia**

Compreendendo os custos

Comparando o custo de usar diferentes modelos para esta tarefa

Fatores de precificação em APIs da OpenAI/Terceiros

A OpenAI e outras APIs de terceiros geralmente cobram com base em dois fatores; se você deseja fazer inferências usando as APIs delas

Custo de Entrada

Este custo depende do número de tokens (explicado acima) passados como contexto/prompt/instrução para a API.

Custo de Saída

É o custo baseado no número de tokens que a API retorna como resposta.

Para uma tarefa como a sumarização, uma vez que é necessário passar o documento ou excerto completo a ser resumido para o modelo, o número de tokens que fazem parte do prompt pode tornar-se significativo, daí o custo de entrada.

Base do custo incorrido com modelos auto-hospedados

Com modelos auto-hospedados, o usuário precisa gerenciar/provisionar a máquina necessária para executar o modelo. Embora possa incluir o custo de gerenciamento desses recursos, o preço é relativamente fácil de entender, pois se baseia apenas no custo de execução da máquina (geralmente o que é cobrado pelos provedores de nuvem, a menos que você tenha seu próprio cluster local).

Custo da Máquina

Custo de provisionamento da máquina necessária para executar/hospedar o modelo. Como a maioria desses modelos maiores é maior do que o que pode ser executado em um laptop ou em um único dispositivo local, usar um provedor de nuvem para essas máquinas é o mais comum.

Os provedores de nuvem oferecem essas instâncias, embora os usuários possam enfrentar problemas de disponibilidade de GPU, já que esses modelos exigem GPU.

Custos de instâncias AWS

Custos de instâncias Google Cloud

Custos de instâncias Microsoft Azure

Instâncias spot

Os provedores de nuvem oferecem sua capacidade ociosa por um custo que é 40-90% mais barato do que as instâncias sob demanda

Comparando o custo dos diferentes modelos

GPT 4 - 8K de comprimento de contexto

Custos Unitários

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$30	$60

‍

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $30 (/Milhão de tokens) = $180.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $180.000

Custo Total

Custo de Entrada + Custo de Saída

= $360.000

GPT 4 - 32K de comprimento de contexto

Custos Unitários

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$60	$120

‍

Custo de Entrada (/Milhões de Tokens)Custo de Saída (/Milhões de Tokens)$60$120

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhões de tokens) = $360.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $120 (/Milhões de tokens) = $360.000

Custo Total

Custo de Entrada + Custo de Saída

= $720.000

Anthropic Claude V1

Custos Unitários

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$11	$32

‍

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $11 (/Milhão de tokens) = $66.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $96.000

Custo Total

Custo de Entrada + Custo de Saída

= $162.000

InstructGPT - DaVinci

Custos Unitários

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$20	$20

‍

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $20 (/Milhão de tokens) = $120.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $20 (/Milhões de tokens) = $60.000

Custo Total

Custo de Entrada + Custo de Saída

= $180.000

Curie

Custos Unitários

INPUT COST (/MN TOKENS)	OUTPUT COST (/MN TOKENS)
$2	$2

‍

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $2 (/Milhões de tokens) = $12.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhões de tokens) = $6.000

Custo Total

Custo de Entrada + Custo de Saída

= $18.000

Modelo 7B Auto-hospedado

Custos Unitários

COST OF RUNNING MACHINE (/HR FOR SPOT A100-80GB)

$10

Custo de operação da Máquina (/Hora para Spot A100-80Gb)$10

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $30 (/Milhão de tokens) = $180.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $180.000

Custo Total

Custo de Entrada + Custo de Saída

= $360.000

Ajuste Fino de Modelos

A maioria dos casos de uso que as empresas têm exige que elas ajustem modelos específicos aos seus próprios dados e para tarefas particulares. Várias empresas relataram que modelos de código aberto ajustados são equivalentes ou, por vezes, até melhores do que APIs de terceiros, como a OpenAI, para a tarefa específica.

DaVinci com Ajuste Fino

Custo Total

Custo de Entrada + Custo de Saída

= $1,260,000

Curie Otimizado

Custo Total

Custo de Entrada + Custo de Saída

= $126,000

Modelo 7B Auto-hospedado e Otimizado

Custo Total

Custo de Entrada + Custo de Saída

= $126,000

Juntando tudo

PRETRAINED / FINE TUNED	MODEL NAME	PARAMS*	FINE TUNING COST ($)	INPUT COST ($)	OUTPUT COST ($)	TOTAL COST ($)
Pretrained	GPT-4 32K	1 Tn +	NA	360k	360k	720k
	GPT-4 8K	1 Tn +	NA	180k	180k	360k
	DaVinci	175 Bn	NA	120k	60k	180k
	Claude v1	52 Bn	NA	66k	96k	162k
	Curie	13 Bn	NA	12k	6k	18k
	Self-hosted 7B	7 Bn	NA	350	1750	2.1k
Fine Tuned	DaVinci	175 Bn	180k	720k	360k	1.26M
	Curie	13 Bn	18k	72k	36k	126k
	Self-hosted 7B	7 Bn	1400	350	1750	3.5k

‍

Pontos a observar na precificação:

Os Modelos DaVinci e Curie são ~7 vezes mais caros se você os otimizar para o seu caso de uso
O custo aumenta em cerca de 2 vezes com o aumento da janela de contexto
O custo de usar o modelo aumenta com o aumento do número de parâmetros do modelo

Efeito da otimização no desempenho

Utilizamos o seguinte benchmark para analisar o efeito da otimização dos modelos no desempenho dos mesmos. É interessante notar que:

Modelos com menos parâmetros também podem ter um desempenho melhor do que modelos maiores quando ajustados para um caso de uso específico.
Uma economia de custos significativa é possível sem prejudicar muito o desempenho, se o equilíbrio certo for estabelecido entre custo e desempenho.

Tarefa TipoMelhor Modelo OOTB 6B/7B Few-shotMoveLM 7B Zero-shotGPT-3.5 Turbo Zero-shotGPT-3.5 Turbo Few-shotGPT-4 Zero-shotGPT-4 Few-shotRelevância - conjunto de dados interno0.330.930.840.840.920.95Extração - saída estruturada para consultas0.380.980.220.720.380.73Raciocínio - acionamento personalizado0.620.930.870.880.90.88Classificação - domínio da consulta do usuário0.210.790.60.730.70.76Extração - saída estruturada de tipagem de entidades0.830.870.90.890.890.89

TASK TYPE	BEST 6B/7B OOTB MODEL FEW-SHOT	MOVELM 7B ZERO-SHOT	GPT-3.5 TURBO ZERO-SHOT	GPT-3.5 TURBO FEW-SHOT	GPT-4 ZERO-SHOT	GPT-4 FEW-SHOT
Relevance - internal dataset	0.33	0.93	0.84	0.84	0.92	0.95
Extraction - structured output for queries	0.38	0.98	0.22	0.72	0.38	0.73
Reasoning - custom triggering	0.62	0.93	0.87	0.88	0.9	0.88
Classification - domain of user query	0.21	0.79	0.6	0.73	0.7	0.76
Extraction - structured output from entity typing	0.83	0.87	0.9	0.89	0.89	0.89

‍

O Que Estamos Fazendo

A TrueFoundry acredita que o futuro dos LLMs é a coexistência de LLMs de código aberto e comerciais dentro da mesma aplicação!

Acreditamos em um estado de aplicações onde as tarefas mais fáceis são tratadas por LLMs de código aberto leves, enquanto as tarefas mais complexas ou aquelas que exigem capacidades distintas (por exemplo, pesquisa na web, chamadas de API, etc.), que são oferecidas apenas por LLMs comerciais de código fechado, podem ser delegadas a eles.

Se você está usando OpenAI

Ajudamos a reduzir o número de tokens enviados para as APIs da OpenAI. Decidimos trabalhar nisso porque:

Percebemos que mais da metade do custo era para processar tokens de contexto / prompt.
Nem todas as palavras são necessárias. LLMs são ótimos em trabalhar com frases incompletas.

Portanto, TrueFoundry está desenvolvendo uma API de compressão para economizar custos da OpenAI em cerca de 30%.

Compression in OpenAI — Compressão na OpenAI

Se você deseja usar LLMs de Código Aberto

Simplificamos a execução desses modelos em sua própria infraestrutura através de nossas seguintes ofertas:

Catálogo de Modelos: De LLMs de código aberto - otimizados para inferência e ajuste fino.
APIs Plug-and-Play: Elas podem ser diretamente substituídas pelas APIs da HuggingFace e da OpenAI que você já executa em suas aplicações.
Otimização de Custos: Entre nuvens em K8s, aproveitando seus créditos ou orçamento de nuvem.

🚀 Build your own LLM application with us

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now