A pergunta de US$ 360 mil sobre a Economia dos Grandes Modelos de Linguagem

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
O objetivo deste artigo é educar o leitor sobre como funciona a precificação dos Grandes Modelos de Linguagem (LLM). Isso é motivado por nossas conversas com várias empresas que utilizam LLMs comercialmente. Percebemos nessas conversas que a economia dos LLMs é frequentemente mal compreendida, deixando um vasto campo para otimização.
Você percebe que fazer a mesma tarefa pode custar US$ 3.500 com um modelo ou US$ 1.260.000 com outro? Isso vem com o custo de uma diferença de desempenho, mas deixa muito espaço para pensar sobre qual é o equilíbrio entre custo e desempenho. A tarefa é tal que posso usar algo mais barato?
Temos encontrado empresas, repetidamente, superestimando ou subestimando seus gastos com Grandes Modelos de Linguagem. Então, aqui, tentaríamos entender o custo de operar alguns dos modelos de linguagem grandes populares e como funciona sua precificação.
ℹ️
O objetivo deste blog não é educar o leitor sobre LLMs ou seus desempenhos. Este é um blog com foco em matemática, dedicado a entender a precificação de LLMs. Para simplificar, não compararemos o desempenho entre esses modelos.
Resumindo a Wikipédia
A amostra para análise de precificação
Para entender como funciona a precificação dos LLMs, compararemos o custo incorrido para a mesma tarefa, ou seja, resumir a Wikipédia à metade de seu tamanho.
Detalhes do Tamanho da Tarefa
Usaremos algumas aproximações para simplificar os cálculos e torná-los facilmente compreensíveis.
Tamanho do Corpus da Wikipédia
- ~ 6 milhões de artigos no total
- ~ 750 palavras por artigo
- ~ 1000 tokens por artigo
❓
Tokens são subpartes de palavras que não dependem precisamente do início ou fim das palavras. É a unidade em que as APIs da OpenAI dividem a entrada em tokens antes de serem processadas. Os tokens podem incluir espaços finais e até subpalavras.
O tamanho esperado da saída resumida
Para esta tarefa, assumimos que cada artigo é simplesmente compactado para metade do seu tamanho, para simplificar. Assim, os resultados que esperamos serão os seguintes:
- ~6 milhões de artigos
- ~375 palavras por artigo resumido
- ~500 tokens por artigo

Compreendendo os custos
Comparando o custo de usar diferentes modelos para esta tarefa
Fatores de precificação em APIs da OpenAI/Terceiros
A OpenAI e outras APIs de terceiros geralmente cobram com base em dois fatores; se você deseja fazer inferências usando as APIs delas
Custo de Entrada
Este custo depende do número de tokens (explicado acima) passados como contexto/prompt/instrução para a API.
Custo de Saída
É o custo baseado no número de tokens que a API retorna como resposta.
Para uma tarefa como a sumarização, uma vez que é necessário passar o documento ou excerto completo a ser resumido para o modelo, o número de tokens que fazem parte do prompt pode tornar-se significativo, daí o custo de entrada.
Base do custo incorrido com modelos auto-hospedados
Com modelos auto-hospedados, o usuário precisa gerenciar/provisionar a máquina necessária para executar o modelo. Embora possa incluir o custo de gerenciamento desses recursos, o preço é relativamente fácil de entender, pois se baseia apenas no custo de execução da máquina (geralmente o que é cobrado pelos provedores de nuvem, a menos que você tenha seu próprio cluster local).
Custo da Máquina
Custo de provisionamento da máquina necessária para executar/hospedar o modelo. Como a maioria desses modelos maiores é maior do que o que pode ser executado em um laptop ou em um único dispositivo local, usar um provedor de nuvem para essas máquinas é o mais comum.
Os provedores de nuvem oferecem essas instâncias, embora os usuários possam enfrentar problemas de disponibilidade de GPU, já que esses modelos exigem GPU.
Custos de instâncias Google Cloud
Custos de instâncias Microsoft Azure
Instâncias spot
Os provedores de nuvem oferecem sua capacidade ociosa por um custo que é 40-90% mais barato do que as instâncias sob demanda
Comparando o custo dos diferentes modelos
GPT 4 - 8K de comprimento de contexto
Custos Unitários
Fórmula de Custo
Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)
Custo de Entrada
1K (tokens/artigo) X 6.000K (artigos) X $30 (/Milhão de tokens) = $180.000
Custo de Saída
0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $180.000
Custo Total
Custo de Entrada + Custo de Saída
= $360.000
GPT 4 - 32K de comprimento de contexto
Custos Unitários
Custo de Entrada (/Milhões de Tokens)Custo de Saída (/Milhões de Tokens)$60$120
Fórmula de Custo
Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)
Custo de Entrada
1K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhões de tokens) = $360.000
Custo de Saída
0,5 K (tokens/artigo) X 6.000K (artigos) X $120 (/Milhões de tokens) = $360.000
Custo Total
Custo de Entrada + Custo de Saída
= $720.000
Anthropic Claude V1
Custos Unitários
Fórmula de Custo
Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)
Custo de Entrada
1K (tokens/artigo) X 6.000K (artigos) X $11 (/Milhão de tokens) = $66.000
Custo de Saída
0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $96.000
Custo Total
Custo de Entrada + Custo de Saída
= $162.000
InstructGPT - DaVinci
Custos Unitários
Fórmula de Custo
Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)
Custo de Entrada
1K (tokens/artigo) X 6.000K (artigos) X $20 (/Milhão de tokens) = $120.000
Custo de Saída
0,5 K (tokens/artigo) X 6.000K (artigos) X $20 (/Milhões de tokens) = $60.000
Custo Total
Custo de Entrada + Custo de Saída
= $180.000
Curie
Custos Unitários
Fórmula de Custo
Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)
Custo de Entrada
1K (tokens/artigo) X 6.000K (artigos) X $2 (/Milhões de tokens) = $12.000
Custo de Saída
0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhões de tokens) = $6.000
Custo Total
Custo de Entrada + Custo de Saída
= $18.000
Modelo 7B Auto-hospedado
Custos Unitários
Custo de operação da Máquina (/Hora para Spot A100-80Gb)$10
Fórmula de Custo
Custo = Nº de Tokens (Por 1000 Artigos) X Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)
Custo de Entrada
1K (tokens/artigo) X 6.000K (artigos) X $30 (/Milhão de tokens) = $180.000
Custo de Saída
0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $180.000
Custo Total
Custo de Entrada + Custo de Saída
= $360.000
Ajuste Fino de Modelos
A maioria dos casos de uso que as empresas têm exige que elas ajustem modelos específicos aos seus próprios dados e para tarefas particulares. Várias empresas relataram que modelos de código aberto ajustados são equivalentes ou, por vezes, até melhores do que APIs de terceiros, como a OpenAI, para a tarefa específica.
DaVinci com Ajuste Fino

Custo Total
Custo de Entrada + Custo de Saída
= $1,260,000
Curie Otimizado

Custo Total
Custo de Entrada + Custo de Saída
= $126,000
Modelo 7B Auto-hospedado e Otimizado

Custo Total
Custo de Entrada + Custo de Saída
= $126,000
Juntando tudo
Pontos a observar na precificação:
- Os Modelos DaVinci e Curie são ~7 vezes mais caros se você os otimizar para o seu caso de uso
- O custo aumenta em cerca de 2 vezes com o aumento da janela de contexto
- O custo de usar o modelo aumenta com o aumento do número de parâmetros do modelo
Efeito da otimização no desempenho
Utilizamos o seguinte benchmark para analisar o efeito da otimização dos modelos no desempenho dos mesmos. É interessante notar que:
- Modelos com menos parâmetros também podem ter um desempenho melhor do que modelos maiores quando ajustados para um caso de uso específico.
- Uma economia de custos significativa é possível sem prejudicar muito o desempenho, se o equilíbrio certo for estabelecido entre custo e desempenho.
Tarefa TipoMelhor Modelo OOTB 6B/7B Few-shotMoveLM 7B Zero-shotGPT-3.5 Turbo Zero-shotGPT-3.5 Turbo Few-shotGPT-4 Zero-shotGPT-4 Few-shotRelevância - conjunto de dados interno0.330.930.840.840.920.95Extração - saída estruturada para consultas0.380.980.220.720.380.73Raciocínio - acionamento personalizado0.620.930.870.880.90.88Classificação - domínio da consulta do usuário0.210.790.60.730.70.76Extração - saída estruturada de tipagem de entidades0.830.870.90.890.890.89
O Que Estamos Fazendo
A TrueFoundry acredita que o futuro dos LLMs é a coexistência de LLMs de código aberto e comerciais dentro da mesma aplicação!
Acreditamos em um estado de aplicações onde as tarefas mais fáceis são tratadas por LLMs de código aberto leves, enquanto as tarefas mais complexas ou aquelas que exigem capacidades distintas (por exemplo, pesquisa na web, chamadas de API, etc.), que são oferecidas apenas por LLMs comerciais de código fechado, podem ser delegadas a eles.
Se você está usando OpenAI
Ajudamos a reduzir o número de tokens enviados para as APIs da OpenAI. Decidimos trabalhar nisso porque:
- Percebemos que mais da metade do custo era para processar tokens de contexto / prompt.
- Nem todas as palavras são necessárias. LLMs são ótimos em trabalhar com frases incompletas.
Portanto, TrueFoundry está desenvolvendo uma API de compressão para economizar custos da OpenAI em cerca de 30%.

Se você deseja usar LLMs de Código Aberto
Simplificamos a execução desses modelos em sua própria infraestrutura através de nossas seguintes ofertas:
- Catálogo de Modelos: De LLMs de código aberto - otimizados para inferência e ajuste fino.
- APIs Plug-and-Play: Elas podem ser diretamente substituídas pelas APIs da HuggingFace e da OpenAI que você já executa em suas aplicações.
- Otimização de Custos: Entre nuvens em K8s, aproveitando seus créditos ou orçamento de nuvem.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI

















.webp)






.webp)

.webp)
.webp)





.png)



