Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

A pergunta de US$ 360 mil sobre a Economia dos Grandes Modelos de Linguagem

By TrueFoundry

Updated: June 22, 2023

O objetivo deste artigo é educar o leitor sobre como funciona a precificação dos Grandes Modelos de Linguagem (LLM). Isso é motivado por nossas conversas com várias empresas que utilizam LLMs comercialmente. Percebemos nessas conversas que a economia dos LLMs é frequentemente mal compreendida, deixando um vasto campo para otimização.

Você percebe que fazer a mesma tarefa pode custar US$ 3.500 com um modelo ou US$ 1.260.000 com outro? Isso vem com o custo de uma diferença de desempenho, mas deixa muito espaço para pensar sobre qual é o equilíbrio entre custo e desempenho. A tarefa é tal que posso usar algo mais barato?

Temos encontrado empresas, repetidamente, superestimando ou subestimando seus gastos com Grandes Modelos de Linguagem. Então, aqui, tentaríamos entender o custo de operar alguns dos modelos de linguagem grandes populares e como funciona sua precificação.

ℹ️

O objetivo deste blog não é educar o leitor sobre LLMs ou seus desempenhos. Este é um blog com foco em matemática, dedicado a entender a precificação de LLMs. Para simplificar, não compararemos o desempenho entre esses modelos.

Resumindo a Wikipédia

A amostra para análise de precificação

Para entender como funciona a precificação dos LLMs, compararemos o custo incorrido para a mesma tarefa, ou seja, resumir a Wikipédia à metade de seu tamanho.

Detalhes do Tamanho da Tarefa

Usaremos algumas aproximações para simplificar os cálculos e torná-los facilmente compreensíveis.

Tamanho do Corpus da Wikipédia

  • ~ 6 milhões de artigos no total
  • ~ 750 palavras por artigo
  • ~ 1000 tokens por artigo

Tokens são subpartes de palavras que não dependem precisamente do início ou fim das palavras. É a unidade em que as APIs da OpenAI dividem a entrada em tokens antes de serem processadas. Os tokens podem incluir espaços finais e até subpalavras.

O tamanho esperado da saída resumida

Para esta tarefa, assumimos que cada artigo é simplesmente compactado para metade do seu tamanho, para simplificar. Assim, os resultados que esperamos serão os seguintes:

  • ~6 milhões de artigos
  • ~375 palavras por artigo resumido
  • ~500 tokens por artigo
Sample Task: Summarising Wikipedia Articles
Exemplo de Tarefa: Resumir Artigos da Wikipédia

Compreendendo os custos

Comparando o custo de usar diferentes modelos para esta tarefa

Fatores de precificação em APIs da OpenAI/Terceiros

A OpenAI e outras APIs de terceiros geralmente cobram com base em dois fatores; se você deseja fazer inferências usando as APIs delas

Custo de Entrada

Este custo depende do número de tokens (explicado acima) passados como contexto/prompt/instrução para a API.

Custo de Saída

É o custo baseado no número de tokens que a API retorna como resposta.

Para uma tarefa como a sumarização, uma vez que é necessário passar o documento ou excerto completo a ser resumido para o modelo, o número de tokens que fazem parte do prompt pode tornar-se significativo, daí o custo de entrada.

Base do custo incorrido com modelos auto-hospedados

Com modelos auto-hospedados, o usuário precisa gerenciar/provisionar a máquina necessária para executar o modelo. Embora possa incluir o custo de gerenciamento desses recursos, o preço é relativamente fácil de entender, pois se baseia apenas no custo de execução da máquina (geralmente o que é cobrado pelos provedores de nuvem, a menos que você tenha seu próprio cluster local).

Custo da Máquina

Custo de provisionamento da máquina necessária para executar/hospedar o modelo. Como a maioria desses modelos maiores é maior do que o que pode ser executado em um laptop ou em um único dispositivo local, usar um provedor de nuvem para essas máquinas é o mais comum.

Os provedores de nuvem oferecem essas instâncias, embora os usuários possam enfrentar problemas de disponibilidade de GPU, já que esses modelos exigem GPU.

Custos de instâncias AWS

Custos de instâncias Google Cloud

Custos de instâncias Microsoft Azure

Instâncias spot

Os provedores de nuvem oferecem sua capacidade ociosa por um custo que é 40-90% mais barato do que as instâncias sob demanda

Comparando o custo dos diferentes modelos

GPT 4 - 8K de comprimento de contexto

Custos Unitários

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$30 $60

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos)  X  Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $30 (/Milhão de tokens) = $180.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $180.000

Custo Total

Custo de Entrada + Custo de Saída

= $360.000

GPT 4 - 32K de comprimento de contexto

Custos Unitários

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$60 $120

Custo de Entrada (/Milhões de Tokens)Custo de Saída (/Milhões de Tokens)$60$120

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos)  X  Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhões de tokens) = $360.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $120 (/Milhões de tokens) = $360.000

Custo Total

Custo de Entrada + Custo de Saída

= $720.000

Anthropic Claude V1

Custos Unitários

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$11 $32

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos)  X  Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $11 (/Milhão de tokens) = $66.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $96.000

Custo Total

Custo de Entrada + Custo de Saída

= $162.000

InstructGPT - DaVinci

Custos Unitários

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$20 $20

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos)  X  Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $20 (/Milhão de tokens) = $120.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $20 (/Milhões de tokens) = $60.000

Custo Total

Custo de Entrada + Custo de Saída

= $180.000

Curie

Custos Unitários

INPUT COST (/MN TOKENS) OUTPUT COST (/MN TOKENS)
$2 $2

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos)  X  Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $2 (/Milhões de tokens) = $12.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhões de tokens) = $6.000

Custo Total

Custo de Entrada + Custo de Saída

= $18.000

Modelo 7B Auto-hospedado

Custos Unitários

COST OF RUNNING MACHINE (/HR FOR SPOT A100-80GB)
$10

Custo de operação da Máquina (/Hora para Spot A100-80Gb)$10

Fórmula de Custo

Custo = Nº de Tokens (Por 1000 Artigos)  X  Nº de Artigos (Em Milhares) X Custo Unitário (Por 1 Milhão de Tokens)

Custo de Entrada

1K (tokens/artigo) X 6.000K (artigos) X $30 (/Milhão de tokens) = $180.000

Custo de Saída

0,5 K (tokens/artigo) X 6.000K (artigos) X $60 (/Milhão de tokens) = $180.000

Custo Total

Custo de Entrada + Custo de Saída

= $360.000

Ajuste Fino de Modelos

A maioria dos casos de uso que as empresas têm exige que elas ajustem modelos específicos aos seus próprios dados e para tarefas particulares. Várias empresas relataram que modelos de código aberto ajustados são equivalentes ou, por vezes, até melhores do que APIs de terceiros, como a OpenAI, para a tarefa específica.

DaVinci com Ajuste Fino

Custo de Sumarização com Modelo DaVinci com Ajuste Fino

Custo Total

Custo de Entrada + Custo de Saída

= $1,260,000

Curie Otimizado

Custo de Sumarização com o Modelo Curie Otimizado

Custo Total

Custo de Entrada + Custo de Saída

= $126,000

Modelo 7B Auto-hospedado e Otimizado

Custo de Sumarização com o Modelo 7B Auto-hospedado e Otimizado

Custo Total

Custo de Entrada + Custo de Saída

= $126,000

Juntando tudo

PRETRAINED / FINE TUNED MODEL NAME PARAMS* FINE TUNING COST ($) INPUT COST ($) OUTPUT COST ($) TOTAL COST ($)
Pretrained GPT-4 32K 1 Tn + NA 360k 360k 720k
GPT-4 8K 1 Tn + NA 180k 180k 360k
DaVinci 175 Bn NA 120k 60k 180k
Claude v1 52 Bn NA 66k 96k 162k
Curie 13 Bn NA 12k 6k 18k
Self-hosted 7B 7 Bn NA 350 1750 2.1k
Fine Tuned DaVinci 175 Bn 180k 720k 360k 1.26M
Curie 13 Bn 18k 72k 36k 126k
Self-hosted 7B 7 Bn 1400 350 1750 3.5k

Pontos a observar na precificação:

  1. Os Modelos DaVinci e Curie são ~7 vezes mais caros se você os otimizar para o seu caso de uso
  2. O custo aumenta em cerca de 2 vezes com o aumento da janela de contexto
  3. O custo de usar o modelo aumenta com o aumento do número de parâmetros do modelo

Efeito da otimização no desempenho

Utilizamos o seguinte benchmark para analisar o efeito da otimização dos modelos no desempenho dos mesmos. É interessante notar que:

  1. Modelos com menos parâmetros também podem ter um desempenho melhor do que modelos maiores quando ajustados para um caso de uso específico.
  2. Uma economia de custos significativa é possível sem prejudicar muito o desempenho, se o equilíbrio certo for estabelecido entre custo e desempenho.

Tarefa TipoMelhor Modelo OOTB 6B/7B Few-shotMoveLM 7B Zero-shotGPT-3.5 Turbo Zero-shotGPT-3.5 Turbo Few-shotGPT-4 Zero-shotGPT-4 Few-shotRelevância - conjunto de dados interno0.330.930.840.840.920.95Extração - saída estruturada para consultas0.380.980.220.720.380.73Raciocínio - acionamento personalizado0.620.930.870.880.90.88Classificação - domínio da consulta do usuário0.210.790.60.730.70.76Extração - saída estruturada de tipagem de entidades0.830.870.90.890.890.89

TASK TYPE BEST 6B/7B OOTB MODEL FEW-SHOT MOVELM 7B ZERO-SHOT GPT-3.5 TURBO ZERO-SHOT GPT-3.5 TURBO FEW-SHOT GPT-4 ZERO-SHOT GPT-4 FEW-SHOT
Relevance - internal dataset 0.33 0.93 0.84 0.84 0.92 0.95
Extraction - structured output for queries 0.38 0.98 0.22 0.72 0.38 0.73
Reasoning - custom triggering 0.62 0.93 0.87 0.88 0.9 0.88
Classification - domain of user query 0.21 0.79 0.6 0.73 0.7 0.76
Extraction - structured output from entity typing 0.83 0.87 0.9 0.89 0.89 0.89

O Que Estamos Fazendo

A TrueFoundry acredita que o futuro dos LLMs é a coexistência de LLMs de código aberto e comerciais dentro da mesma aplicação!

Acreditamos em um estado de aplicações onde as tarefas mais fáceis são tratadas por LLMs de código aberto leves, enquanto as tarefas mais complexas ou aquelas que exigem capacidades distintas (por exemplo, pesquisa na web, chamadas de API, etc.), que são oferecidas apenas por LLMs comerciais de código fechado, podem ser delegadas a eles.

Se você está usando OpenAI

Ajudamos a reduzir o número de tokens enviados para as APIs da OpenAI. Decidimos trabalhar nisso porque:

  1. Percebemos que mais da metade do custo era para processar tokens de contexto / prompt.
  2. Nem todas as palavras são necessárias. LLMs são ótimos em trabalhar com frases incompletas.

Portanto, TrueFoundry está desenvolvendo uma API de compressão para economizar custos da OpenAI em cerca de 30%.

Compression in OpenAI
Compressão na OpenAI

Se você deseja usar LLMs de Código Aberto

Simplificamos a execução desses modelos em sua própria infraestrutura através de nossas seguintes ofertas:

  1. Catálogo de Modelos: De LLMs de código aberto - otimizados para inferência e ajuste fino.  
  2. APIs Plug-and-Play: Elas podem ser diretamente substituídas pelas APIs da HuggingFace e da OpenAI que você já executa em suas aplicações.
  3. Otimização de Custos: Entre nuvens em K8s, aproveitando seus créditos ou orçamento de nuvem.
LLM de Código Aberto da TrueFoundry

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: A próxima fronteira no cenário de MLOps

May 25, 2023
|
5 min read

LLMs de Código Aberto: Abrace ou Pereça

August 27, 2025
|
5 min read

Mapeando o Mercado de IA On-Prem: De Chips a Planos de Controle

September 28, 2023
|
5 min read

O que é Ajuste Fino LoRA? O Guia Definitivo

May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour