Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

Implante o Falcon-40B na AWS: 40% Mais barato que o Sagemaker

By Abhishek Choudhary

Updated: June 30, 2023

Neste artigo, discutimos a implementação do modelo Falcon na sua própria nuvem.

O Technology Innovation Institute em Abu Dhabi desenvolveu o Falcon, uma série inovadora de modelos de linguagem. Lançados sob a licença Apache 2.0, esses modelos representam um avanço significativo na área. Notavelmente, Falcon-40B destaca-se como um modelo verdadeiramente aberto, superando inúmeros modelos de código fechado em suas capacidades. Este desenvolvimento traz enormes oportunidades para profissionais, entusiastas e para a indústria, pois abre caminho para várias aplicações empolgantes.

Nesta publicação do blog, descreveremos LLMOps processo no SageMaker - hospedando o modelo Falcon na sua própria conta de nuvem AWS e as diferentes opções disponíveis. Além disso, planejamos lançar outra publicação de blog no futuro, focando na execução do Falcon em outras nuvens. [SEG SEGMENT 10] Também escrevemos outra publicação de blog sobre a implementação do Llama 2 na sua nuvem. Confira abaixo:

Adiante, a família Falcon possui dois modelos base:

Falcon-40B e Falcon-7B  . O modelo de 40B parâmetros atualmente lidera as classificações doOpen LLM Leaderboard , enquanto o modelo de 7B é o melhor em sua categoria de peso. Discutiremos as opções para implementar o modelo Falcon 40B.O Falcon-40B requer ~90GB de memória GPU - portanto, não caberá em uma única instância A100 com 80 GB de RAM.

O tipo de instância que funcionará na AWS é g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Podemos implantar o modelo como um endpoint de API para inferência em tempo real ou carregá-lo no próprio código para casos de uso de inferência em lote.  

O código para carregar o modelo e executar a tarefa de geração de texto é o seguinte:

# pip install "transformers[tokenizers]>=4.29.2,<5.0.0" # "sentencepiece==0.1.99" "accelerate>=0.19.0,<1.0.0" # "safetensors>=0.3.1,<0.4.0"

import torch
from transformers import pipeline

generator = pipeline(
   "text-generation",
   model="tiiuae/falcon-40b-instruct",
   tokenizer="tiiuae/falcon-40b-instruct",
   torch_dtype=torch.bfloat16,
   device_map="balanced_low_0",
)
output = generator(
   "Explique-me a diferença entre fissão e fusão nuclear.",
   min_new_tokens=30,
   max_new_tokens=50
)
print(output)

Código Python para carregar o Falcon40B no notebook

Implementando o Modelo como uma API

Podemos implementar o modelo como um endpoint seja no AWS Sagemaker, em um cluster EKS ou em uma máquina EC2 comum. Para implementar o modelo no Sagemaker, você pode seguir este tutorial: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Model Catalogue - Falcon models
Catálogo de Modelos compreendendo modelos Falcon

Para implementar o modelo no EKS, precisaremos montar um cluster EKS, configurar um nodepool de GPU e um operador de GPU nele, e uma camada de ingresso para conseguir acessar o endpoint da API. TrueFoundry pode tornar toda essa jornada muito mais simples, transformando a implementação do modelo em um processo de um clique.

deploying Falcon 40B
Diferentes modos de implementação do Falcon 40B

Análise de Custo

Vamos analisar o custo de executar o Falcon LLM na sua própria conta AWS. Compararemos o custo de executá-lo no Sagemaker versus TrueFoundry.

Custo do Sagemaker

Custo da instância Sagemaker (ml.g5.12xlarge) por hora (us-east-1): $7.09

Realizamos um benchmark rápido para calcular o throughput de requisições e a latência para o modelo Falcon no AWS Jumpstart. Os números exatos variarão com base nos comprimentos dos seus prompts e na concorrência das requisições, mas isso deve fornecer uma ideia aproximada:

Como podemos ver nos gráficos acima, a latência p50 é de cerca de 5,7 segundos e a p90 é de cerca de 9,4 segundos. Conseguimos obter um throughput de cerca de 6-7 requisições por segundo.

Implementar o modelo no EKS usando TrueFoundry

O TrueFoundry implementa o modelo no EKS e podemos utilizar instâncias spot e sob demanda para reduzir significativamente o custo. Vamos comparar os preços por hora sob demanda, spot e reservados de g5.12xlarge máquina na região us-east-1.

Sob Demanda: $5.672 (20% mais barato que o Sagemaker)
Spot: $2.076 (70% mais barato que o Sagemaker)
1 Ano Reservado: $3.573 (50% mais barato que o Sagemaker)
3 Anos Reservados: $2.450 (65% mais barato que o Sagemaker)

Vamos comparar a vazão e a latência do modelo implantado no EKS usando TrueFoundry.

Estatísticas de Latência de Requisição e Vazão
Estatísticas do modelo no TrueFoundry

Como podemos ver nas estatísticas acima, a latência p50 é de 5,8 segundos e a p90 é de 9,5 segundos. A vazão é de cerca de 6-7 requisições por segundo. Como vemos acima, o

Calculadora de Preços

Vamos tentar estimar o custo de hospedagem do modelo Falcon para um caso de uso real com tráfego em tempo real. Vamos considerar que estamos recebendo 100 mil requisições por dia e estamos acessando o modelo Falcon para cada requisição. Para atender a este tráfego, 1 instância de g5.2xlarge deveria ser suficiente para lidar com o tráfego, já que cada instância pode fazer 6 requisições por segundo e 100 mil requisições por dia implicam 1 requisição por segundo. No entanto, por razões de confiabilidade, quereremos executar pelo menos 2 instâncias. Vamos comparar o custo de execução das 2 instâncias:

Sagemaker: $7.1 * 2 ($ por hora) = $10000 por mês
EKS:
Usando instâncias spot: $2 * 2 ($ por hora) = $2880 por mês
Usando instâncias sob demanda: = $8000 por mês

Também podemos usar uma combinação de 1 instância spot e 1 instância sob demanda para reduzir o custo em cerca de 40% e também alcançar um alto nível de confiabilidade.

Converse conosco

se você busca maximizar os retornos dos seus projetos de LLM e capacitar sua empresa a aproveitar a IA da maneira certa, gostaríamos muito de conversar e trocar ideias.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: A próxima fronteira no cenário de MLOps

May 25, 2023
|
5 min read

LLMs de Código Aberto: Abrace ou Pereça

August 27, 2025
|
5 min read

Mapeando o Mercado de IA On-Prem: De Chips a Planos de Controle

September 28, 2023
|
5 min read

O que é Ajuste Fino LoRA? O Guia Definitivo

May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour