Implante o Falcon-40B na AWS: 40% Mais barato que o Sagemaker

By Abhishek Choudhary

Published: May 21, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Neste artigo, discutimos a implementação do modelo Falcon na sua própria nuvem.

O Technology Innovation Institute em Abu Dhabi desenvolveu o Falcon, uma série inovadora de modelos de linguagem. Lançados sob a licença Apache 2.0, esses modelos representam um avanço significativo na área. Notavelmente, Falcon-40B destaca-se como um modelo verdadeiramente aberto, superando inúmeros modelos de código fechado em suas capacidades. Este desenvolvimento traz enormes oportunidades para profissionais, entusiastas e para a indústria, pois abre caminho para várias aplicações empolgantes.

Nesta publicação do blog, descreveremos LLMOps processo no SageMaker - hospedando o modelo Falcon na sua própria conta de nuvem AWS e as diferentes opções disponíveis. Além disso, planejamos lançar outra publicação de blog no futuro, focando na execução do Falcon em outras nuvens. [SEG SEGMENT 10] Também escrevemos outra publicação de blog sobre a implementação do Llama 2 na sua nuvem. Confira abaixo:

‍

Deploy & Fine Tune Meta’s Open source LLM: Llama 2 on your cloud

Meta’s Open Source LLM, Llama 2 is available to use for free for research and commercial purposes. In this blog we explain how you can finetune and deploy it on your cloud.

TrueFoundry Blog Truefoundry

Adiante, a família Falcon possui dois modelos base:

Falcon-40B e Falcon-7B . O modelo de 40B parâmetros atualmente lidera as classificações doOpen LLM Leaderboard , enquanto o modelo de 7B é o melhor em sua categoria de peso. Discutiremos as opções para implementar o modelo Falcon 40B.O Falcon-40B requer ~90GB de memória GPU - portanto, não caberá em uma única instância A100 com 80 GB de RAM.

O tipo de instância que funcionará na AWS é g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Podemos implantar o modelo como um endpoint de API para inferência em tempo real ou carregá-lo no próprio código para casos de uso de inferência em lote.

O código para carregar o modelo e executar a tarefa de geração de texto é o seguinte:

# pip install "transformers[tokenizers]>=4.29.2,<5.0.0" # "sentencepiece==0.1.99" "accelerate>=0.19.0,<1.0.0" # "safetensors>=0.3.1,<0.4.0" import torch from transformers import pipeline generator = pipeline( "text-generation", model="tiiuae/falcon-40b-instruct", tokenizer="tiiuae/falcon-40b-instruct", torch_dtype=torch.bfloat16, device_map="balanced_low_0", ) output = generator( "Explique-me a diferença entre fissão e fusão nuclear.", min_new_tokens=30, max_new_tokens=50 ) print(output)

Código Python para carregar o Falcon40B no notebook

Implementando o Modelo como uma API

Podemos implementar o modelo como um endpoint seja no AWS Sagemaker, em um cluster EKS ou em uma máquina EC2 comum. Para implementar o modelo no Sagemaker, você pode seguir este tutorial: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Model Catalogue - Falcon models — Catálogo de Modelos compreendendo modelos Falcon

Para implementar o modelo no EKS, precisaremos montar um cluster EKS, configurar um nodepool de GPU e um operador de GPU nele, e uma camada de ingresso para conseguir acessar o endpoint da API. TrueFoundry pode tornar toda essa jornada muito mais simples, transformando a implementação do modelo em um processo de um clique.

deploying Falcon 40B — Diferentes modos de implementação do Falcon 40B

Análise de Custo

Vamos analisar o custo de executar o Falcon LLM na sua própria conta AWS. Compararemos o custo de executá-lo no Sagemaker versus TrueFoundry.

Custo do Sagemaker

Custo da instância Sagemaker (ml.g5.12xlarge) por hora (us-east-1): $7.09

Realizamos um benchmark rápido para calcular o throughput de requisições e a latência para o modelo Falcon no AWS Jumpstart. Os números exatos variarão com base nos comprimentos dos seus prompts e na concorrência das requisições, mas isso deve fornecer uma ideia aproximada:

Como podemos ver nos gráficos acima, a latência p50 é de cerca de 5,7 segundos e a p90 é de cerca de 9,4 segundos. Conseguimos obter um throughput de cerca de 6-7 requisições por segundo.

Implementar o modelo no EKS usando TrueFoundry

O TrueFoundry implementa o modelo no EKS e podemos utilizar instâncias spot e sob demanda para reduzir significativamente o custo. Vamos comparar os preços por hora sob demanda, spot e reservados de g5.12xlarge máquina na região us-east-1.

Sob Demanda: $5.672 (20% mais barato que o Sagemaker)

Spot: $2.076 (70% mais barato que o Sagemaker)

1 Ano Reservado: $3.573 (50% mais barato que o Sagemaker)

3 Anos Reservados: $2.450 (65% mais barato que o Sagemaker)

Vamos comparar a vazão e a latência do modelo implantado no EKS usando TrueFoundry.

Estatísticas de Latência de Requisição e Vazão

Como podemos ver nas estatísticas acima, a latência p50 é de 5,8 segundos e a p90 é de 9,5 segundos. A vazão é de cerca de 6-7 requisições por segundo. Como vemos acima, o

Calculadora de Preços

Vamos tentar estimar o custo de hospedagem do modelo Falcon para um caso de uso real com tráfego em tempo real. Vamos considerar que estamos recebendo 100 mil requisições por dia e estamos acessando o modelo Falcon para cada requisição. Para atender a este tráfego, 1 instância de g5.2xlarge deveria ser suficiente para lidar com o tráfego, já que cada instância pode fazer 6 requisições por segundo e 100 mil requisições por dia implicam 1 requisição por segundo. No entanto, por razões de confiabilidade, quereremos executar pelo menos 2 instâncias. Vamos comparar o custo de execução das 2 instâncias:

Sagemaker: $7.1 * 2 ($ por hora) = $10000 por mês

EKS:
Usando instâncias spot: $2 * 2 ($ por hora) = $2880 por mês
Usando instâncias sob demanda: = $8000 por mês

Também podemos usar uma combinação de 1 instância spot e 1 instância sob demanda para reduzir o custo em cerca de 40% e também alcançar um alto nível de confiabilidade.

Converse conosco

se você busca maximizar os retornos dos seus projetos de LLM e capacitar sua empresa a aproveitar a IA da maneira certa, gostaríamos muito de conversar e trocar ideias.

Take TrueFoundry for a Spin

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now