Implante o Falcon-40B na AWS: 40% Mais barato que o Sagemaker

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Neste artigo, discutimos a implementação do modelo Falcon na sua própria nuvem.
O Technology Innovation Institute em Abu Dhabi desenvolveu o Falcon, uma série inovadora de modelos de linguagem. Lançados sob a licença Apache 2.0, esses modelos representam um avanço significativo na área. Notavelmente, Falcon-40B destaca-se como um modelo verdadeiramente aberto, superando inúmeros modelos de código fechado em suas capacidades. Este desenvolvimento traz enormes oportunidades para profissionais, entusiastas e para a indústria, pois abre caminho para várias aplicações empolgantes.
Nesta publicação do blog, descreveremos LLMOps processo no SageMaker - hospedando o modelo Falcon na sua própria conta de nuvem AWS e as diferentes opções disponíveis. Além disso, planejamos lançar outra publicação de blog no futuro, focando na execução do Falcon em outras nuvens. [SEG SEGMENT 10] Também escrevemos outra publicação de blog sobre a implementação do Llama 2 na sua nuvem. Confira abaixo:
Adiante, a família Falcon possui dois modelos base:
Falcon-40B e Falcon-7B . O modelo de 40B parâmetros atualmente lidera as classificações doOpen LLM Leaderboard , enquanto o modelo de 7B é o melhor em sua categoria de peso. Discutiremos as opções para implementar o modelo Falcon 40B.O Falcon-40B requer ~90GB de memória GPU - portanto, não caberá em uma única instância A100 com 80 GB de RAM.
O tipo de instância que funcionará na AWS é g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Podemos implantar o modelo como um endpoint de API para inferência em tempo real ou carregá-lo no próprio código para casos de uso de inferência em lote.
O código para carregar o modelo e executar a tarefa de geração de texto é o seguinte:
# pip install "transformers[tokenizers]>=4.29.2,<5.0.0" # "sentencepiece==0.1.99" "accelerate>=0.19.0,<1.0.0" # "safetensors>=0.3.1,<0.4.0"
import torch
from transformers import pipeline
generator = pipeline(
"text-generation",
model="tiiuae/falcon-40b-instruct",
tokenizer="tiiuae/falcon-40b-instruct",
torch_dtype=torch.bfloat16,
device_map="balanced_low_0",
)
output = generator(
"Explique-me a diferença entre fissão e fusão nuclear.",
min_new_tokens=30,
max_new_tokens=50
)
print(output)
Código Python para carregar o Falcon40B no notebook
Implementando o Modelo como uma API
Podemos implementar o modelo como um endpoint seja no AWS Sagemaker, em um cluster EKS ou em uma máquina EC2 comum. Para implementar o modelo no Sagemaker, você pode seguir este tutorial: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Para implementar o modelo no EKS, precisaremos montar um cluster EKS, configurar um nodepool de GPU e um operador de GPU nele, e uma camada de ingresso para conseguir acessar o endpoint da API. TrueFoundry pode tornar toda essa jornada muito mais simples, transformando a implementação do modelo em um processo de um clique.

Análise de Custo
Vamos analisar o custo de executar o Falcon LLM na sua própria conta AWS. Compararemos o custo de executá-lo no Sagemaker versus TrueFoundry.
Custo do Sagemaker
Custo da instância Sagemaker (ml.g5.12xlarge) por hora (us-east-1): $7.09
Realizamos um benchmark rápido para calcular o throughput de requisições e a latência para o modelo Falcon no AWS Jumpstart. Os números exatos variarão com base nos comprimentos dos seus prompts e na concorrência das requisições, mas isso deve fornecer uma ideia aproximada:


Como podemos ver nos gráficos acima, a latência p50 é de cerca de 5,7 segundos e a p90 é de cerca de 9,4 segundos. Conseguimos obter um throughput de cerca de 6-7 requisições por segundo.
Implementar o modelo no EKS usando TrueFoundry
O TrueFoundry implementa o modelo no EKS e podemos utilizar instâncias spot e sob demanda para reduzir significativamente o custo. Vamos comparar os preços por hora sob demanda, spot e reservados de g5.12xlarge máquina na região us-east-1.
Sob Demanda: $5.672 (20% mais barato que o Sagemaker)
Spot: $2.076 (70% mais barato que o Sagemaker)
1 Ano Reservado: $3.573 (50% mais barato que o Sagemaker)
3 Anos Reservados: $2.450 (65% mais barato que o Sagemaker)
Vamos comparar a vazão e a latência do modelo implantado no EKS usando TrueFoundry.


Como podemos ver nas estatísticas acima, a latência p50 é de 5,8 segundos e a p90 é de 9,5 segundos. A vazão é de cerca de 6-7 requisições por segundo. Como vemos acima, o
Calculadora de Preços
Vamos tentar estimar o custo de hospedagem do modelo Falcon para um caso de uso real com tráfego em tempo real. Vamos considerar que estamos recebendo 100 mil requisições por dia e estamos acessando o modelo Falcon para cada requisição. Para atender a este tráfego, 1 instância de g5.2xlarge deveria ser suficiente para lidar com o tráfego, já que cada instância pode fazer 6 requisições por segundo e 100 mil requisições por dia implicam 1 requisição por segundo. No entanto, por razões de confiabilidade, quereremos executar pelo menos 2 instâncias. Vamos comparar o custo de execução das 2 instâncias:
Sagemaker: $7.1 * 2 ($ por hora) = $10000 por mês
EKS:
Usando instâncias spot: $2 * 2 ($ por hora) = $2880 por mês
Usando instâncias sob demanda: = $8000 por mês
Também podemos usar uma combinação de 1 instância spot e 1 instância sob demanda para reduzir o custo em cerca de 40% e também alcançar um alto nível de confiabilidade.
Converse conosco
se você busca maximizar os retornos dos seus projetos de LLM e capacitar sua empresa a aproveitar a IA da maneira certa, gostaríamos muito de conversar e trocar ideias.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI

















.webp)






.webp)

.webp)
.webp)





.png)



