Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Implemente Falcon-40B en AWS: un 40% más barato que Sagemaker

Por Abhishek Choudhary

Actualizado: June 30, 2023

Resumir con

En este artículo, analizamos la implementación del modelo Falcon en su propia nube.

El Instituto de Innovación Tecnológica en Abu Dhabi ha desarrollado Falcon, una innovadora serie de modelos lingüísticos. Estos modelos, publicados bajo la licencia Apache 2.0, representan un avance significativo en este campo. En particular, Falcon-40B se destaca como un modelo verdaderamente abierto, superando en sus capacidades a numerosos modelos de código cerrado. Este desarrollo brinda enormes oportunidades para los profesionales, los entusiastas y la industria, ya que allana el camino para varias aplicaciones interesantes.

En esta entrada del blog, describiremos LLMOP proceso en SageMaker: hospedar el modelo Falcon en su propia cuenta de nube de AWS y las diferentes opciones disponibles. Además, tenemos previsto publicar otra entrada de blog en el futuro, centrada en la ejecución de Falcon en otras nubes.

También escribimos otro blog sobre la implementación de Llama 2 en tu nube. Compruebe a continuación:

Continuando, la familia Falcon tiene dos modelos básicos: Falcon-40B y Falcón-7B. El modelo de parámetros 40B actualmente encabeza las listas del Tabla de clasificación de Open LLM, mientras que el modelo 7B es el mejor de su categoría de peso. Discutiremos las opciones para implementar el modelo Falcon 40B.

El Falcon-40B requiere aproximadamente 90 GB de memoria de GPU, por lo que no cabrá en una sola instancia A100 con 80 GB de RAM. El tipo de instancia que funcionará en AWS es g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Podemos implementar el modelo como punto final de la API para la inferencia en tiempo real o cargarlo en el propio código para los casos de uso de la inferencia por lotes.

El código para cargar el modelo y ejecutar la tarea de generación de texto en él es el siguiente:

# pip install «transformers [tokenizadores] >=4.29.2, <5.0.0" # «sentencepiece==0.1.99" «accelerate>=0.19.0, <1.0.0" # «safetensors>=0.3.1, <0.4.0"

antorcha de importación
desde transformers import pipeline

generador = tubería (
«generación de texto»,
model="tiiuae/falcon-40b-instruct»,
tokenizer="tiiuae/falcon-40b-instruct»,
torch_dtype=torch.bfloat16,
device_map="balanced_low_0",
)
salida = generador (
«Explícame la diferencia entre la fisión nuclear y la fusión. «,
min_new_tokens=30,
max_new_tokens=50
)
imprimir (salida)

Código Python para cargar Falcon40B en el cuaderno

Implementación del modelo como API

Podemos implementar el modelo como punto final en un clúster de AWS Sagemaker o EKS o en una máquina EC2 simple. Para implementar el modelo en Sagemaker, puede seguir este tutorial: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Model Catalogue - Falcon models
Catálogo de modelos compuesto por modelos Falcon

Para implementar el modelo en EKS, necesitaremos abrir un clúster de EKS, configurar un grupo de nodos de GPU y un operador de GPU en él, una capa de entrada para poder llegar al punto final de la API. True Foundry puede hacer que todo este viaje sea mucho más sencillo al hacer que la implementación del modelo sea un proceso de un solo clic.

deploying Falcon 40B
Diferentes modos de implementación del Falcon 40B

Análisis de costos

Analicemos el costo de ejecutar Falcon LLM en su propia cuenta de AWS. Compararemos el costo de ejecutarlo en Sagemaker con el de TrueFoundry.

Costo de Sagemaker

Costo de la instancia de Sagemaker (ml.g5.12xlarge) por hora (us-east-1): 7,09$

Realizamos un análisis comparativo rápido para calcular el rendimiento y la latencia de las solicitudes para el modelo Falcon en AWS Jumpstart. Los números exactos variarán según la duración de las solicitudes y la concurrencia de las solicitudes, pero esto debería dar una idea aproximada:

Como podemos ver en los gráficos anteriores, la latencia p50 es de alrededor de 5,7 segundos y la p90 es de alrededor de 9,4 segundos. Podemos obtener un rendimiento de entre 6 y 7 solicitudes por segundo.

Implemente el modelo en EKS mediante TrueFoundry

TrueFoundry implementa el modelo en EKS y podemos utilizar instancias puntuales y bajo demanda para reducir considerablemente el costo. Comparemos los precios por hora, bajo demanda, puntuales y reservados de G5.12 x grande máquina en la región us-east-1.

A pedido: 5.672$ (20%) más barato que Sagemaker)
Al contado: 2,076 dólares (70%) más barato que Sagemaker)
Reserva de 1 año: 3,573$ (50%) más barato que Sagemaker)
Reservado durante 3 años: 2,450 dólares (65%) más barato que Sagemaker)

Comparemos el rendimiento y la latencia del modelo implementado en EKS con TrueFoundry.

Estadísticas de latencia y rendimiento de solicitudes
Modelo basado en estadísticas de TrueFoundry

Como podemos ver en las estadísticas anteriores, la latencia p50 es de 5,8 segundos y la p90 es de 9,5 segundos. El rendimiento es de alrededor de 6 a 7 solicitudes por segundo. Como vemos arriba, el

Calculadora de precios

Intentemos estimar el costo de hospedar el modelo Falcon para un caso de uso real con tráfico en vivo. Supongamos que recibimos 100 000 solicitudes al día y que estamos utilizando el modelo Falcon para cada una de ellas. Para atender este tráfico, 1 instancia de g5.2xlarge debería ser suficiente para gestionar el tráfico, ya que cada instancia puede procesar 6 solicitudes por segundo y 100 000 solicitudes al día implica 1 solicitud por segundo. Sin embargo, por motivos de confiabilidad, desearemos ejecutar al menos 2 instancias. Comparemos el costo de ejecutar las 2 instancias:

Creador de sabios: 7,1$ * 2 ($ por hora) = 10000$ al mes
EKS:
Uso de instancias puntuales: $2 * 2 ($ por hora) = 2880$ al mes
Uso de instancias bajo demanda: = 8000$ al mes

También podemos usar una combinación de 1 instancia puntual y 1 instancia bajo demanda para reducir el costo en aproximadamente un 40% y también lograr un alto nivel de confiabilidad.

Chatea con nosotros

Si quieres maximizar los beneficios de tus proyectos de LLM y ayudar a tu empresa a aprovechar la IA de la manera correcta, nos encantaría charlar e intercambiar notas.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

July 20, 2023
|
5 minutos de lectura

LLMOps CoE: la próxima frontera en el panorama de los MLOps

April 16, 2024
|
5 minutos de lectura

Cognita: Creación de aplicaciones RAG modulares y de código abierto para la producción

May 25, 2023
|
5 minutos de lectura

LLM de código abierto: abrazar o perecer

August 27, 2025
|
5 minutos de lectura

Mapeando el mercado de la IA local: desde chips hasta aviones de control

April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto