Implemente Falcon-40B en AWS: un 40% más barato que Sagemaker

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
En este artículo, analizamos la implementación del modelo Falcon en su propia nube.
El Instituto de Innovación Tecnológica en Abu Dhabi ha desarrollado Falcon, una innovadora serie de modelos lingüísticos. Estos modelos, publicados bajo la licencia Apache 2.0, representan un avance significativo en este campo. En particular, Falcon-40B se destaca como un modelo verdaderamente abierto, superando en sus capacidades a numerosos modelos de código cerrado. Este desarrollo brinda enormes oportunidades para los profesionales, los entusiastas y la industria, ya que allana el camino para varias aplicaciones interesantes.
En esta entrada del blog, describiremos LLMOP proceso en SageMaker: hospedar el modelo Falcon en su propia cuenta de nube de AWS y las diferentes opciones disponibles. Además, tenemos previsto publicar otra entrada de blog en el futuro, centrada en la ejecución de Falcon en otras nubes.
También escribimos otro blog sobre la implementación de Llama 2 en tu nube. Compruebe a continuación:
Continuando, la familia Falcon tiene dos modelos básicos: Falcon-40B y Falcón-7B. El modelo de parámetros 40B actualmente encabeza las listas del Tabla de clasificación de Open LLM, mientras que el modelo 7B es el mejor de su categoría de peso. Discutiremos las opciones para implementar el modelo Falcon 40B.
El Falcon-40B requiere aproximadamente 90 GB de memoria de GPU, por lo que no cabrá en una sola instancia A100 con 80 GB de RAM. El tipo de instancia que funcionará en AWS es g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Podemos implementar el modelo como punto final de la API para la inferencia en tiempo real o cargarlo en el propio código para los casos de uso de la inferencia por lotes.
El código para cargar el modelo y ejecutar la tarea de generación de texto en él es el siguiente:
# pip install «transformers [tokenizadores] >=4.29.2, <5.0.0" # «sentencepiece==0.1.99" «accelerate>=0.19.0, <1.0.0" # «safetensors>=0.3.1, <0.4.0"
antorcha de importación
desde transformers import pipeline
generador = tubería (
«generación de texto»,
model="tiiuae/falcon-40b-instruct»,
tokenizer="tiiuae/falcon-40b-instruct»,
torch_dtype=torch.bfloat16,
device_map="balanced_low_0",
)
salida = generador (
«Explícame la diferencia entre la fisión nuclear y la fusión. «,
min_new_tokens=30,
max_new_tokens=50
)
imprimir (salida)
Código Python para cargar Falcon40B en el cuaderno
Implementación del modelo como API
Podemos implementar el modelo como punto final en un clúster de AWS Sagemaker o EKS o en una máquina EC2 simple. Para implementar el modelo en Sagemaker, puede seguir este tutorial: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Para implementar el modelo en EKS, necesitaremos abrir un clúster de EKS, configurar un grupo de nodos de GPU y un operador de GPU en él, una capa de entrada para poder llegar al punto final de la API. True Foundry puede hacer que todo este viaje sea mucho más sencillo al hacer que la implementación del modelo sea un proceso de un solo clic.

Análisis de costos
Analicemos el costo de ejecutar Falcon LLM en su propia cuenta de AWS. Compararemos el costo de ejecutarlo en Sagemaker con el de TrueFoundry.
Costo de Sagemaker
Costo de la instancia de Sagemaker (ml.g5.12xlarge) por hora (us-east-1): 7,09$
Realizamos un análisis comparativo rápido para calcular el rendimiento y la latencia de las solicitudes para el modelo Falcon en AWS Jumpstart. Los números exactos variarán según la duración de las solicitudes y la concurrencia de las solicitudes, pero esto debería dar una idea aproximada:


Como podemos ver en los gráficos anteriores, la latencia p50 es de alrededor de 5,7 segundos y la p90 es de alrededor de 9,4 segundos. Podemos obtener un rendimiento de entre 6 y 7 solicitudes por segundo.
Implemente el modelo en EKS mediante TrueFoundry
TrueFoundry implementa el modelo en EKS y podemos utilizar instancias puntuales y bajo demanda para reducir considerablemente el costo. Comparemos los precios por hora, bajo demanda, puntuales y reservados de G5.12 x grande máquina en la región us-east-1.
A pedido: 5.672$ (20%) más barato que Sagemaker)
Al contado: 2,076 dólares (70%) más barato que Sagemaker)
Reserva de 1 año: 3,573$ (50%) más barato que Sagemaker)
Reservado durante 3 años: 2,450 dólares (65%) más barato que Sagemaker)
Comparemos el rendimiento y la latencia del modelo implementado en EKS con TrueFoundry.


Como podemos ver en las estadísticas anteriores, la latencia p50 es de 5,8 segundos y la p90 es de 9,5 segundos. El rendimiento es de alrededor de 6 a 7 solicitudes por segundo. Como vemos arriba, el
Calculadora de precios
Intentemos estimar el costo de hospedar el modelo Falcon para un caso de uso real con tráfico en vivo. Supongamos que recibimos 100 000 solicitudes al día y que estamos utilizando el modelo Falcon para cada una de ellas. Para atender este tráfico, 1 instancia de g5.2xlarge debería ser suficiente para gestionar el tráfico, ya que cada instancia puede procesar 6 solicitudes por segundo y 100 000 solicitudes al día implica 1 solicitud por segundo. Sin embargo, por motivos de confiabilidad, desearemos ejecutar al menos 2 instancias. Comparemos el costo de ejecutar las 2 instancias:
Creador de sabios: 7,1$ * 2 ($ por hora) = 10000$ al mes
EKS:
Uso de instancias puntuales: $2 * 2 ($ por hora) = 2880$ al mes
Uso de instancias bajo demanda: = 8000$ al mes
También podemos usar una combinación de 1 instancia puntual y 1 instancia bajo demanda para reducir el costo en aproximadamente un 40% y también lograr un alto nivel de confiabilidad.
Chatea con nosotros
Si quieres maximizar los beneficios de tus proyectos de LLM y ayudar a tu empresa a aprovechar la IA de la manera correcta, nos encantaría charlar e intercambiar notas.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA



















.png)


.webp)




.webp)







