Evaluación comparativa de los LLM populares de código abierto: Llama2, Falcon y Mistral

Actualizado: November 23, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

En este blog, mostraremos la resumen de varios LLM de código abierto que hemos comparado. Hemos comparado estos modelos desde la perspectiva de la latencia, el costo y las solicitudes por segundo. Esto le ayudará a evaluar si puede ser una buena opción en función de los requisitos empresariales. Tenga en cuenta que en este artículo no abordamos el rendimiento cualitativo; existen diferentes métodos para comparar los LLM que se pueden encontrar aquí.

Casos de uso comparados

Los casos de uso clave que hemos comparado son:

1500 fichas de entrada, 100 fichas de salida (Similar a los casos de uso de Retrieval Augmented Generation)
50 fichas de entrada, 500 fichas de salida (Casos de uso intensivo de la generación)

Configuración de evaluación comparativa

Para la evaluación comparativa, hemos utilizado Locust, una herramienta de prueba de carga de código abierto. Locust funciona creando usuarios/trabajadores para que envíen solicitudes en paralelo. Al principio de cada prueba, podemos establecer el Número de usuarios y Tasa de aparición. Aquí el Número de usuarios significan el número máximo de usuarios que pueden generarse o ejecutarse simultáneamente, mientras que el Tasa de aparición significa cuántos usuarios se generarán por segundo.

En cada prueba de evaluación comparativa para una configuración de implementación, partimos de 1 usuario y siguió aumentando la Número de usuarios gradualmente hasta que vimos un aumento constante en el RPS. Durante la prueba, también trazamos el tiempos de respuesta (en ms) y número total de solicitudes por segundo.

En cada una de las 2 configuraciones de implementación, hemos utilizado el abrazo inferencia de generación de texto servidor modelo que tiene versión=0.9.4. Los siguientes son los parámetros que se pasan al inferencia de generación de texto imagen para diferentes configuraciones de modelos:

LLMs comparados

Los 5 LLM de código abierto comparados son los siguientes:

La siguiente tabla muestra un resumen de la evaluación comparativa de los LLM:

MODEL	INPUT / OUTPUT TOKENS	CONCURRENT USERS / THROUGHPUT	GPU TYPE	AWS MACHINE TYPE (COST/HR) REGION: US-EAST-1	GCP MACHINE TYPE (COST/HR) REGION: US-EAST4	AZURE MACHINE TYPE (COST/HR) REGION: EAST US (VIRGINIA)	SAGEMAKER INSTANCE TYPE (COST/HR) REGION: US-EAST-1
Mistral 7b	1500 Input, 100 Output	7 users / 2.8	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
Mistral 7b	50 Input, 500 Output	40 users / 1.5	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b	1500 Input, 100 Output	20 users / 3.6	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b	50 Input, 500 Output	62 users / 3.5	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b	1500 Input, 100 Output	7 users / 1.4	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b	50 Input, 500 Output	23 users / 1.5	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b	1500 Input, 100 Output	15 users / 1.1	A100 40 GB (Count: 4)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr)	Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b	50 Input, 500 Output	38 users / 0.8	A100 40 GB (Count: 4)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr)	Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b	1500 Input, 100 Output	16 users / 2	A100 40 GB (Count: 4)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr)	Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b	50 Input, 500 Output	75 users / 2.5	A100 40 GB (Count: 4)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr)	Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)

Detalles de los blogs de evaluación comparativa de LLM sobre cada LLM

Para cada uno de los modelos mencionados anteriormente, consulte los blogs detallados de evaluación comparativa de LLM que se muestran a continuación:

Benchmarking Mistral-7B

This blog captures Mistral-7B benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment.

TrueFoundry Blog Truefoundry

‍

Benchmarking Llama-2-7B

This blog captures Llama 2 7B benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment. In this blog, we have benchmarked the Llama-2-7B model from NousResearch on huggingface.

TrueFoundry Blog Truefoundry

‍

Benchmarking Llama-2-13B

This blog captures Llama 2-13B benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment.

TrueFoundry Blog Truefoundry

‍

Benchmarking Llama-2-70B

This blog captures Llama-2-70B benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment.

TrueFoundry Blog Truefoundry

‍

Benchmarking Falcon-40B

This blog captures Falcon-40B-Instruct benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment.

TrueFoundry Blog Truefoundry

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora