Blank white background with no objects or features visible.

Join the Resilient Agents online hackathon hosted by TrueFoundry. Win up to $10,000 in prizes. Register Now →

Join our VAR & VAD ecosystem — deliver enterprise AI governance across LLMs, MCPs & Agents. Become a Partner →

Evaluación comparativa de los LLM populares de código abierto: Llama2, Falcon y Mistral

Por TrueFoundry

Actualizado: November 23, 2023

En este blog, mostraremos la resumen de varios LLM de código abierto que hemos comparado. Hemos comparado estos modelos desde la perspectiva de la latencia, el costo y las solicitudes por segundo. Esto le ayudará a evaluar si puede ser una buena opción en función de los requisitos empresariales. Tenga en cuenta que en este artículo no abordamos el rendimiento cualitativo; existen diferentes métodos para comparar los LLM que se pueden encontrar aquí.

Casos de uso comparados

Los casos de uso clave que hemos comparado son:

  1. 1500 fichas de entrada, 100 fichas de salida (Similar a los casos de uso de Retrieval Augmented Generation)
  2. 50 fichas de entrada, 500 fichas de salida (Casos de uso intensivo de la generación)

Configuración de evaluación comparativa

Para la evaluación comparativa, hemos utilizado Locust, una herramienta de prueba de carga de código abierto. Locust funciona creando usuarios/trabajadores para que envíen solicitudes en paralelo. Al principio de cada prueba, podemos establecer el Número de usuarios y Tasa de aparición. Aquí el Número de usuarios significan el número máximo de usuarios que pueden generarse o ejecutarse simultáneamente, mientras que el Tasa de aparición significa cuántos usuarios se generarán por segundo.

En cada prueba de evaluación comparativa para una configuración de implementación, partimos de 1 usuario y siguió aumentando la Número de usuarios gradualmente hasta que vimos un aumento constante en el RPS. Durante la prueba, también trazamos el tiempos de respuesta (en ms) y número total de solicitudes por segundo.

En cada una de las 2 configuraciones de implementación, hemos utilizado el abrazo inferencia de generación de texto servidor modelo que tiene versión=0.9.4. Los siguientes son los parámetros que se pasan al inferencia de generación de texto imagen para diferentes configuraciones de modelos:

LLMs comparados

Los 5 LLM de código abierto comparados son los siguientes:

  1. Instrucción Mistral-7B
  2. Llama 2-7B
  3. Llama 2-13B
  4. Llama 2-70B
  5. Falcon-40B-Instruct

La siguiente tabla muestra un resumen de la evaluación comparativa de los LLM:

MODEL INPUT / OUTPUT TOKENS CONCURRENT USERS / THROUGHPUT GPU TYPE AWS MACHINE TYPE (COST/HR) REGION: US-EAST-1 GCP MACHINE TYPE (COST/HR) REGION: US-EAST4 AZURE MACHINE TYPE (COST/HR) REGION: EAST US (VIRGINIA) SAGEMAKER INSTANCE TYPE (COST/HR) REGION: US-EAST-1
Mistral 7b 1500 Input, 100 Output 7 users / 2.8 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Mistral 7b 50 Input, 500 Output 40 users / 1.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b 1500 Input, 100 Output 20 users / 3.6 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b 50 Input, 500 Output 62 users / 3.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b 1500 Input, 100 Output 7 users / 1.4 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b 50 Input, 500 Output 23 users / 1.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b 1500 Input, 100 Output 15 users / 1.1 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b 50 Input, 500 Output 38 users / 0.8 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b 1500 Input, 100 Output 16 users / 2 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b 50 Input, 500 Output 75 users / 2.5 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)

Detalles de los blogs de evaluación comparativa de LLM sobre cada LLM

Para cada uno de los modelos mencionados anteriormente, consulte los blogs detallados de evaluación comparativa de LLM que se muestran a continuación:

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

July 20, 2023
|
5 minutos de lectura

LLMOps CoE: la próxima frontera en el panorama de los MLOps

April 16, 2024
|
5 minutos de lectura

Cognita: Creación de aplicaciones RAG modulares y de código abierto para la producción

May 25, 2023
|
5 minutos de lectura

LLM de código abierto: abrazar o perecer

August 27, 2025
|
5 minutos de lectura

Mapeando el mercado de la IA local: desde chips hasta aviones de control

TrueFoundry AI gateway governs production systems in enterprise AI deployments
June 5, 2026
|
5 minutos de lectura

What Is a Production System in AI? A Complete Guide for Enterprise Teams

No se ha encontrado ningún artículo.
TrueFoundry AI gateway secures enterprise AI workloads
June 5, 2026
|
5 minutos de lectura

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

No se ha encontrado ningún artículo.
llm observability platforms
June 5, 2026
|
5 minutos de lectura

Las mejores herramientas de observación de LLM

No se ha encontrado ningún artículo.
best prompt management tools
June 5, 2026
|
5 minutos de lectura

Herramientas de gestión rápida para sistemas de IA de producción

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto