Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Evaluación comparativa de Llama-2-70B

Por TrueFoundry

Actualizado: October 6, 20235

Resumir con

En este artículo comparamos el rendimiento de la Llama2-70b desde la perspectiva de la latencia, el costo y las solicitudes por segundo. Esto nos ayudará a evaluar si puede ser una buena opción en función de los requisitos empresariales. Tenga en cuenta que en este artículo no abordamos el rendimiento cualitativo; existen diferentes métodos para comparar los LLM que se pueden encontrar aquí.

Modelo: Llama2-70B

En este blog, hemos comparado los Llama-2-70B modelo de Nous Research. Se trata de una versión preentrenada de Llama-2 con 70 mil millones de parámetros.

Meta desarrolló y lanzó públicamente la familia Llama 2 de modelos lingüísticos grandes (LLM), una colección de modelos de texto generativo previamente entrenados y ajustados que varían en escala de 7 mil millones a 70 mil millones de parámetros.

Métricas para comparar

  1. Solicitudes por segundo. (RPS): Solicitudes por segundo que gestiona el modelo. Con un RPS más alto, la latencia suele aumentar.
  2. Latencia: ¿Cuánto tiempo se tarda en completar una solicitud de inferencia?
  3. Economía: ¿Cuáles son los costos asociados con la implementación de un LLM?

Casos de uso y modos de implementación comparados

Los factores clave que hemos analizado son los siguientes:

Tipo de GPU:

  1. 4 x A100 de 40 GB GPU

Longitud del mensaje:

  1. 1500 fichas de entrada, 100 fichas de salida (Similar a los casos de uso de Retrieval Augmented Generation)
  2. 50 fichas de entrada, 500 fichas de salida (Casos de uso intensivo de la generación)

Configuración de evaluación comparativa

Para la evaluación comparativa, hemos utilizado Locust, una herramienta de prueba de carga de código abierto. Locust funciona creando usuarios/trabajadores para que envíen solicitudes en paralelo. Al principio de cada prueba, podemos establecer el Número de usuarios y Tasa de aparición. Aquí el Número de usuarios significan el número máximo de usuarios que pueden generarse o ejecutarse simultáneamente, mientras que el Tasa de aparición significa cuántos usuarios se generarán por segundo.

En cada prueba de evaluación comparativa para una configuración de implementación, partimos de 1 usuario y siguió aumentando la Número de usuarios gradualmente hasta que vimos un aumento constante en el RPS. Durante la prueba, también trazamos el tiempos de respuesta (en ms) y número total de solicitudes por segundo.

En cada una de las 2 configuraciones de implementación, hemos utilizado el abrazo inferencia de generación de texto servidor modelo que tiene versión=0.9.4. Los siguientes son los parámetros que se pasan al inferencia de generación de texto imagen para diferentes configuraciones de modelos:

PARAMETERS LLAMA-2-70B ON A100
Max Batch Prefill Tokens 14000

Resumen de los resultados de la evaluación comparativa

Latencia, RPS y costo

Calculamos la mejor latencia en función del envío de una sola solicitud a la vez. Para aumentar el rendimiento, enviamos las solicitudes de forma paralela al LLM. El rendimiento máximo se da cuando el modelo puede procesar las solicitudes de entrada sin un deterioro significativo de la latencia.

Resultados comparativos para LLAMA-2 70B

Tokens por segundo

Los LLM procesan los tokens de entrada y la generación de manera diferente; por lo tanto, hemos calculado la velocidad de procesamiento de los tokens de entrada y los tokens de salida de manera diferente.

Resultados detallados

4 x GPU A100 de 40 GB (1500 entradas + 100 tokens de salida)

Podemos observar en los gráficos anteriores que Mejor tiempo de respuesta (con 1 usuario) es 7.4 segundos. Podemos aumentar la cantidad de usuarios para atraer más tráfico al modelo; podemos ver que el rendimiento aumenta hasta 1.1 RPS sin una caída significativa de la latencia. Más allá 1.1 RPS, la latencia aumenta drásticamente, lo que significa que las solicitudes están en cola.

4 x GPU A100 de 40 GB (50 entradas y 500 tokens de salida)

Podemos observar en los gráficos anteriores que Mejor tiempo de respuesta (con 1 usuario) es 33 segundos. Podemos aumentar la cantidad de usuarios para atraer más tráfico al modelo; podemos ver que el rendimiento aumenta hasta 0,8 RPS sin una caída significativa de la latencia. Más allá 0,8 RPS, la latencia aumenta drásticamente, lo que significa que las solicitudes están en cola.

Con suerte, esto le será útil para decidir si Llama2-70b se adapta a su caso de uso y a los costos en los que puede incurrir al hospedar Llama2-70b.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

July 20, 2023
|
5 minutos de lectura

LLMOps CoE: la próxima frontera en el panorama de los MLOps

April 16, 2024
|
5 minutos de lectura

Cognita: Creación de aplicaciones RAG modulares y de código abierto para la producción

May 25, 2023
|
5 minutos de lectura

LLM de código abierto: abrazar o perecer

August 27, 2025
|
5 minutos de lectura

Mapeando el mercado de la IA local: desde chips hasta aviones de control

April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Comprensión de los puntos de referencia del modelo LLAMA 2 para la evaluación del desempeño

LLMS y GenAI
April 22, 2026
|
5 minutos de lectura

Evaluación comparativa de Llama-2-13B

LLMS y GenAI
April 22, 2026
|
5 minutos de lectura

Evaluación comparativa del Falcon-40B

LLMS y GenAI
April 22, 2026
|
5 minutos de lectura

Evaluación comparativa de Mistral-7B

LLMS y GenAI
April 22, 2026
|
5 minutos de lectura

Llama 2 LLM: despliegue y ajuste en su nube

Ingeniería y producto
LLMS y GenAI

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto