Blank white background with no objects or features visible.

Join the Resilient Agents online hackathon hosted by TrueFoundry. Win up to $10,000 in prizes. Register Now →

Join our VAR & VAD ecosystem — deliver enterprise AI governance across LLMs, MCPs & Agents. Become a Partner →

Analyse comparative des LLM open source populaires : Llama2, Falçon et Mistral

Par TrueFoundry

Mis à jour : November 23, 2023

Dans ce blog, nous présenterons les résumé de différents LLM open source que nous avons évalués. Nous avons comparé ces modèles du point de vue de la latence, du coût et des demandes par seconde. Cela vous aidera à évaluer s'il peut s'agir d'un bon choix en fonction des besoins de l'entreprise. Veuillez noter que nous n'abordons pas les performances qualitatives dans cet article. Il existe différentes méthodes pour comparer les LLM, que vous pouvez trouver ici.

Cas d'utilisation comparés

Les principaux cas d'utilisation que nous avons évalués sont les suivants :

  1. 1500 jetons d'entrée, 100 jetons de sortie (Similaire aux cas d'utilisation de Retrieval Augmented Generation)
  2. 50 jetons d'entrée, 500 jetons de sortie (Cas d'utilisation de Generation Heavy)

Configuration de l'analyse comparative

Pour l'analyse comparative, nous avons utilisé Locust, un outil de test de charge open source. Locust fonctionne en créant des utilisateurs/travailleurs pour envoyer des demandes en parallèle. Au début de chaque test, nous pouvons définir Nombre d'utilisateurs et Taux d'apparition. Voici le Nombre d'utilisateurs signifie le nombre maximum d'utilisateurs pouvant être généré/exécuter simultanément, alors que Taux d'apparition indique le nombre d'utilisateurs qui seront générés par seconde.

Lors de chaque test d'analyse comparative d'une configuration de déploiement, nous sommes partis de 1 utilisateur et a continué à augmenter le Nombre d'utilisateurs progressivement jusqu'à ce que nous constations une augmentation constante du RPS. Au cours du test, nous avons également tracé temps de réponse (en ms) et nombre total de demandes par seconde.

Dans chacune des 2 configurations de déploiement, nous avons utilisé le huggingface inférence par génération de texte serveur modèle ayant version = 0.9.4. Voici les paramètres transmis au inférence par génération de texte image pour différentes configurations de modèles :

LLM référencé

Les 5 LLM open source évalués sont les suivants :

  1. Mistral-7B-Instrut
  2. Lama 2-7B
  3. LLAMA 2-13B
  4. LLAMA2-70B
  5. Falcon-40B-Instrut

Le tableau suivant présente un résumé de l'analyse comparative des LLM :

MODEL INPUT / OUTPUT TOKENS CONCURRENT USERS / THROUGHPUT GPU TYPE AWS MACHINE TYPE (COST/HR) REGION: US-EAST-1 GCP MACHINE TYPE (COST/HR) REGION: US-EAST4 AZURE MACHINE TYPE (COST/HR) REGION: EAST US (VIRGINIA) SAGEMAKER INSTANCE TYPE (COST/HR) REGION: US-EAST-1
Mistral 7b 1500 Input, 100 Output 7 users / 2.8 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Mistral 7b 50 Input, 500 Output 40 users / 1.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b 1500 Input, 100 Output 20 users / 3.6 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b 50 Input, 500 Output 62 users / 3.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b 1500 Input, 100 Output 7 users / 1.4 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b 50 Input, 500 Output 23 users / 1.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b 1500 Input, 100 Output 15 users / 1.1 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b 50 Input, 500 Output 38 users / 0.8 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b 1500 Input, 100 Output 16 users / 2 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b 50 Input, 500 Output 75 users / 2.5 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)

Détails des blogs d'analyse comparative des LLM sur chaque LLM

Pour chacun des modèles mentionnés ci-dessus, consultez les blogs d'analyse comparative LLM détaillés, comme indiqué ci-dessous :

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

July 20, 2023
|
5 min de lecture

LLMoPS CoE : la prochaine frontière dans le paysage MLOps

April 16, 2024
|
5 min de lecture

Cognita : Création d'applications RAG modulaires et open source pour la production

May 25, 2023
|
5 min de lecture

LLMs open source : Embrace or Perish

August 27, 2025
|
5 min de lecture

Cartographie du marché de l'IA sur site : des puces aux plans de contrôle

TrueFoundry AI gateway governs production systems in enterprise AI deployments
June 5, 2026
|
5 min de lecture

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Aucun article n'a été trouvé.
TrueFoundry AI gateway secures enterprise AI workloads
June 5, 2026
|
5 min de lecture

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Aucun article n'a été trouvé.
llm observability platforms
June 5, 2026
|
5 min de lecture

Meilleurs outils d'observabilité LLM

Aucun article n'a été trouvé.
best prompt management tools
June 5, 2026
|
5 min de lecture

Outils de gestion rapide pour les systèmes d'IA de production

Aucun article n'a été trouvé.
Aucun article n'a été trouvé.

Blogs récents

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit