Analyse comparative des LLM open source populaires : Llama2, Falçon et Mistral

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Dans ce blog, nous présenterons les résumé de différents LLM open source que nous avons évalués. Nous avons comparé ces modèles du point de vue de la latence, du coût et des demandes par seconde. Cela vous aidera à évaluer s'il peut s'agir d'un bon choix en fonction des besoins de l'entreprise. Veuillez noter que nous n'abordons pas les performances qualitatives dans cet article. Il existe différentes méthodes pour comparer les LLM, que vous pouvez trouver ici.
Cas d'utilisation comparés
Les principaux cas d'utilisation que nous avons évalués sont les suivants :
- 1500 jetons d'entrée, 100 jetons de sortie (Similaire aux cas d'utilisation de Retrieval Augmented Generation)
- 50 jetons d'entrée, 500 jetons de sortie (Cas d'utilisation de Generation Heavy)
Configuration de l'analyse comparative
Pour l'analyse comparative, nous avons utilisé Locust, un outil de test de charge open source. Locust fonctionne en créant des utilisateurs/travailleurs pour envoyer des demandes en parallèle. Au début de chaque test, nous pouvons définir Nombre d'utilisateurs et Taux d'apparition. Voici le Nombre d'utilisateurs signifie le nombre maximum d'utilisateurs pouvant être généré/exécuter simultanément, alors que Taux d'apparition indique le nombre d'utilisateurs qui seront générés par seconde.
Lors de chaque test d'analyse comparative d'une configuration de déploiement, nous sommes partis de 1 utilisateur et a continué à augmenter le Nombre d'utilisateurs progressivement jusqu'à ce que nous constations une augmentation constante du RPS. Au cours du test, nous avons également tracé temps de réponse (en ms) et nombre total de demandes par seconde.
Dans chacune des 2 configurations de déploiement, nous avons utilisé le huggingface inférence par génération de texte serveur modèle ayant version = 0.9.4. Voici les paramètres transmis au inférence par génération de texte image pour différentes configurations de modèles :
LLM référencé
Les 5 LLM open source évalués sont les suivants :
Le tableau suivant présente un résumé de l'analyse comparative des LLM :
Détails des blogs d'analyse comparative des LLM sur chaque LLM
Pour chacun des modèles mentionnés ci-dessus, consultez les blogs d'analyse comparative LLM détaillés, comme indiqué ci-dessous :
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA















.webp)



.png)


.webp)




.webp)







