Llama 2 LLM : déployez et optimisez sur votre cloud

Mis à jour : July 20, 2023

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Le moment ChatGPT du monde open source est arrivé. Meta a publié son dernier ensemble de modèles de langage open source volumineux, intitulé Lama 2 - une collection de modèles de texte génératifs pré-entraînés et affinés dont l'échelle varie de 7 à 70 milliards de paramètres.

Faits amusants et mnémotechniques à propos de Llama 2

Llama 2 est formé sur des données en ligne accessibles au public avec environ Jetons 2T. C'est plus de 300 fois la totalité de Wikipédia en anglais.
Llama 2 a été entraîné sur 1 million d'annotations humaines. Comparez-le à 15 000 ensembles de données étiquetés pour Dolly par Databricks.
Le temps nécessaire pour entraîner les variantes 7B, 13B et 70B est estimé à 184 000, 368 000 et 1,7 million d'heures de processeur graphique avec un processeur A100-80 Go. Il est intéressant de noter que cela se rapproche d'environ 1 000 semaines de GPU pour 1 milliard de paramètres. Donc 70 semaines d'entraînement si vous utilisiez 1000 GPU en parallèle pour le modèle 70B.
Le coût du GPU uniquement pour entraîner ces modèles serait d'environ 800 000 dollars, 1,5 million de dollars et 8 millions de dollars respectivement. Un total de 10 millions de dollars de GPU pour la dernière édition ! :)
Les données préalables à la formation sont statiques et à jour jusqu'en septembre 2022, mais elles ont été affinées avec les dernières données jusqu'en juillet 2023.
La fenêtre de contexte est de 4k pour les 3 variantes 7B, 10B et 70B.

Pourquoi devrais-tu t'en soucier ?

Eh bien, pour commencer, il est disponible gratuitement à des fins de recherche et commerciales. C'est le premier modèle du genre avec une qualité telle que ChatGPT, soutenu par une grande technologie, et disponible pour être déployé et peaufiné dès aujourd'hui. (À moins que vous n'ayez > 700 millions d'utilisateurs actifs par mois au cours du mois civil précédent, auquel cas vous devrez vous procurer une licence auprès de Meta pour l'utiliser !)
Les versions affinées, appelées Llama-2-Chat, sont optimisées pour les cas d'utilisation des dialogues. Les modèles Llama-2-Chat surpassent les modèles de chat open source sur la plupart des benchmarks et se situent au même niveau que certains modèles à code source fermé populaires tels que ChatGPT et PalM dans les évaluations humaines en termes d'utilité et de sécurité.
Pour tous ceux qui attendaient des approbations légales et de conformité pour utiliser des services commerciaux à code source fermé tels qu'OpenAI, et qui ont été déçus par la qualité de réponse des générations précédentes de LLM Open Source, vous avez la réponse. Plus important encore, cela renforce la façon dont les LLM Open Source sont là pour rester et continueront de s'améliorer.

Critères de qualité de Llama 2

Llama 2 affiche des performances remarquables sur différents benchmarks LLM. Voici une comparaison entre les modèles Llama et ChatGPT :

Appel-2-70B-Chat-HF le modèle approche voire dépasse les performances de GPT-3.5, le modèle ChatGPT original, sur de multiples benchmarks. Vous pouvez trouver plus de détails ici. Détails sur les ensembles de données et les tâches dans la section annexe.

Coût d'utilisation de Llama 2 sur un exemple de tâche

Beaucoup de ceux qui ont mis en production des applications basées sur l'IA ouverte s'inquiètent des coûts et de la durabilité avec laquelle ils peuvent développer ces applications. Nous avons comparé ce qu'il faut pour faire fonctionner un LLama 2 et comment cela se compare à certains modèles Open AI.

Exemple de tâche : supposons que nous voulions prendre la Wikipédia en anglais (6 millions d'articles, 1000 jetons chacun) et la résumer à la moitié de sa taille à l'aide de LLM. Les calculs détaillés peuvent être trouvés dans ce bloguer. Voici quelques indications intéressantes sur le coût de cette tâche avec différents modèles ici-

Le faire avec GPT-4 coûterait environ 360 000$.
La même tâche avec la variante GPT-3 Davinci (175B paramètres) coûterait environ 180 000$ et si vous utilisiez une variante affinée de Davinci, ce serait > 1 million de dollars.
Au lieu de cela, si vous utilisiez le modèle Curie (~ 7 B paramètres), le coût serait de 18 000$ et le coût ajusté serait d'environ 125 000$.
Comparez-le avec le modèle de taille équivalente Llama 2 (variante 7B). Cela coûterait environ 2 000 dollars et la version affinée coûterait environ 3 000 dollars. Cela représente une différence de coût d'environ 9 fois et 40 fois plus entre des modèles comparables entre les versions pré-entraînées et affinées, respectivement.

Déploiement du modèle LLAMA-2-13B-Chat

Le modèle peut être utilisé via Microsoft Azure, AWS et Visage étreignant. Vous pouvez également déployer des modèles Llama-2 via True Foundry avec un minimum d'étapes.

Vous devez avoir accès aux modèles Llama-2 sur Huggingface pour les déployer sur TrueFoundry. Trouvez plus d'informations ici. Catalogue de modèles TrueFoundry est mis à jour avec les meilleurs et les derniers LLM open source. Avec le catalogue de modèles, tout est préconfiguré pour le déploiement des modèles et vous pouvez les déployer sur votre propre infrastructure cloud en un seul clic. Les modèles Llama-2 seront bientôt disponibles dans le catalogue de modèles pour un déploiement en un clic. En attendant, les utilisateurs de TrueFoundry peuvent toujours déployer des modèles Llama-2 comme décrit ci-dessous.

Sur la page des déploiements, cliquez sur Nouveau déploiement et choisissez Service.

2. Nous pouvons utiliser la bibliothèque d'interface de génération de texte de Huggingface pour déployer ce modèle. Choisissez de déployer l'image d'inférence de génération de texte (ghcr.io/huggingface/génération de texte - inférence : 0.9) et remplacez la commande par la commande pour lancer le modèle requis (lanceur de génération de texte --model-id Meta-Llama/Llama-2-13b-Chat-HF) :

3. Définissons maintenant le point final du modèle. Le modèle sera servi au port 80, alors exposons que :

4. Étant donné que les modèles Llama-2 ne sont disponibles que via des comptes approuvés, nous devons définir la clé API Huggingface en tant que variable d'environnement. La clé doit être HUGGING_FACE_HUB_TOKEN.

Notez que dans l'image, nous utilisons indirectement la clé API Huggingface en créant un secret sur TrueFoundry. Vous pouvez également coller la valeur directement, mais nous ne le recommandons pas.

5. Enfin, nous devons allouer les ressources comme l'exige ce modèle. J'ai choisi de déployer la version du modèle 13b-chat sur un nœud avec un A100 de 40 Go. Vous pouvez configurer d'autres valeurs comme suit :

6. Cliquez Soumettre et votre modèle sera déployé et disponible sur le terminal que vous avez défini.

Faire des inférences à l'aide du modèle déployé

Vous pouvez appeler le générer point de terminaison pour obtenir des inférences à l'aide du modèle que nous venons de déployer. Il existe également une bibliothèque Python génération de texte que vous pouvez utiliser avec votre code Python pour utiliser le modèle déployé.

À l'aide d'une requête HTTP :

À l'aide du client Python :

Vous pouvez trouver plus d'informations sur les clients ici.

Terrain de jeu TrueFoundry LLM

Le TrueFoundry LLM Playground peut être utilisé pour demander et comparer le modèle que vous avez déployé sur TrueFoundry et d'autres modèles tels que ChatGPT. Une fois le modèle Llama-2 déployé, nous pouvons également le tester via le TrueFoundry LLM Playground :

TrueFoundry's LLM Playground — Le terrain de jeu LLM de TrueFoundry

Discutez avec nous

Nous sommes encore en train d'en apprendre davantage sur ce sujet, comme tout le monde. Si vous essayez d'utiliser de grands modèles linguistiques dans votre organisation, nous serions ravis de discuter et d'échanger des notes.

Passez un ☕️ avec nous
‍
Annexe : Détails sur les tâches et les indicateurs

MMLU représente Compréhension multilingue d'une langue à tâches multiples. Il s'agit d'un point de référence qui mesure les performances des modèles linguistiques sur diverses tâches, notamment la réponse à des questions, l'inférence en langage naturel et la synthèse. L'intuition qui sous-tend le MMLU est que les modèles linguistiques devraient être capables de comprendre et de traiter les informations de différentes manières, et qu'ils devraient être capables de le faire dans plusieurs langues.

Questions-réponses QA est un ensemble de questions et réponses sur des sujets factuels. Il est utilisé pour mesurer la capacité des modèles linguistiques à répondre à des questions qui nécessitent des connaissances factuelles. L'intuition qui sous-tend TriviaQA est que les modèles linguistiques devraient être capables d'accéder à des informations provenant de sources externes, telles que Wikipedia, et de les traiter afin de répondre à des questions factuelles.

Questions naturelles est un ensemble de questions posées par des humains sur des informations du monde réel. Il est utilisé pour mesurer la capacité des modèles linguistiques à comprendre et à répondre à des questions en langage naturel. L'intuition qui sous-tend Natural Questions est que les modèles linguistiques devraient être capables de comprendre les nuances du langage humain et de générer des réponses pertinentes et informatives.

GSM 8 K est un ensemble de données de 8 000 questions générées à partir de requêtes de recherche Google. Il est utilisé pour mesurer la capacité des modèles linguistiques à comprendre et à répondre à des questions similaires à celles que les utilisateurs se posent dans la recherche Google. L'intuition qui sous-tend GSM8k est que les modèles linguistiques devraient être capables de comprendre l'intention des requêtes humaines et de générer des réponses pertinentes et informatives.

HumanEval est une référence qui mesure les performances des modèles linguistiques sur une variété de tâches en demandant à des humains d'évaluer les résultats des modèles. L'intuition qui sous-tend HumanEval est que l'évaluation humaine est un élément nécessaire de l'évaluation des performances des modèles linguistiques, car elle peut aider à identifier les domaines dans lesquels les modèles rencontrent encore des difficultés.

Un Eval est une référence qui mesure la capacité des modèles de langage à effectuer des tâches généralement associées à l'intelligence artificielle générale. L'intuition qui sous-tend AgiEval est que les modèles linguistiques devraient être capables de comprendre et de raisonner sur le monde d'une manière similaire à celle des humains.

BoolQ est un ensemble de questions auxquelles la réponse nécessite une logique booléenne. Il est utilisé pour mesurer la capacité des modèles linguistiques à comprendre et à raisonner à l'aide d'énoncés logiques. L'intuition qui sous-tend BoolQ est que les modèles de langage devraient être capables de comprendre le sens des énoncés logiques et de générer des réponses cohérentes avec ces énoncés.

Hellas Swag est un ensemble de questions rédigées dans un style « swag », un type de langage informel souvent utilisé sur les réseaux sociaux. Il est utilisé pour mesurer la capacité des modèles linguistiques à comprendre et à générer le langage naturel dans une variété de styles. L'intuition qui sous-tend HellaSwag est que les modèles linguistiques doivent être capables de comprendre et de générer un langage naturel adapté au contexte dans lequel il est utilisé.

QA à livre ouvert est un ensemble de questions auxquelles il est possible de répondre en consultant un vaste corpus de textes. Il est utilisé pour mesurer la capacité des modèles linguistiques à accéder à des informations provenant de sources externes et à les traiter. L'intuition qui sous-tend OpenBookQA est que les modèles linguistiques devraient être capables d'accéder à des informations provenant de diverses sources et de les traiter afin de répondre aux questions.

QuAC est un ensemble de questions posées sur les conversations. Il est utilisé pour mesurer la capacité des modèles linguistiques à comprendre et à suivre le contexte d'une conversation. L'intuition qui sous-tend QuAC est que les modèles linguistiques devraient être capables de comprendre le contexte d'une conversation et de générer des réponses pertinentes pour la conversation.

Winogrande est un ensemble de questions auxquelles les modèles linguistiques ont du mal à répondre. Il est utilisé pour mesurer la capacité des modèles linguistiques à comprendre et à répondre à des questions complexes. L'intuition qui sous-tend Winogrande est que les modèles linguistiques devraient être capables de comprendre et de répondre à des questions complexes qui nécessitent une compréhension approfondie du monde.

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant