Ingénierie rapide : apprendre à interagir avec les LLM

Mis à jour : May 11, 2023

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

L'émergence de ChatGPT/OpenAI et d'autres grands modèles de langage (LLM) a révolutionné le monde et constitue l'une des avancées technologiques les plus importantes de la dernière décennie. Grâce à l'IA, nous pouvons désormais automatiser de nombreuses tâches quotidiennes qui étaient autrefois banales et chronophages. Cependant, pour exploiter pleinement le potentiel de cette technologie, il est essentiel de comprendre comment l'utiliser efficacement.

Avant l'émergence de l'IA, les langages de programmation étaient le seul moyen d'instruire les machines. Cependant, avec l'avènement des grands modèles linguistiques (LLM), il est désormais possible d'accomplir beaucoup de choses en utilisant un anglais simple et clair. Cet article a été compilé à partir de diverses sources alors que j'en apprenais davantage sur ce domaine passionnant. J'espère que ce blog vous aidera à réduire le temps qu'il vous faut pour comprendre ingénierie rapide.

Supposons que vous saisissiez ceci Terrain de jeu OpenAI:

Qu'est-ce que 965*590 ?

La réponse est incorrecte et un peu différente à chaque fois. Mais si vous modifiez les instructions comme suit et réglez la température sur 0, vous obtiendrez probablement la bonne réponse :

Qu'est-ce que 965*590 ? Assurez-vous que votre réponse est exactement la bonne :

Cet art qui consiste à modifier les instructions pour que l'IA fasse ce que nous voulons qu'elle fasse s'appelle Ingénierie rapide. Il est non seulement possible d'obtenir des réponses à partir d'OpenAI, mais également de l'utiliser pour exécuter des actions pour nous, ce qui ouvre la possibilité d'automatiser de nombreuses actions dans la vie réelle.

Voici quelques moyens de faire avancer les choses grâce à l'IA :

Fournissez des exemples au modèle montrant ce que vous voulez faire (invite en quelques prises de vue)

Fournissez des instructions claires au modèle avec un exemple. Selon le nombre d'exemples que vous fournissez, cela s'appelle une invite à 0 coup, une invite à un coup ou une invite à quelques coups. Plus le nombre d'exemples est élevé, meilleur sera le résultat du modèle. Vous pouvez également utiliser l'invite à quelques prises de vue pour indiquer au modèle dans quel format renvoyer la sortie.

Invitation à 0 coups
2+2 =

Invitation en une seule fois
2+2 = 4
3+3 =

incitation en quelques coups
2+3 = 5
10 et 30 = 40
3 et 1 = 4
1+11 =

Voici un exemple de la manière dont vous pouvez utiliser les instructions en quelques coups pour classer un tweet comme positif ou négatif :

Twitter est une plateforme de réseau social sur laquelle les utilisateurs peuvent publier de courts messages appelés « tweets ». Les tweets peuvent être positifs ou négatifs, et nous aimerions pouvoir les classer comme positifs ou négatifs. Voici quelques exemples de tweets positifs et négatifs. Assurez-vous de classer correctement le dernier tweet.

Q : Tweetez : « Quelle belle journée ! » Ce tweet est-il positif ou négatif ?
A : positif

Q : Tweet : « Je déteste ce cours » Ce tweet est-il positif ou négatif ?
A : négatif

Q : Tweet : « J'adore les poches sur les jeans »
UNE :

Expliquez votre raisonnement au modèle dans les exemples (Chain of Thought Prompting)

Supposons que nous fournissions l'invite suivante :

Rapide :
Quel est le moyen le plus rapide de se rendre au travail ?
Option 1 : prendre un bus de 1 000 minutes, puis un train d'une demi-heure et enfin un trajet à vélo de 10 minutes.
Option 2 : prendre un bus de 800 minutes, puis un train d'une heure et enfin un trajet à vélo de 30 minutes.

Sortie :
L'option 1 est un moyen plus rapide de se rendre au travail.

Comme vous pouvez le constater, la sortie est clairement erronée. Cependant, si nous expliquons la logique à l'IA, nous pouvons réellement lui faire répondre correctement.

Quel est le moyen le plus rapide de rentrer chez soi ?
Option 1 : Prendre un bus de 10 minutes, puis un bus de 40 minutes et enfin un train de 10 minutes.
Option 2 : Prendre un train de 90 minutes, puis un trajet à vélo de 45 minutes et enfin un bus de 10 minutes.
L'option 1 prendra 10+40+10 = 60 minutes.
L'option 2 prendra 90+45+10 = 145 minutes.
Comme l'option 1 prend 60 minutes et l'option 2 145 minutes, l'option 1 est plus rapide.

Quel est le moyen le plus rapide de se rendre au travail ?
Option 1 : prendre un bus de 1 000 minutes, puis un train d'une demi-heure et enfin un trajet à vélo de 10 minutes.
Option 2 : prendre un bus de 800 minutes, puis un train d'une heure et enfin un trajet à vélo de 30 minutes.

Sortie :
L'option 1 prendra 1000+30+10 = 1040 minutes.L'option 2 prendra 800+60+30 = 890 minutes.Puisque l'option 1 prend 1040 minutes et l'option 2 prend 890 minutes, l'option 2 est plus rapide.

Fournissez votre propre base de connaissances à ChatGPT

Vous pouvez fournir des informations sur votre propre base de connaissances à ChatGPT afin qu'il puisse répondre aux questions relatives à ces connaissances. Cela est particulièrement utile si vous envisagez de créer vos chatbots à partir de vos propres données. Vous pouvez transmettre les informations dans le contexte. Cependant, il existe une limitation selon laquelle les LLM tels que GPT-3 ont une taille d'invite maximale d'environ 4k jetons, et vous ne pouvez donc pas fournir beaucoup d'informations directement à ChatGPT dans le contexte.

Une solution peut consister à indexer d'abord les documents dans la base de connaissances.. Ensuite, en réponse à l'invite, nous récupérons d'abord les documents pertinents dans l'index, puis nous autorisons ChatGPT à répondre à la question en fonction du sous-ensemble des informations extraites de la recherche. Il s'agit essentiellement d'utiliser la recherche sémantique, puis de demander au modèle les informations pertinentes dans le contexte. De nombreuses bibliothèques peuvent l'activer pour vous, comme botte de foin et Langchain, qui sont souvent considérés parmi les meilleurs outils d'ingénierie rapides pour les flux de travail LLM basés sur la récupération.

Intégrez des outils dans les LLM pour leur faire effectuer des actions (ReAct)

Vous pouvez fournir plusieurs outils aux LLM pour effectuer des actions, puis laisser le LLM décider de la bonne façon d'interagir avec ces outils pour atteindre l'objectif souhaité.

C'est ce qu'on appelle le paradigme Reason and Act (ReACT) et il s'agit en quelque sorte d'une version plus avancée des systèmes MRKL (Modular Reasoning, Knowledge and Language, prononcé « miracle »).

Expliquons d'abord MRKL avec un exemple. Supposons que nous ayons une API pour appeler Google Calculator pour effectuer des calculs. Nous savons maintenant que Google peut répondre aux expressions mathématiquement correctes, mais pas aux requêtes en langage naturel. Donc, si l'invite est comme indiqué ci-dessous :

Combien font 20 fois 5^6 ?

Nous pouvons demander au LLM de sortir l'expression dans un format que Google Calculator peut comprendre. Dans ce cas, l'invite sera donc :

Traduisez le problème mathématique ci-dessous dans un format compréhensible par la calculatrice Google.

Que fait 20 fois 5^6

De même, nous pouvons utiliser les LLM pour convertir une action décrite en langage naturel en une expression comprise par une API existante. L'intégration d'API tierces et l'interaction avec elles depuis l'interface de discussion ont été simplifiées dans ChatGPT grâce à leur système de plugins, à propos duquel vous pouvez en savoir plus ici.

Quelques exemples d'une expérience ultime

« Commandez les ingrédients pour faire une pizza au pepperoni. » ChatGPT peut identifier automatiquement les ingrédients nécessaires et passer une commande dans une épicerie en ligne.
« Ajouter un événement à mon calendrier à 20h. » Cette invite peut être convertie en une requête CURL adressée à votre application de calendrier, puis déclenchée (via un plugin ou manuellement) pour créer un événement réel dans votre application de calendrier.
« Je dois entraîner un modèle qui fonctionne sur ce fichier CSV et affiche le prix prévu du modèle. » Cette invite peut générer automatiquement un code d'apprentissage pour un modèle de machine learning, puis il peut être exécuté pour entraîner réellement le modèle en le copiant-collant dans votre environnement de codage ou en utilisant un plugin approprié.

Déployez n'importe quel modèle de langage étendu disponible dans le commerce

Références :

https://learnprompting.org/docs (Il s'agit d'une excellente ressource au cas où vous voudriez approfondir l'ingénierie rapide). Tous les exemples de l'article ont été tirés d'ici.
https://til.simonwillison.net/llms/python-react-pattern

Discutez avec nous

si vous souhaitez maximiser les rendements de vos projets de LLM et permettre à votre entreprise de tirer le meilleur parti de l'IA, nous serions ravis de discuter et d'échanger des notes.

Passez un ☕️ avec nous

Découvrez comment TrueFoundry vous aide à déployer des LLM en 5 minutes :

‍

Deploy and Fine-tune Open Source LLMs With a Few Clicks!

TrueFoundry offers an intuitive solution for LLM deployment and fine-tuning. With our Model Catalogue, companies can self-host LLMs on Kubernetes, reducing inference costs by 10x in just one click. Discover how to deploy a Dolly-v2-3b model and fine-tune a Pythia-70m using TrueFoundry in our blog.

TrueFoundry Blog TrueFoundry

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant