Ingeniería rápida: aprender a interactuar con los LLM

Actualizado: May 11, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

La aparición de ChatGPT/OpenAI y otros grandes modelos lingüísticos (LLM) ha revolucionado el mundo y es uno de los avances tecnológicos más importantes de la última década. Con la ayuda de la inteligencia artificial, ahora podemos automatizar numerosas tareas cotidianas que antes eran mundanas y consumían mucho tiempo. Sin embargo, para aprovechar al máximo el potencial de esta tecnología, es fundamental saber cómo utilizarla de forma eficaz.

Antes de la aparición de la IA, los lenguajes de programación eran el único medio de instruir a las máquinas. Sin embargo, con la llegada de los grandes modelos lingüísticos (LLM), ahora es posible lograr mucho con un inglés sencillo y sencillo. Este artículo fue compilado a partir de varias fuentes a medida que iba aprendiendo más sobre este apasionante campo. Espero que este blog ayude a acortar la cantidad de tiempo que le lleva comprender ingeniería rápida.

Supongamos que escribes esto Área de juegos OpenAI:

¿Qué es 965*590?

La respuesta es incorrecta y un poco diferente cada vez. Pero si modificas las instrucciones de la siguiente manera y ajustas la temperatura a 0, es probable que obtengas la respuesta correcta:

¿Qué es 965*590? Asegúrese de que su respuesta sea exactamente correcta:

Este arte de poder modificar las indicaciones para que la IA haga lo que queremos que haga se llama Ingeniería rápida. No solo es posible obtener respuestas de OpenAI, sino también utilizarla para ejecutar acciones por nosotros, lo que abre la posibilidad de automatizar muchas acciones en la vida real.

Estas son algunas maneras de hacer que la IA haga las cosas:

Proporcione ejemplos al modelo que muestren lo que quiere hacer (indicaciones de unos pocos disparos)

Proporcione instrucciones claras al modelo con un ejemplo. Según la cantidad de ejemplos que proporciones, se denomina indicación de 0 disparos, de 1 disparo o de varios disparos. Cuanto mayor sea el número de ejemplos, mejor será el resultado del modelo. Además, puede utilizar unas cuantas indicaciones para decirle al modelo en qué formato debe devolver el resultado.

Indicación de 0 disparos
2+2=

Indicación de 1 disparo
2+2=4
3+3=

incitación de unos pocos tiros
2+3=5
10+30 = 40
3+1=4
1+11 =

Este es un ejemplo de cómo puedes usar unas pocas indicaciones para clasificar un tuit como positivo o negativo:

Twitter es una plataforma de redes sociales donde los usuarios pueden publicar mensajes cortos llamados «tweets». Los tuits pueden ser positivos o negativos, y nos gustaría poder clasificarlos como positivos o negativos. Estos son algunos ejemplos de tuits positivos y negativos. Asegúrate de clasificar correctamente el último tuit.

P: Tuitea: «¡Qué hermoso día!» ¿Este tuit es positivo o negativo?
A: positivo

P: Tweet: «Odio esta clase» ¿Este tuit es positivo o negativo?
A: negativo

P: Tuitea: «Me encantan los bolsillos en los jeans»
A:

Explica tu razonamiento sobre el modelo en los ejemplos (Chain of Thought Prompting)

Supongamos que proporcionamos el siguiente mensaje:

Rápido:
¿Cuál es la forma más rápida de ir a trabajar?
Opción 1: tomar un autobús de 1000 minutos, luego un tren de media hora y, finalmente, un paseo en bicicleta de 10 minutos.
Opción 2: Toma un autobús de 800 minutos, luego un tren de una hora y, finalmente, un paseo en bicicleta de 30 minutos.

Salida:
La opción 1 es una forma más rápida de ir a trabajar.

Como puede ver, la salida es claramente incorrecta. Sin embargo, si explicamos la lógica a la IA, podemos hacer que responda correctamente.

¿Cuál es la forma más rápida de llegar a casa?
Opción 1: Toma un autobús de 10 minutos, luego un autobús de 40 minutos y, finalmente, un tren de 10 minutos.
Opción 2: Toma un tren de 90 minutos, luego un paseo en bicicleta de 45 minutos y, finalmente, un autobús de 10 minutos.
La opción 1 tardará 10+40+10 = 60 minutos.
La opción 2 tardará 90+45+10=145 minutos.
Como la opción 1 tarda 60 minutos y la opción 2 tarda 145 minutos, la opción 1 es más rápida.

¿Cuál es la forma más rápida de ir a trabajar?
Opción 1: tomar un autobús de 1000 minutos, luego un tren de media hora y, finalmente, un paseo en bicicleta de 10 minutos.
Opción 2: Toma un autobús de 800 minutos, luego un tren de una hora y, finalmente, un paseo en bicicleta de 30 minutos.

Salida:
La opción 1 tardará 1000+30+10 = 1040 minutos. La opción 2 tardará 800+60+30 = 890 minutos.Como la opción 1 tarda 1040 minutos y la opción 2 tarda 890 minutos, la opción 2 es más rápida.

Proporcione su propia base de conocimientos a ChatGPT

Puedes proporcionar información sobre tu propia base de conocimientos a ChatGPT para que pueda responder a las preguntas relacionadas con ese conocimiento. Esto es especialmente útil si planeas construir tus chatbots a partir de tus propios datos. Puedes pasar la información en el contexto. Sin embargo, existe una limitación en la que los LLM como el GPT-3 tienen un tamaño máximo de solicitud de aproximadamente 4 000 fichasy, por lo tanto, no puedes enviar mucha información directamente a ChatGPT en el contexto.

Una solución para esto puede ser indexar primero los documentos de la base de conocimientos.. Luego, en respuesta a la solicitud, primero obtenemos los documentos relevantes del índice y luego permitimos que ChatGPT responda a la pregunta en función del subconjunto de la información recuperada de la Búsqueda. Básicamente, se utiliza la búsqueda semántica y, a continuación, se solicita al modelo la información relevante en el contexto. Muchas bibliotecas pueden habilitar esto para ti, por ejemplo Pajar y Langchain, que con frecuencia se consideran entre los mejores herramientas de ingeniería rápida para flujos de trabajo de LLM basados en la recuperación.

Integre herramientas en los LLM para que realicen acciones (ReAcT)

Puedes proporcionar múltiples herramientas a los LLM para que realicen acciones y luego dejar que el LLM decida la forma correcta de interactuar con estas herramientas para lograr el objetivo deseado.

Esto se denomina paradigma de razón y acción (ReAct) y es una especie de versión más avanzada de los sistemas MRKL (Modular Reasoning, Knowledge and Language, que se pronuncia «milagro»).

Primero vamos a explicar MRKL con un ejemplo. Supongamos que tenemos una API para llamar a Google Calculator para realizar cálculos. Ahora sabemos que las expresiones matemáticamente correctas son algo que Google puede responder, pero no las consultas en lenguaje natural. Entonces, si el mensaje es el que se menciona a continuación:

¿Cuánto es 20 veces 5^6?

Podemos dar instrucciones al LLM para que muestre la expresión de forma que Google Calculator pueda entender. Por lo tanto, el mensaje, en este caso, será:

Traduce el siguiente problema matemático a un formato que la calculadora de Google pueda entender.

Cuánto es 20 veces 5^6

Del mismo modo, podemos usar LLMs para convertir una acción descrita usando lenguaje natural en una expresión que sea entendida por una API existente. La integración de API de terceros y la interacción con ellas desde la interfaz de chat se han simplificado en ChatGPT a través de su sistema de complementos, sobre el cual puedes leer más aquí.

Algunos ejemplos de una experiencia definitiva

«Pide ingredientes para hacer una pizza de pepperoni». ChatGPT puede identificar automáticamente los ingredientes necesarios y realizar un pedido en una tienda de abarrotes en línea.
«Añada un evento a mi calendario a las 8 p. m.» Este mensaje se puede convertir en una solicitud CURL para tu aplicación de calendario y luego activarlo (ya sea mediante un complemento o manualmente) para crear un evento real en tu aplicación de calendario.
«Necesito entrenar un modelo que funcione en este archivo CSV y genere el precio previsto del modelo». Este mensaje puede generar automáticamente un código de entrenamiento para un modelo de aprendizaje automático y, a continuación, ejecutarlo para entrenar realmente el modelo copiándolo y pegándolo en su entorno de codificación o utilizando un complemento adecuado.

Implemente cualquier modelo de lenguaje grande disponible en el mercado

Referencias:

https://learnprompting.org/docs (Este es un recurso excelente en caso de que desee profundizar en la ingeniería rápida). Todos los ejemplos del artículo han sido tomados de aquí.
https://til.simonwillison.net/llms/python-react-pattern

Chatea con nosotros

Si quieres maximizar los beneficios de tus proyectos de LLM y ayudar a tu empresa a aprovechar la IA de la manera correcta, nos encantaría charlar e intercambiar notas.

Disfruta de un ☕️ con nosotros

Descubra cómo TrueFoundry lo ayuda a implementar LLM en 5 minutos:

‍

Deploy and Fine-tune Open Source LLMs With a Few Clicks!

TrueFoundry offers an intuitive solution for LLM deployment and fine-tuning. With our Model Catalogue, companies can self-host LLMs on Kubernetes, reducing inference costs by 10x in just one click. Discover how to deploy a Dolly-v2-3b model and fine-tune a Pythia-70m using TrueFoundry in our blog.

TrueFoundry Blog TrueFoundry

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora