¿Qué es Prompt Engineering?

Por TrueFoundry

Actualizado: March 22, 2024

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Introducción

Un aviso es igual que una instrucción clara o un conjunto de instrucciones que se le dan a una herramienta o a una persona. Ya se trate de una palabra clave que escribes en un motor de búsqueda, de un comando para un programa de ordenador o de una pregunta que le haces a un amigo, las instrucciones le ayudan a entender lo que buscas o quieres que haga.

La ingeniería rápida, el arte y la ciencia de crear indicaciones eficaces, se ha vuelto cada vez más esencial con el aumento de la popularidad de los modelos lingüísticos grandes (LLM), ya que permite la utilización de todas las capacidades de los LLM.

Este artículo lo ayudará a dominar la ingeniería rápida a través de la lente de los modelos lingüísticos.‍

Indicaciones y LLM

Cuando trabajas en la ingeniería rápida, por lo general utilizas una API para interactuar con el LLM. Estas API constan de un conjunto de hiperparámetros que se pueden ajustar para lograr los resultados deseados. En esta discusión, examinaremos la API de inferencia de Hugging Face (como se muestra en la imagen de abajo) y exploraremos la importancia de cada parámetro.

desde huggingface_hub importar InferenceClient # Parámetro de puntos finales de inferencia HF endpoint_url = "https://YOUR_ENDPOINT.endpoints.huggingface.cloud» hf_token = «HF_tu_token» # Cliente de streaming cliente = InferenceClient (endpoint_url, token=hf_token) # Parámetros de generación gen_kwargs = { «max_new_tokens»: 512, «top_k»: 50, # Ajustar el parámetro de muestreo top-k «top_p»: 0.8, # Ajustar el parámetro de muestreo del núcleo «temperatura»: 0.5, # Ajustar la temperatura por aleatoriedad «repetition_penalty»: 1.5, # Ajustar la penalización por repetición para evitar respuestas repetitivas «stop_sequences»: [»\nUsuario:», «», "</s>«], } # Rápido prompt = «¿Cuáles son los efectos del cambio climático en» # Generación de texto stream = client.text_generation (prompt, stream=true, details=true, **gen_kwargs)

Como se mencionó anteriormente, se pueden ajustar diferentes hiperparámetros para influir en la calidad y la diversidad del texto generado. Echemos un vistazo más de cerca a los diversos hiperparámetros incluidos en la propiedad gen_kwards anterior: ‍

Hiperparámetros

Temperatura

Es como ajustar el nivel de especias de la cocina: una temperatura más alta significa más aleatoriedad, como añadir especias para darle sabor, mientras que una temperatura más baja hace que las cosas sean predecibles, como ceñirse a una receta. Por ejemplo, en tareas de escritura creativa, como generar poesía o intercambiar ideas para historias, un ajuste de temperatura más alto puede resultar en un texto más diverso e imaginativo.

Top_K

Piense en ello como reducir las opciones de una biblioteca a los libros más populares. Selecciona los elementos más probables durante la generación del texto y refina el resultado. Piensa en un chatbot de servicio al cliente que ayude a los usuarios con las consultas más comunes. Al establecer un parámetro top_k, el chatbot puede priorizar las respuestas en función de la información más relevante, lo que garantiza que los usuarios reciban una asistencia útil y precisa sin verse abrumados por detalles innecesarios.

Top_P

Top_p establece un límite en los tokens considerados al elegir los tokens hasta que se alcance una probabilidad acumulada de p. Tanto top_k como top_p se utilizan para controlar la diversidad y la calidad.

Máximo de nuevos tokens

Es como establecer un límite de palabras para un ensayo. MAX_NEW_TOKENS determina la cantidad de texto que puede generar el modelo, manteniéndolo dentro de una longitud específica. Por ejemplo, si generas respuestas para un chatbot, establecer un límite máximo de tokens garantiza que las respuestas sean concisas y relevantes para el contexto de la conversación o puedes aumentarlo

Penalización por repetición

Repetition_penalty desalienta al modelo a reutilizar los tokens, lo que promueve la diversidad en el texto generado. En una aplicación de IA conversacional, como un asistente virtual, establecer un repetition_penalty garantiza que las respuestas del asistente sigan siendo variadas y naturales durante las interacciones prolongadas

Penalización de frecuencia

Frequency Penalty alienta al modelo a explorar elementos menos comunes, lo que hace que el texto sea más único. Supongamos que está desarrollando una aplicación de agregación de noticias que resume artículos de varias fuentes. Al aplicar una penalización por frecuencia, la aplicación puede priorizar publicaciones menos conocidas o temas especializados, lo que brinda a los usuarios una amplia gama de perspectivas.

Penalización por presencia

La penalización de presencia guía al modelo para generar texto que se ajuste a criterios específicos o evite ciertos temas, lo que garantiza la relevancia. En un sistema de moderación de contenido para foros en línea, establecer una penalización por presencia ayuda a filtrar el lenguaje inapropiado u ofensivo. Por ejemplo, si un usuario intenta publicar comentarios discriminatorios, la penalización por presencia guiaría al sistema a generar un mensaje de advertencia.

Consejos generales para escribir mejores indicaciones

Empezando por la simplicidad

Debe empezar por crear instrucciones sencillas y directas e introducir gradualmente la complejidad mediante el refinamiento, en lugar de sobrecargar toda la información al principio. Así que, cuando te enfrentes a una gran tarea, intenta dividirla en subconjuntos.

Orientación clara

Los comandos deben ser claros y explícitos. Por ejemplo,

Mal aviso: «El rápido zorro marrón salta sobre el perro perezoso, traduce esto».

Mejor mensaje: «Traduce el siguiente texto del inglés al español: 'El rápido zorro marrón salta sobre el perro perezoso'».

Ser específico

Mejore la claridad inmediata al incluir ejemplos relevantes e instrucciones detalladas.

Mensaje deficiente: «Escribe sobre las redes sociales y sus efectos».

Mejor mensaje: «Escribe un ensayo de 500 palabras sobre el impacto de las redes sociales en la salud mental de los adolescentes. Incluye estadísticas de fuentes acreditadas, como la Asociación Estadounidense de Psicología, y proporciona ejemplos reales de personas afectadas por el uso excesivo de las redes sociales. »

Evitar la confusión

Asegúrese de que las indicaciones sean claras y directas para evitar ambigüedades en las respuestas del modelo.

Mejora continua

Refina las indicaciones de forma iterativa en función de los comentarios y el rendimiento para optimizar los resultados.

Herramientas, marcos y bibliotecas para la ingeniería rápida en los LLM

Eligiendo el mejores herramientas de ingeniería rápida depende de si está optimizando las solicitudes para la experimentación, el despliegue de producción o los flujos de trabajo específicos del modelo.

Transformers Huggging Face

Proporciona interfaces para ajustar los modelos en tareas específicas y permite la creación de indicaciones personalizadas.

API de OpenAI Codex

La API de OpenAI incluye capacidades para la ingeniería rápida, lo que permite a los usuarios generar código o texto en función de las instrucciones.

Área de juegos GPT-3

Plataformas como GPT-3 Playground ofrecen entornos interactivos para experimentar con las indicaciones y observar las respuestas de los modelos en tiempo real.

El marco T5 de Google

El T5 (Transformador de transferencia de texto a texto) es un marco que convierte todas las tareas de PNL en un formato de texto a texto, lo que simplifica la ingeniería rápida para varias tareas.

Allen NLP

AllenNLP proporciona herramientas para crear y evaluar modelos de PNL, incluidos mecanismos para un diseño y una evaluación rápidos.

Técnicas avanzadas para una ingeniería rápida

En esta sección, hablaré sobre algunas técnicas SOTA (de última generación) que se implementan bajo el paraguas de la ingeniería rápida en el procesamiento del lenguaje natural (PNL) y el ajuste fino de los modelos lingüísticos. Es posible que haya una ligera superposición con los métodos mencionados anteriormente. Considera que se trata de un enfoque más formal y estructurado para entender las técnicas:

Indicación de tiro cero

Como lo demuestra el término «tiro cero», aquí la inferencia es directa sin proporcionar un contexto adicional al LLM. En cambio, genera resultados basados en su conocimiento preexistente.

Rápido:

¿Quién fue el primer hombre en el espacio?

Salida:

El primer hombre en el espacio fue Yuri Gagarin, un cosmonauta soviético.

Indicaciones de pocos disparos

En lo que respecta a las indicaciones de pocos disparos, se trata de avisar un poco al modelo lingüístico (LLM) antes de hacer la pregunta. Este contexto adicional tiene dos propósitos principales: en primer lugar, ayuda al LLM a comprender lo que está sucediendo, para que pueda dar una respuesta más acertada. En segundo lugar, permite al LLM aprender cosas nuevas con las que no se ha topado antes, manteniendo sus conocimientos frescos y adaptables.

Rápido:

Componga un poema con tres estrofas, cada una centrada en un tema diferente: el amor, la naturaleza y la soledad.

Salida:

En tu abrazo, encuentro mi consuelo, Una sinfonía de corazones latiendo al unísono Perdidos en la danza del abrazo de la pasión. He aquí los árboles que susurran, sus hojas brillan, Lienzo de la naturaleza pintado con tonalidades divinas, La serenidad se encuentra en el flujo de murmullos. En la quietud de la noche, estoy solo Un alma solitaria bajo el cielo estrellado, Encontrando consuelo en el silencio, por mi cuenta.

Encadenamiento rápido

El encadenamiento rápido es una técnica poderosa para dividir tareas complejas en pasos más manejables. Al incorporar el resultado de un mensaje a la entrada de otro, puede agilizar los procesos y abordar problemas complejos de manera eficiente.

Este enfoque ofrece varias ventajas: simplifica las instrucciones, identifica las áreas de dificultad para una solución de problemas enfocada y una mejor validación de los resultados. Además, el encadenamiento rápido permite la ejecución en paralelo de las tareas, lo que permite el procesamiento simultáneo de varias subtareas.

Prompt-1:

Hay una rutina de ejercicios, presente en el sitio web<link>:

Identifique los ejercicios mencionados en el sitio web. Bríndelos como comillas directas, encerrados en etiquetas<quotes></quotes> XML. Si no hay ningún ejercicio, diga «No se ha mencionado ningún ejercicio».

Salida-1:

<quotes> «10 flexiones» «20 sentadillas» </quotes>

Prompt-2:

Estos son los ejercicios mencionados en la rutina, incluidos en etiquetas<quotes></quotes> XML:

<quotes> «10 flexiones» «20 sentadillas» </quotes>

Utilice estos ejercicios para crear una rutina de ejercicios. Asegúrese de que sus instrucciones sean claras y fáciles de seguir.

Salida-2:

# Genera un plan de entrenamiento completo

Impulsar la cadena de pensamiento

La técnica Chain-of-Thought Prompting refleja el escenario en el que a un estudiante se le da un problema de ejemplo y, posteriormente, se le desafía a resolver problemas similares.

Rápido:

P: Sally tiene 50 manzanas. Le da 15 a su amiga y luego compra tres veces más de las que regaló. ¿Cuántas manzanas tiene Sally ahora?

R: Sally empezó con 50 manzanas. Después de regalar 15, le quedan 50 — 15 = 35 manzanas. Luego compra tres veces más de lo que regaló, es decir, 3 x 15 = 45 manzanas. Al sumar las manzanas que compró a las que le quedaban, Sally ahora tiene 35 + 45 = 80 manzanas. Por lo tanto, Sally tiene 80 manzanas. P: Joe tiene 20 huevos. Compra 2 cajas más de huevos. Cada caja contiene 12 huevos. ¿Cuántos huevos tiene Joe ahora?

Salida:

R: Joe empezó con 20 huevos. 2 cajas de 12 huevos son 24 huevos. 20 + 24 = 44. Por lo tanto, Joe tiene 44 huevos y la respuesta es 44.

En situaciones en las que tenga menos ejemplos o ninguno, añada una frase como»Pensemos paso a paso«al indicador original es eficaz para mejorar el rendimiento del modelo.

Cadena de pensamiento automática (Auto-cot)

Genera automáticamente ejemplos que muestran al LLM cómo resolver problemas. Estos ejemplos se denominan «demostraciones» y se crean al solicitar al LLM que articule su proceso de pensamiento y dilucide cómo abordaría un problema.

¿Cómo funciona Auto-cot?

Auto-cot funciona en dos etapas:

Agrupación de preguntas: Primero, agrupa preguntas similares. Esto ayuda a garantizar que las manifestaciones cubran una amplia gama de diferentes tipos de problemas.
Muestreo de demostración: Luego, selecciona una pregunta representativa de cada grupo y le pide al LLM que genere una demostración para ella. Para ello, el LLM piensa en voz alta y explica su razonamiento paso a paso.

Perfeccionamiento de los LLM

A menudo, el ajuste fino no se considera parte de la ingeniería rápida, pero, al igual que la ingeniería rápida, es un método para adaptar modelos lingüísticos grandes (LLM) a tareas específicas.
Implica entrenar el modelo ya entrenado para que se adapte a nuestro conjunto de datos etiquetado especializado, ajustando así su parámetro. Si bien las últimas capas suelen ajustarse para adaptarlas a los nuevos datos, el perfeccionamiento puede implicar modificar los parámetros en varias capas para captar mejor las características específicas del dominio y, al mismo tiempo, conservar los conocimientos aprendidos en la formación original.

Tradicionalmente, el ajuste fino era un proceso complejo que requería muchos recursos y que requería un hardware potente, experiencia en aprendizaje automático y grandes cantidades de datos etiquetados.

Sin embargo, ahora, con plataformas como Hugging Face, que proporcionan modelos previamente entrenados y canales de ajuste fáciles de usar, el ajuste se ha vuelto más accesible y eficiente. Al integrar las capacidades de Hugging Face con los enfoques tradicionales de ajuste, podemos aprovechar los modelos previamente entrenados como punto de partida, lo que reduce la necesidad de contar con grandes cantidades de datos y experiencia etiquetados.

Truefoundry también ofrece la posibilidad de ajustar sus LLM. Con su interfaz intuitiva y sencilla, puede ajustar sus modelos en 3 sencillos pasos:

Conexión de la base de datos
Compare trabajos de ajuste y elija el más adecuado para sus necesidades.
Implemente su modelo perfeccionado.

Generación aumentada de recuperación (RAG)

En RAG, la recuperación se utiliza como un componente junto con la generación para mejorar el rendimiento del modelo en tareas como la respuesta a preguntas y la generación de texto. El RAG se adapta a escenarios en los que los hechos evolucionan, lo cual es valioso porque el conocimiento fijo de los LLM no puede mantenerse al día. RAG permite a los modelos lingüísticos saltarse el reentrenamiento y acceder a la información más reciente mediante la generación basada en la recuperación para producir resultados fiables.

En los últimos años, los sistemas RAG han pasado de ser modelos RAG ingenuos básicos a modelos RAG avanzados y RAG modulares más sofisticados.

Naive RAG recupera información en función de las entradas del usuario, pero tiene problemas de precisión debido a los datos desactualizados y a las respuestas irrelevantes. Advanced RAG mejora esto al ajustar el proceso de recuperación, haciéndolo más preciso y relevante.

El RAG modular va más allá al ofrecer diferentes módulos personalizables, como búsqueda y memoria, lo que permite flexibilidad a la hora de resolver problemas específicos. En general, estos avances tienen como objetivo hacer que los sistemas de conversación sean más inteligentes y confiables mediante una mejor gestión de la recuperación de la información y la generación de respuestas.

Verdadera fundición también ofrece una interfaz de extremo a extremo para RAG con la capacidad de integrarse con cualquier almacén de metadatos, incrustaciones o modelos de LLM

Aprendizaje reforzado a partir de la retroalimentación humana (RLHF)

Durante bastante tiempo, la idea de entrenar un modelo lingüístico mediante el aprendizaje por refuerzo parecía inviable debido a los desafíos algorítmicos y de ingeniería. Comprender los aspectos técnicos del RLHF implicará varios requisitos previos para el aprendizaje por refuerzo, por lo que intentaré que la explicación sea muy general.

Pensemos en un problema en el que nuestro objetivo es entrenar a un robot para que navegue por un laberinto. Tradicionalmente, en el aprendizaje por refuerzo (RL), el robot tiene como objetivo alcanzar su objetivo rápidamente y recibe comentarios en función de su desempeño en el laberinto. Pero el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) va un paso más allá al permitir que los humanos aporten más información. Pueden comentar algo más que la velocidad, por ejemplo, si el robot evita obstáculos o toma un camino que tiene buena pinta.

Por ejemplo, si el robot elige un camino que esquiva obstáculos o sigue una ruta que guste a los humanos, puede obtener algunos puntos de bonificación. De esta manera, el robot aprende no solo a alcanzar la meta rápidamente, sino también a considerar lo que prefieren los humanos.

‍

En la ingeniería rápida para modelos lingüísticos grandes (LLM), el RLHF es bastante útil. Garantiza que las instrucciones obtengan mejor las respuestas que queremos, mejora la calidad de la rapidez mediante comprobaciones humanas, nos permite personalizar las instrucciones para que se ajusten a nuestras preferencias y se mantiene al día con los cambios en lo que se ha vuelto popular a lo largo del tiempo. Al incluir el aporte humano, nos ayuda a garantizar que los resultados se aproximen más a lo que buscamos en diferentes tareas y campos.

‍

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora