Llama 2 LLM: despliegue y ajuste en su nube

Actualizado: July 20, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

El momento ChatGPT del mundo del código abierto está aquí: Meta lanzó su último conjunto de modelos de lenguaje de gran tamaño de código abierto, llamado Llama 2 - una colección de modelos de texto generativo previamente entrenados y ajustados que varían en escala de 7 mil millones a 70 mil millones de parámetros.

Datos curiosos y mnemotécnicos sobre Llama 2

Llama 2 está capacitado con datos en línea disponibles públicamente con aproximadamente Tokens 2T. Esto es más de 300 veces toda la wikipedia en inglés.
Llama 2 ha sido entrenado con 1 millón de anotaciones humanas; compárelo con 15 000 conjuntos de datos etiquetados para Dolly de Databricks.
Se informa que el tiempo necesario para entrenar las variantes 7B, 13B y 70B es de 184 000, 368 000 y 1,7 millones de horas de GPU con A100-80 GB. Resulta interesante que esto se aproxime a unas 1000 semanas de GPU por cada 1 millón de parámetros. Es decir, 70 semanas de entrenamiento si usaras 1000 GPU en paralelo para el modelo de 70 GB.
El coste de la GPU solo para entrenar estos modelos sería de unos 800 000, 1,5 y 8 millones de dólares, respectivamente. ¡Un total de 10 millones de dólares en GPU para la versión final! :)
Los datos previos al entrenamiento son estáticos y están actualizados hasta septiembre de 2022, pero se han ajustado con los datos más recientes hasta julio de 2023.
La ventana de contexto es de 4k para las 3 variantes 7B, 10B y 70B.

¿Por qué debería importarte?

Bueno, para empezar, está disponible para su uso gratuito con fines comerciales y de investigación: el primer modelo de su tipo con una calidad como ChatGPT, respaldado por una gran tecnología y disponible para su implementación y ajuste desde hoy. (A menos que tengas Más de 700 millones de usuarios activos mensuales en el mes natural anterior, ¡en cuyo caso necesitará obtener una licencia de Meta para usarla!)
Las versiones ajustadas, llamadas Llama-2-Chat, están optimizadas para los casos de uso de diálogos. Los modelos Llama-2-Chat superan a los modelos de chat de código abierto en la mayoría de las pruebas comparativas, y están a la altura de algunos modelos populares de código cerrado, como ChatGPT y PalM, en las evaluaciones humanas en cuanto a utilidad y seguridad.
Para todos aquellos que han estado esperando las aprobaciones legales y de cumplimiento para utilizar servicios comerciales de código cerrado como OpenAI, y se han sentido decepcionados por la calidad de respuesta de las generaciones anteriores de LLM de código abierto, tienen la respuesta. Y lo que es más importante, es un refuerzo de la forma en que los LLM de código abierto llegaron para quedarse y seguirán mejorando.

Puntos de referencia de calidad de Llama 2

Llama 2 muestra un rendimiento notable en varios puntos de referencia de LLM. He aquí una comparación entre los modelos Llama y ChatGPT:

Llama-2-70B-chat-HF el modelo se acerca o incluso supera el rendimiento del GPT-3.5, el modelo ChatGPT original, en varios puntos de referencia. Puedes encontrar más detalles aquí. Detalles sobre los conjuntos de datos y las tareas en la sección del apéndice.

Coste de usar Llama 2 en una tarea de muestra

Muchos de los que han puesto en producción aplicaciones basadas en IA abierta están preocupados por las facturas y por la sostenibilidad con la que pueden ampliar estas aplicaciones. Hicimos algunas comparaciones sobre lo que se necesita para ejecutar un LLama 2 y cómo se compara con algunos de los modelos de IA abierta.

Ejemplo de tarea: Supongamos que queremos tomar la Wikipedia en inglés (6 millones de artículos, 1000 fichas cada uno) y resumirlos a la mitad del tamaño utilizando LLM. Los cálculos detallados se pueden encontrar en este blog. Aquí hay algunos consejos interesantes sobre el costo de esta tarea con varios modelos:

Hacerlo con GPT-4 costaría alrededor de 360 mil dólares.
La misma tarea con la variante Davinci de la GPT-3 (175 000 millones de parámetros) costaría unos 180 000 dólares y si utilizaras una variante perfeccionada de Davinci, costaría más de 1 millón de dólares.
En cambio, si utilizaras el modelo Curie (aproximadamente 7 000 millones de parámetros), el coste sería de 18 000$ y el coste ajustado sería de unos 125 000$.
Compáralo con el modelo Llama 2 de tamaño equivalente (variante 7B). Costaría alrededor de 2.000 dólares y la versión ajustada costaría alrededor de 3.000 dólares. Esto supone una diferencia de coste de alrededor de 9 y 40 veces en modelos comparables entre las versiones preentrenadas y las afinadas, respectivamente.

Implementación del modelo Llama-2-13B-Chat

El modelo está disponible para su uso a través de Microsoft Azure, AWS y Cara abrazándose. También puede implementar los modelos Llama-2 mediante True Foundry con pasos mínimos.

Debes tener acceso a los modelos Llama-2 en Huggingface para implementarlo en TrueFoundry. Encuentra más información aquí. Catálogo de modelos TrueFoundry se actualiza con los mejores y más recientes LLM de código abierto. Con el catálogo de modelos, todo está preconfigurado para implementar los modelos y puede implementarlos en su propia infraestructura de nube con un solo clic. Los modelos Llama-2 estarán disponibles en breve en el catálogo de modelos para su implementación con un solo clic. Mientras tanto, los usuarios de TrueFoundry aún pueden implementar los modelos Llama-2 como se describe a continuación.

En la página de despliegues, haz clic en Nueva implementación y elige Servicio.

2. Podemos usar la biblioteca de interfaces de generación de texto de Huggingface para implementar este modelo. Elija implementar la imagen de generación e inferencia de texto (ghcr.io/huggingface/inferencia-generación-texto: 0.9) y anule el comando con un comando para iniciar el modelo requerido (lanzador de generación de texto --identificador de modelo Meta-llama/llama-2-13b-chat-hf):

3. Ahora establezcamos el punto final del modelo. El modelo se servirá en el puerto 80, así que expongamos lo siguiente:

4. Como los modelos Llama-2 solo están disponibles a través de cuentas aprobadas, necesitamos configurar la clave API de Huggingface como variable de entorno. La clave debe ser HUGGING_FACE_HUB_TOKEN.

Tenga en cuenta que en la imagen, estamos utilizando indirectamente la clave API de Huggingface al crear un secreto en TrueFoundry. También puedes pegar el valor directamente, pero no lo recomendamos.

5. Por último, necesitamos asignar los recursos según lo requiere este modelo. Elegí implementar la versión del modelo de chat de 13 000 bits en un nodo con un A100 de 40 GB. Puede configurar otros valores de la siguiente manera:

6. Haga clic Enviar y su modelo se implementará y estará disponible en el punto final que establezca.

Haga inferencias utilizando el modelo implementado

Puedes llamar al generar punto final para obtener inferencias utilizando el modelo que acabamos de implementar. También hay una biblioteca de Python generación de texto que puede usar con su código Python para usar el modelo desplegado.

Uso de la solicitud HTTP:

Uso del cliente Python:

Puedes encontrar más información sobre los clientes aquí.

Parque infantil TrueFoundry LLM

El TrueFoundry LLM Playground se puede usar para preguntar y comparar el modelo que ha implementado en TrueFoundry y otros modelos como ChatGPT. Una vez implementado el modelo Llama-2, también podemos probarlo a través del TrueFoundry LLM Playground:

TrueFoundry's LLM Playground — El campo de juego LLM de TrueFoundry

Chatea con nosotros

Todavía estamos aprendiendo sobre este tema, como todos los demás. En caso de que esté intentando utilizar modelos lingüísticos extensos en su organización, nos encantaría charlar e intercambiar notas.

Disfruta de un ☕️ con nosotros
‍
Apéndice: Detalles sobre las tareas y las métricas

MMLU representa Comprensión multilingüe de múltiples tareas. Es un punto de referencia que mide el desempeño de los modelos lingüísticos en una variedad de tareas, como la respuesta a preguntas, la inferencia del lenguaje natural y el resumen. La intuición detrás del MMLU es que los modelos lingüísticos deben poder comprender y procesar la información de diversas maneras, y que deben poder hacerlo en varios idiomas.

Trivia QA es un conjunto de datos de preguntas y respuestas sobre temas fácticos. Se utiliza para medir la capacidad de los modelos lingüísticos para responder a preguntas que requieren conocimientos fácticos. La intuición detrás de TriviaQA es que los modelos lingüísticos deberían poder acceder y procesar información de fuentes externas, como Wikipedia, para responder a preguntas fácticas.

Preguntas naturales es un conjunto de datos de preguntas que formulan los seres humanos sobre información del mundo real. Se usa para medir la capacidad de los modelos lingüísticos para comprender y responder preguntas en lenguaje natural. La intuición detrás de Natural Questions es que los modelos lingüísticos deben poder comprender los matices del lenguaje humano y generar respuestas que sean relevantes e informativas.

GSM 8k es un conjunto de datos de 8000 preguntas que se generan a partir de las consultas de la Búsqueda de Google. Se utiliza para medir la capacidad de los modelos lingüísticos para comprender y responder a preguntas similares a las que se formulan las personas en la Búsqueda de Google. La intuición que subyace en el GSM8k es que los modelos lingüísticos deben poder entender la intención de las consultas humanas y generar respuestas que sean relevantes e informativas.

Evaluación humana es un punto de referencia que mide el desempeño de los modelos lingüísticos en una variedad de tareas al pedir a los humanos que evalúen los resultados de los modelos. La intuición detrás de HumanEval es que la evaluación humana es una parte necesaria para evaluar el rendimiento de los modelos lingüísticos, ya que puede ayudar a identificar las áreas en las que los modelos siguen teniendo dificultades.

Un Geival es un punto de referencia que mide la capacidad de los modelos lingüísticos para realizar tareas que normalmente se asocian a la inteligencia general artificial. La intuición detrás de AgiEval es que los modelos lingüísticos deberían poder entender el mundo y razonar sobre él de una manera similar a como lo hacen los humanos.

Libro Q es un conjunto de datos de preguntas que requieren lógica booleana para responderse. Se utiliza para medir la capacidad de los modelos lingüísticos para comprender y razonar con afirmaciones lógicas. La intuición detrás de BoolQ es que los modelos lingüísticos deben poder entender el significado de las declaraciones lógicas y generar respuestas que sean consistentes con esas declaraciones.

Hola Swag es un conjunto de datos de preguntas que se escriben en forma de «botín», que es un tipo de lenguaje informal que se usa con frecuencia en las redes sociales. Se usa para medir la capacidad de los modelos lingüísticos para comprender y generar lenguaje natural en una variedad de estilos. La intuición detrás de HellasWag es que los modelos lingüísticos deben poder comprender y generar un lenguaje natural que sea apropiado para el contexto en el que se utiliza.

Control de calidad de OpenBook es un conjunto de datos de preguntas que se pueden responder consultando un gran corpus de texto. Se usa para medir la capacidad de los modelos lingüísticos para acceder y procesar información de fuentes externas. La intuición detrás de OpenBookQA es que los modelos lingüísticos deberían poder acceder y procesar información de una variedad de fuentes para responder a las preguntas.

QuAC es un conjunto de datos de preguntas que se formulan sobre las conversaciones. Se utiliza para medir la capacidad de los modelos lingüísticos para comprender y seguir el contexto de una conversación. La intuición detrás de QuAC es que los modelos lingüísticos deben poder entender el contexto de una conversación y generar respuestas que sean relevantes para la conversación.

Winogrande es un conjunto de datos de preguntas que son difíciles de responder para los modelos lingüísticos. Se usa para medir la capacidad de los modelos lingüísticos para comprender y responder preguntas complejas. La intuición detrás de Winogrande es que los modelos lingüísticos deben poder comprender y responder preguntas complejas que requieren una comprensión profunda del mundo.

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora