True ML habla #10 - LLMS y GenAI con el director de ingeniería @ Meta

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Volvemos con otro episodio de True ML Talks. En este artículo, profundizamos en los LLM y en la IA generativa, y estamos hablando con Anant.
Anant es un líder en ingeniería. Actualmente, es director de ingeniería en Meta y trabaja en algunas de las experiencias con productos de gafas inteligentes. Comenzó como colaborador de código abierto y ha desempeñado funciones clave tanto en empresas emergentes como en gigantes tecnológicos. En Mozilla, ha ayudado a definir e implementar WebRTC, entre otras tecnologías de navegación. También fue uno de los primeros ingenieros de Firebase y el primer ingeniero de Ozlo.
📌
Nuestras conversaciones con Anant abordarán los siguientes aspectos:
- Difusión estable de ajuste fino
- Creación de incrustaciones para Hacker News
- El debate sobre la sostenibilidad a largo plazo
- La necesidad de mejorar el seguimiento de los experimentos y de disponer de documentación accesible en los LLMOP
- El poder y el potencial de los complementos de OpenAI
- El poder de los modelos lingüísticos en el flujo de recuperación y la adaptación de complementos
Anant nos habló a título personal y sus puntos de vista no representan los de la organización (Meta) a la que está afiliado.
Mira el episodio completo a continuación:
Observaciones clave de los experimentos de Anant:
LoRa: una técnica intrigante para ajustar modelos lingüísticos de gran tamaño.
- Accesibilidad de LoRa: En comparación con otras técnicas como Dreambooth, LoRa es más accesible e implica añadir algunas capas a un modelo previamente entrenado sin alterar sus pesos.
- Rentabilidad y simplicidad: LoRa es rentable y puede ser utilizado por personas sin conocimientos técnicos a través de plataformas como Google Colab. Su simplicidad permite una rápida iteración y experimentación.
- Potencial en texto e imagen: Aunque inicialmente se aplicó a imágenes, se está explorando el potencial de LoRa en tareas relacionadas con el texto.
- El futuro del ajuste fino: LoRa se prefiere a las técnicas tradicionales debido a su rentabilidad, accesibilidad y compatibilidad con las tarjetas gráficas más antiguas.
Creación de integraciones para las noticias de hackers: desafíos y selección de modelos
- Comprenda los fundamentos: Elija las soluciones adecuadas en función de la escala y los requisitos del proyecto.
- Comprensión de las incrustaciones: Las incrustaciones son colecciones de números de punto flotante, y almacenarlas en una base de datos SQLite ha demostrado su eficacia.
- Selección de modelo: Se prefirieron las bibliotecas de incrustación de código abierto a los proveedores de nube. Hugging Face eligió el modelo grande del Instructor basándose en la evaluación comparativa y la creación de prototipos con MTEB.
- Comience con los primeros principios: Obtenga una comprensión profunda de la solución elegida y céntrese en los requisitos del proyecto en lugar de en la exageración.
- Amplíe con una clara necesidad: La ampliación debe realizarse cuando se alinee con un requisito claro.
El debate sobre la sostenibilidad a largo plazo: modelos grandes frente a modelos más pequeños y ajustados
Una de las discusiones importantes en el ecosistema de MLOps gira en torno a la sostenibilidad a largo plazo de los grandes modelos generalizados frente a los modelos más pequeños y ajustados adaptados a conjuntos de datos o casos de uso específicos. Este debate extrae puntos de vista a partir de una nota filtrada que sugiere la posible mercantilización de los grandes modelos lingüísticos (LLM).
El memorando filtrado, aunque no es una postura oficial, indica un sentimiento creciente de que es probable que los LLM sean más accesibles y reproducibles. Este desarrollo ha despertado entusiasmo en la comunidad, especialmente entre quienes tienen experiencia en el campo del código abierto. Los avances recientes han facilitado la replicación de los LLM, lo que ha abordado las preocupaciones anteriores sobre la adquisición de datos y los costos de formación de modelos.
Proyectos como RunwayML y el modelo de difusión han contribuido a un movimiento de código abierto, lo que ha permitido la publicación de modelos en plataformas como GitHub. Esto democratiza el acceso a los LLM, lo que permite a los aficionados y a los piratas informáticos explorar y experimentar. Si bien no todos los LLM son de código abierto, existen opciones de código abierto con licencia, lo que fomenta una amplia gama de colaboradores.
Se enfatizan los beneficios del desarrollo abierto y la participación generalizada, ya que evita que el poder se concentre en manos de unas pocas entidades. Además, el desarrollo abierto proporciona transparencia y seguridad, teniendo en cuenta los factores globales y el interés potencial de los estados-nación.
Anticipándose a la mercantilización de las LLM, existe un paralelismo con el panorama de la computación en la nube. Los usuarios tendrán la flexibilidad de elegir entre diferentes proveedores, de forma similar a las opciones de servicios en la nube como AWS, Azure y Google Compute. Esto permite una competencia e innovación saludables dentro del ecosistema.
El debate también considera la interacción entre los modelos grandes y los modelos más pequeños integrados en el dispositivo. Ambos tipos tienen su lugar en el ecosistema de los MLOps, ya que la computación se realiza en múltiples capas. Si bien las tareas más simples se pueden realizar de manera eficiente en los dispositivos, las tareas que consumen más recursos se pueden transferir a los servidores. La elección de la implementación depende del caso de uso específico, y se aboga por un enfoque híbrido en lugar de preferir un lado sobre el otro.
En la búsqueda de la sostenibilidad a largo plazo, la comunidad de MLOps debe considerar cuidadosamente la practicidad y las ventajas de los modelos grandes frente a los modelos ajustados. Lograr un equilibrio y aprovechar los puntos fuertes de cada enfoque moldeará el futuro del desarrollo y la implementación de modelos de IA, garantizando un progreso continuo en este campo.
📌
Comparación de rendimiento: modelos de lenguaje grandes frente a versiones más pequeñas
Otro aspecto discutido en la comunidad de MLOps es la comparación del rendimiento entre los modelos de lenguaje grandes y sus homólogos más pequeños. Los modelos grandes tienden a sobresalir en tareas como la generación de blogs o poemas, lo que demuestra sus impresionantes capacidades. Sin embargo, los modelos más pequeños suelen tener dificultades para igualar su rendimiento, especialmente cuando se trata de conjuntos de datos más pequeños.
Es importante analizar minuciosamente los métodos de evaluación y las pruebas que respaldan tales afirmaciones para garantizar comparaciones precisas. Si bien se reconoce que pueden existir diferentes casos de uso y enfoques de evaluación, es crucial comprender a fondo las limitaciones y las diferencias de rendimiento entre los modelos grandes y pequeños.
La necesidad de mejorar el seguimiento de los experimentos y de disponer de documentación accesible en los LLMOP
A medida que avanza el campo del aprendizaje automático, se hace evidente la importancia de contar con herramientas sólidas, incluidos los marcos MLOps. Sin embargo, con el auge de las LLMOP (operaciones con modelos de grandes lenguajes), existe una necesidad específica de herramientas personalizadas para ayudar a los desarrolladores que trabajan con LLM. En este debate, la atención se centra en las lecciones aprendidas y en las recomendaciones para el seguimiento de los experimentos y la documentación accesible en los LLMOP.
Al reflexionar sobre el viaje de aprendizaje, se hace evidente que la documentación adecuada de los experimentos es esencial. Al principio, no se hacía hincapié en llevar un diario de entrenamiento o un sistema de seguimiento estructurado, lo que generaba dificultades durante los experimentos. Especialmente en el proyecto de ajuste de LoRa, gestionar numerosos hiperparámetros resultaba abrumador sin un enfoque sistemático para rastrear los valores y los resultados correspondientes.
Al reconocer el valor de una documentación exhaustiva, se hace evidente la necesidad de un diario de capacitación confiable o un sistema de seguimiento integrado. Desafortunadamente, las soluciones fácilmente disponibles eran escasas, lo que suponía un desafío para encontrar una herramienta adecuada. Sin embargo, el descubrimiento de Weights & Biases (wandb.ai), una empresa emergente que ofrece herramientas de seguimiento y visualización de experimentos, demostró ser beneficioso. Al recomendar estas herramientas a otras personas, se reconoce que incorporarlas en una fase más temprana del proceso podría haber mejorado la gestión de los experimentos.
Además, se destaca la importancia de la documentación accesible dentro de la comunidad de aprendizaje automático. La falta de información sobre los hiperparámetros y sus efectos dificultó la comprensión y la optimización de los experimentos.
Abordar los problemas de seguridad de los datos en los MLOP: garantizar la privacidad y la confianza
La seguridad de los datos es una preocupación primordial en el ámbito de los MLOP, lo que plantea dudas y suscita debates en la comunidad. Al explorar este tema crítico, ahondemos en el enfoque adoptado por la IA abierta, así como en la perspectiva más amplia que rodea a la privacidad de los datos.
La postura de Open AI sobre la privacidad de los datos se considera razonable, especialmente para los consumidores que utilizan servicios como ChatGPT. Teniendo en cuenta que ChatGPT se ofrece como un producto gratuito, los usuarios encuentran valor en la plataforma, lo que justifica el intercambio de sus datos para mejorar los modelos. Se considera una compensación justa, ya que los usuarios contribuyen voluntariamente con sus conversaciones para mejorar el servicio, teniendo en cuenta el uso intensivo de recursos que supone gestionar este tipo de plataformas.
Para los suscriptores de ChatGPT Plus que pagan una cuota mensual, está disponible la opción de excluirse del uso de datos. Sin embargo, esta elección conlleva la pérdida del historial de conversaciones. Sin embargo, dado el precio asequible de la suscripción y el inmenso valor que se deriva del servicio, los usuarios generalmente perciben esta compensación como razonable. Expresan su satisfacción con el acuerdo, pues entienden que sus datos contribuyen a mejorar el modelo y, al mismo tiempo, subvencionan el costo.
Las empresas que buscan aprovechar los modelos de IA para casos de uso específicos tienen requisitos únicos en relación con la seguridad de los datos. Open AI ya ha tomado medidas para abordar estas preocupaciones a través de asociaciones, como Secure Enclave de Microsoft Azure. Estas colaboraciones proporcionan entornos seguros en los que los datos permanecen bajo el control de la empresa. Además, asociaciones como la integración de Anthropic con AWS Bedrock ofrecen enclaves seguros para ejecutar modelos en la nube, lo que disipa la preocupación por la salida de datos de las instalaciones. Estas iniciativas del sector están preparadas para ofrecer soluciones adecuadas para las empresas que se centran en la seguridad de los datos.
Resolver los problemas de privacidad y seguridad de los datos requiere los esfuerzos colectivos de empresas como Open AI, Azure y otros actores importantes. Por ejemplo, Google, con sus capacidades internas, está bien posicionada para abordar estas preocupaciones de manera eficaz. Es importante adoptar una perspectiva equilibrada sobre la privacidad de los datos, reconociendo que las empresas acreditadas pueden fomentar la confianza de sus clientes, quienes tal vez estén dispuestos a cambiar algo de privacidad por el valor que ofrecen los servicios de inteligencia artificial.
El poder y el potencial de los complementos de OpenAI
Los complementos de OpenAI son un desarrollo innovador que muestra el verdadero poder y potencial de los modelos de lenguaje de IA. Al profundizar en el concepto de complementos, se hace evidente lo notables que son a la hora de permitir interacciones con el modelo sin necesidad de escribir código. En cambio, el enfoque se centra en aprovechar las habilidades de comunicación en inglés para instruir el modelo de manera efectiva. Esta toma de conciencia puede ser un momento alucinante tanto para los desarrolladores como para las personas sin conocimientos técnicos.
Los complementos giran en torno a proporcionar instrucciones al modelo de IA en inglés, específicamente en relación con las descripciones y los activadores de las API. Al crear un documento de una página que detalle el esquema y las especificaciones de la API, los usuarios pueden comunicar de manera efectiva cuándo y cómo activar su complemento. Esto enfatiza la importancia de tener un sólido conocimiento del idioma inglés para aprovechar las capacidades de ChatGPT.
Este enfoque innovador ha dado lugar a comparaciones con investigaciones anteriores, como el artículo de Toolformer, que destaca que en el pasado se han explorado problemas similares. Sin embargo, los modelos lingüísticos de OpenAI, en particular el ChatGPT, muestran avances significativos en calidad y rendimiento en comparación con los modelos de código abierto existentes.
La disparidad de calidad se debe principalmente a la competencia del modelo lingüístico central en las tareas relacionadas con la codificación. ChatGPT se destaca en el manejo de instrucciones relacionadas con el código, lo que se traduce en su capacidad para enviar y utilizar complementos de manera eficiente. Demuestra el papel fundamental que desempeña el dominio del modelo subyacente en las tareas de codificación a la hora de implementar complementos de forma eficaz.
Si bien OpenAI actualmente tiene una ventaja sustancial en términos de calidad, es esencial dar tiempo a los modelos de código abierto para ponerse al día. La comunidad de código abierto se esfuerza continuamente por cerrar la brecha y mejorar las capacidades de sus modelos. El hecho de que OpenAI reconozca el potencial de los modelos de código abierto y explore vías como las capacidades multimodales es alentador. La reciente entrevista de Sam Altman con Lex Friedman destaca la perspectiva de OpenAI e indica que el enfoque está pasando de centrarse en la carrera de parámetros a los factores diferenciadores.
A medida que los modelos de código abierto evolucionan y alcanzan el nivel de GPT-3.5 y 4, es razonable esperar que la funcionalidad de los complementos también esté disponible en los marcos de código abierto. Los avances en este campo son prometedores para el futuro, donde los modelos y complementos de código abierto pueden revolucionar la forma en que los desarrolladores interactúan con los sistemas de inteligencia artificial.
El poder de los modelos lingüísticos en el flujo de recuperación y la adaptación de complementos
El auge de los modelos de lenguaje, como el GPT de OpenAI, ha llevado al inglés a la vanguardia como nuevo lenguaje de programación en muchos sentidos. El uso del inglés para instruir modelos de IA y activar complementos ha abierto nuevas posibilidades para los desarrolladores.
Cuando se trata de complementos, la atención no se centra en la microgestión de su uso, sino en indicar cómo usarlos de manera eficaz. Al proporcionar instrucciones sobre el uso de los complementos, los desarrolladores permiten que el modelo de IA determine los momentos apropiados para activarlos. Sin embargo, es importante tener en cuenta que la implementación actual tiene limitaciones, como permitir que solo se habiliten tres complementos a la vez y errores ocasionales a la hora de activarlos.
Sin embargo, el poder de los modelos lingüísticos reside en su flujo de recuperación. Incluso cuando el modelo inicialmente no entiende o activa un complemento correctamente, la experiencia del usuario sigue siendo positiva. A diferencia de los asistentes de voz tradicionales, como Alexa, en los que se requieren comandos explícitos y precisos, los modelos lingüísticos como ChatGPT ofrecen una experiencia diferente.
Con ChatGPT, si el modelo no da en el blanco, los usuarios pueden proporcionar con confianza instrucciones de seguimiento explícitas para corregir el error. La comprensión y la capacidad de respuesta del modelo crean una sensación de confianza y colaboración. Los usuarios sienten que sus instrucciones serán reconocidas y seguidas. La capacidad de recuperación de los modelos lingüísticos supone un punto de inflexión en comparación con la de los asistentes de generaciones anteriores, lo que a menudo generaba frustración y desilusión.
El poder de los modelos lingüísticos, especialmente cuando se combinan con complementos, reside en su capacidad para recuperarse de los errores sin problemas. Los usuarios aprecian que el modelo reconozca la confusión, las amables disculpas y la disposición de la modelo a rectificar el error. Este nivel de recuperación y adaptabilidad no tiene parangón en las tecnologías de asistencia anteriores, incluso con los avances en los sistemas de diálogo de varios turnos.
La arquitectura de los modelos de lenguaje permite un nivel de recuperación fenomenal, lo que la convierte en una plataforma ideal para la integración de complementos. La perfecta integración y colaboración entre los desarrolladores y el modelo mejoran la experiencia general del usuario. A medida que los desarrolladores exploran el potencial de los complementos dentro de esta arquitectura, las posibilidades de crear sistemas de IA dinámicos y adaptables son enormes.
Dado que los modelos lingüísticos sirven de base para las interacciones impulsadas por la IA, el flujo de recuperación y la adaptación de complementos se convierten en componentes esenciales para la creación de sistemas avanzados y fáciles de usar. La combinación de la comprensión del lenguaje natural y la capacidad de respuesta posiciona a los modelos lingüísticos como herramientas transformadoras en el panorama de los MLOP.
📌
Comprar GPU para MLOps: desafíos y compras impulsivas
El acceso a las GPU de alto rendimiento a través de proveedores de nube es frustrante para los aficionados, ya que la priorización empresarial y los compromisos a largo plazo plantean desafíos.
El acceso a la GPU basado en la nube consume mucho tiempo para los aficionados que necesitan poco tiempo de GPU. La configuración de una GPU personal supone todo un desafío, ya que incluye la configuración manual y la gestión de dependencias.
A pesar de la comodidad de las imágenes de GPU en la nube preconfiguradas, Anant valora el control y la fiabilidad de su GPU personal. Al superar los desafíos, su decisión de comprar una GPU dedicada resultó beneficiosa para los mLOP.
Mantenerse informado: el enfoque de Anant Narayanan para mantenerse al día con los nuevos desarrollos
- Twitter: utilice Twitter como centro de conocimiento para las actualizaciones relacionadas con la IA. Siga a los expertos y las organizaciones de la comunidad de IA para descubrir rápidamente los nuevos avances y mantenerse informado.
- Podcasts: escuche los podcasts de la industria para obtener información valiosa. Los podcasts recomendados incluyen «Stratechery» de Ben Thompson y «Dithering», presentados conjuntamente por Ben Thompson y John Gruber. Estos podcasts cubren una amplia gama de temas relacionados con la tecnología, incluidos los avances en inteligencia artificial.
- Interacciones fuera de línea: asista a eventos y reuniones presenciales para obtener información y perspectivas valiosas. Busca listados completos de eventos en plataformas como cerebralvalley.ai. Interactúe cara a cara, participe en hackatones e intercambie ideas con otros profesionales para ampliar sus conocimientos y establecer conexiones significativas.
Lea nuestros blogs anteriores de la serie True ML Talks:
Sigue viendo el TrueML serie youtube y leyendo el TrueML serie de blogs.
True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA

















.png)


.webp)




.webp)







