True ML Talks #11: LLM, LLMOP y CTO de GenAI en Greenhouse

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Volvemos con otro episodio de True ML Talks. En este artículo, volvemos a profundizar en los LLM, los LLMOP y la IA generativa, y estamos hablando con Michael Boufford.
Michael es el director de tecnología de Greenhouse y se incorporó como primer empleado hace unos 11 años, por lo que escribió las primeras líneas de código y consiguió construir la empresa hasta donde está hoy.
📌
Nuestras conversaciones con Mike abordarán los siguientes aspectos:
- Estructura organizativa de los equipos de ML en Greenhouse
- Cómo se utilizan los LLM y los modelos de IA generativa en Greenhouse
- Navegación por modelos lingüísticos de gran tamaño
- Comprensión de la ingeniería rápida
- LLMOP y herramientas críticas para LLM
Mira el episodio completo a continuación:
Estructura organizativa de los equipos de ciencia de datos y aprendizaje automático en Greenhouse
Los equipos de ciencia de datos y aprendizaje automático de Greenhouse han evolucionado con el crecimiento de la empresa, pasando de puestos generalistas a puestos especializados. Los aspectos clave de su estructura organizativa incluyen:
- Ingeniería de datos y plataforma: Un equipo dedicado gestiona la ingeniería de datos, el almacenamiento de datos y el desarrollo de funciones de aprendizaje automático. Apoyan las iniciativas de marketing y se encargan de la implementación y las operaciones del código y los modelos.
- Ciencia de datos de productos: Este equipo se centra en apoyar la toma de decisiones sobre productos a través de proyectos innovadores, análisis de datos e información que impulsen el desarrollo de productos.
- Ingeniería ML: Greenhouse cuenta con un equipo de ingeniería de aprendizaje automático especializado en crear modelos escalables y confiables listos para la producción para varios casos de uso de productos.
Además, un Equipo de analistas de negocios aborda cuestiones relacionadas con la empresa y proporciona información.
La administración de la infraestructura es responsabilidad de una entidad independiente Equipo de infraestructura, supervisando componentes como Kubernetes y AWS. Los almacenes de datos cuentan con un equipo dedicado a la administración.
Cómo se utilizan los LLM y los modelos de IA generativa en un invernadero
Estos son los diversos casos de uso en los que se han empleado estos modelos en las operaciones de Greenhouse.
- Similitud laboral y procesamiento de datos: Greenhouse ha estado utilizando LLM, incluidos Bard y GPT-2, para analizar y procesar varios aspectos de los datos relacionados con el trabajo. Estos modelos ayudan a determinar las similitudes entre las diferentes ofertas de trabajo, así como a analizar y procesar los datos sin procesar de los currículums. El objetivo radica en los esfuerzos eficientes de procesamiento y etiquetado de datos relacionados con las descripciones de puestos.
- Arquitectura RAG para respuestas más rápidas: Greenhouse ha explorado recientemente el uso del GPT-4 para casos de uso innovadores. Uno de ellos implica la implementación de la arquitectura RAG (Retrieval-Augmented Generation) para proporcionar respuestas rápidas a las consultas de los usuarios. Al aprovechar los modelos generativos, Greenhouse tiene como objetivo permitir a los usuarios obtener respuestas a preguntas complejas que anteriormente requerían la generación manual de informes. El modelo generativo actúa como traductor: convierte las consultas en inglés en un lenguaje de consulta que interactúa con el almacén de datos y, a continuación, traduce la respuesta para su consumo.
- Informes e inteligencia empresarial (BI): Con acceso a una gran cantidad de datos de texto en forma de descripciones de puestos y currículums, Greenhouse está bien posicionada para aprovechar las LLM y los modelos generativos con fines de generación de informes y BI. Greenhouse ya ofrece informes prediseñados, un generador de informes personalizado y un producto de lago de datos. La empresa prevé utilizar los LLM para responder a una amplia gama de preguntas relacionadas con la contratación, como el rendimiento de la contratación, los procesos de entrevistas, el estado de la contratación, el análisis del presupuesto y más.
Navegando por modelos lingüísticos de gran tamaño: abordar los problemas y adoptar el autoalojamiento
Problemas con los modelos lingüísticos de gran tamaño
Si bien ChatGPT, impulsado por modelos como el GPT-4, ofrece resultados impresionantes, aún existen algunos desafíos y preocupaciones asociados con su uso. Estos son algunos de los problemas que surgen con ChatGPT:
- Fiabilidad: El GPT-4 aún es relativamente incipiente y es posible que no sea completamente confiable para su implementación en la infraestructura de producción. En consecuencia, puede que no sea aconsejable confiar únicamente en el GPT-4 para los sistemas críticos que requieren un rendimiento y una fiabilidad constantes.
- Condiciones de servicio y privacidad de datos: Como ocurre con cualquier modelo de IA, existen dudas sobre cómo se manejan los datos y si se utilizan con fines de capacitación. Confiar en que los datos se manejarán de forma segura y no se filtrarán ni se utilizarán indebidamente puede ser un problema importante, especialmente cuando se trata de datos confidenciales como la información de identificación personal (PII).
- Modelos autohospedados: El uso de modelos autohospedados más pequeños puede ofrecer ventajas en términos de confiabilidad, costo y rendimiento. Al alojar los modelos en su propia infraestructura, tiene más control sobre los parámetros de entrada/salida, la supervisión y las configuraciones de seguridad. Este enfoque puede mitigar los riesgos asociados con la dependencia de servicios externos.
- Talento e infraestructura: Alojar modelos lingüísticos aún más pequeños requiere habilidades e infraestructura especializadas. Puede ser necesario desarrollar internamente la experiencia y los recursos necesarios para administrar y utilizar estos modelos de manera eficaz. Si bien los proveedores de servicios en la nube como Azure, Google y Amazon están desarrollando sus propios modelos lingüísticos de gran tamaño, es posible que no tengan una amplia experiencia en el manejo de entradas que no son confiables y de los desafíos específicos que conllevan.
- Seguridad de datos: La protección de los datos confidenciales es crucial, especialmente cuando se procesa la PII. Un enfoque consiste en entrenar modelos sin exponer directamente los datos sin procesar. Por ejemplo, el uso de valores hash sin pérdidas en lugar de los datos reales puede ayudar a mantener la privacidad y, al mismo tiempo, a captar relaciones significativas. Será fundamental experimentar con diferentes enfoques y garantizar la seguridad de los datos.
Ventajas de los modelos autohospedados
- Mejor rendimiento del modelo: Los modelos más pequeños pueden ofrecer un mejor rendimiento a la hora de responder a las preguntas.
- Reducción de costos: Los costos de computación son más bajos cuando se utilizan modelos más pequeños, sin la sobrecarga adicional de un tercero.
- Control y responsabilidad: Los modelos de autohospedaje permiten un mayor control y responsabilidad, ya que se ejecutan dentro de su propia infraestructura.
- Seguridad y privacidad de los datos: El alojamiento automático mitiga el riesgo de fuga de datos y garantiza un mejor control de los parámetros de entrada y salida.
- Supervisión y seguridad: Los modelos autohospedados permiten una mejor supervisión y la capacidad de establecer configuraciones de seguridad de acuerdo con sus necesidades.
- Preferido para aplicaciones SaaS empresariales: Para las funciones que pueden ofrecer los modelos autohospedados y que cumplen con los estándares de rendimiento requeridos, es preferible elegir el hospedaje automático.
- Viabilidad del GPT-4: Los aspectos de confiabilidad, seguridad y privacidad de los datos del GPT-4 aún se están evaluando y necesitan una evaluación adicional antes de considerarlo para los sistemas de producción.
Evaluación y toma de decisiones
Al considerar la posibilidad de invertir en modelos autohospedados o confiar en modelos lingüísticos comerciales de gran tamaño, los líderes deben evaluar cuidadosamente los siguientes factores:
- Casos de uso: Evalúe si el problema en cuestión puede abordarse eficazmente con modelos más pequeños en términos de rentabilidad y eficacia computacional.
- Implicaciones de costos a largo plazo: Tenga en cuenta los posibles ahorros de costos de hospedar su propio modelo en comparación con el acceso a modelos muy grandes, lo que puede generar rendimientos decrecientes.
- Control y autonomía: Evalúe los beneficios de tener un mayor control y autonomía sobre la infraestructura y la dirección del modelo, así como la capacidad de personalizar y especializar el modelo para casos de uso específicos.
- Oportunidades de inversión y aprendizaje: Reconozca que la creación y el entrenamiento de modelos más pequeños pueden requerir una inversión inicial en términos de recursos de equipo, experimentación y ajuste. Sin embargo, esta inversión puede conducir a modelos optimizados adaptados a casos de uso específicos y mejorar el conocimiento y la comprensión del equipo.
Comprensión de la ingeniería rápida
La ingeniería rápida se ha convertido en un tema de debate en el campo de los grandes modelos lingüísticos (LLM). Implica elaborar indicaciones eficaces para obtener del modelo las respuestas deseadas. Estos son algunos puntos clave para entender el concepto y sus implicaciones:
- La ingeniería rápida como función distintiva: La ingeniería rápida puede convertirse en un título de trabajo reconocido o en una función especializada dentro del campo, ya que los expertos optimizan las indicaciones y manipulan las redes neuronales de manera eficaz.
- Enfoque de ingeniería para las indicaciones: La ingeniería rápida implica aplicar el método científico para generar resultados predecibles mediante el ajuste y el refinamiento de las indicaciones para lograr los resultados deseados.
- Distinción del uso rápido casual: El simple hecho de copiar y pegar las instrucciones sin una comprensión más profunda o sin modificarlas no se considera ingeniería de instrucciones.
- Naturaleza multifacética de la ingeniería rápida: La ingeniería rápida requiere una comprensión integral de cómo las indicaciones influyen en las redes neuronales y la información específica que capturan, más allá de las habilidades lingüísticas.
- Falta de programación determinista: Los LLM introducen complejidad debido a las variaciones en los modelos, los datos de entrenamiento y los comportamientos cambiantes, lo que dificulta la ingeniería rápida.
- Posibles mejoras de eficiencia y previsibilidad: Profundizar en la comprensión de los LLM puede conducir a una activación más eficiente de las partes de la red neuronal, lo que resulta en resultados más predecibles y consistentes.
- Visualización de la codificación por capas: Las arquitecturas de transformadores de los LLM codifican la información en diferentes capas, de forma similar a como las CNN procesan las imágenes. Los ingenieros especializados pueden explorar la posibilidad de activar capas específicas para influir en las salidas generadas.
- Panorama de herramientas y LLMOP: La atención se está centrando en el panorama de herramientas que rodea a los LLM, denominados LLMOP, que incluye prácticas de desarrollo, implementación y gestión. El término sigue evolucionando.
LLMOP y herramientas críticas para LLM
Los LLMOP y el panorama de herramientas en torno a los grandes modelos lingüísticos (LLM) están ganando atención.
En lo que respecta a la administración rápida, el manejo rápido de los datos, el etiquetado, los comentarios y otras tareas esenciales, se espera que ciertas herramientas desempeñen un papel fundamental a medida que se expande el uso de la LLM. Algunas consideraciones clave incluyen:
- Bases de datos de factores: Las bases de datos con capacidad de búsqueda, como Minecon, serán cruciales para recuperar el contexto relevante para retroalimentar la red neuronal. El acceso a la información relevante permite una ingeniería y una optimización rápidas.
- Marcos del proyecto: Proyectos como LangChain proporcionan marcos de codificación que facilitan la implementación de una amplia gama de funcionalidades, lo que contribuye a un uso eficiente de la LLM.
- Integración e infraestructura: Los LLM suelen formar parte de programas más amplios y requieren una integración y gestión eficaces de varios componentes. Conectar diferentes partes para lograr los resultados deseados es vital y puede requerir experiencia en la administración de la infraestructura y la memoria.
- Supervisión y mantenimiento: Las prácticas tradicionales de aprendizaje automático, como el monitoreo de regresiones, la evaluación del rendimiento y la evaluación de la capacidad de la infraestructura, siguen siendo relevantes en el contexto de los LLM. Garantizar un soporte adecuado de infraestructura y capacidad es crucial para un rendimiento óptimo.
- Almacenamiento rápido: Guardar las indicaciones para usarlas en el futuro requiere una consideración cuidadosa. Si bien se pueden usar varias opciones, como las bases de datos, el almacenamiento en caché o el almacenamiento de archivos, para almacenar texto e incluso texto parametrizable, el diseño de formas significativas de almacenar las indicaciones es un área de exploración continua.
- Optimización de memoria: Lidiar con los requisitos de memoria de los modelos grandes puede ser un desafío. Administrar el uso de la RAM de la GPU es crucial, especialmente cuando se ajustan los modelos que aumentan significativamente los requisitos de memoria. La optimización de los modelos para tipos de GPU o requisitos de latencia específicos requiere experiencia y soporte de herramientas.
- Herramientas de administración de infraestructuras: A medida que las organizaciones ejecutan LLM en sus propias infraestructuras de nube, surgen nuevos desafíos en términos de administración de la infraestructura. Es necesario contar con herramientas para tareas como el escalado automático de la GPU, garantizar el tiempo de actividad, optimizar los costos y crear sistemas escalables que se ajusten a los requisitos empresariales específicos.
- Flujos de trabajo para desarrolladores: Es esencial contar con herramientas que mejoren los flujos de trabajo de los desarrolladores al trabajar con LLM. Simplificar los procesos complejos y proporcionar interfaces intuitivas puede ayudar a acelerar la adopción y hacer que los LLM sean más accesibles para una gama más amplia de usuarios.
- Educar a la comunidad: Con el campo de la maestría aún en una fase exploratoria, empresas como True Foundry tener la oportunidad de educar y guiar a la comunidad sobre las herramientas disponibles, las mejores prácticas y las soluciones a los desafíos comunes.
📌
Evaluación de modelos de dominios grandes
En el contexto de la participación humana en la evaluación, el enfoque «humano al tanto» se emplea comúnmente en casos de uso graves con LLM. La validación humana es crucial para evaluar el rendimiento del modelo y validar su resultado. Incluso durante el proceso de ajuste de los modelos GPT, la participación humana desempeñó un papel esencial.
Para los casos de uso menos críticos en los que hay margen de error, un enfoque rentable implica el uso de modelos más grandes para evaluar las respuestas de los modelos más pequeños. Las múltiples respuestas generadas por los modelos más pequeños se pueden comparar y calificar con un modelo más grande, lo que permite establecer métricas para medir el rendimiento. Si bien este enfoque implica algunos costos, por lo general es más económico en comparación con basarse únicamente en los esfuerzos humanos.
Mantenerse actualizado en un mundo en constante evolución
Mantenerse actualizado en el mundo en constante evolución de los LLM y el aprendizaje automático puede ser un desafío. Estos son algunos enfoques eficaces para mantenerse informado y adquirir conocimientos:
- Vídeos explicados por la IA: Ver vídeos explicados sobre la IA en plataformas como YouTube es una forma cómoda de comprender las principales conclusiones y resultados de los trabajos académicos sin necesidad de una lectura exhaustiva. Estos vídeos resumen conceptos complejos y ahorran tiempo y esfuerzo.
- Comunidades en línea: La interacción con las comunidades en línea, como los subreddits de Hacker News y aprendizaje automático, ofrece información, debates y actualizaciones sobre las tendencias y tecnologías emergentes en el campo.
- Experiencia práctica: Participar activamente en las aplicaciones prácticas de los LLM es crucial para obtener una comprensión más profunda de su potencial y limitaciones. Al experimentar y explorar las capacidades, uno puede mejorar sus conocimientos.
- Accesibilidad de las API: A diferencia del pasado, donde el aprendizaje automático requería revisar conceptos matemáticos complejos, el panorama actual se basa más en las API. Las bibliotecas y las API prediseñadas permiten a los desarrolladores empezar a experimentar y crear aplicaciones sin necesidad de volver a aprender matemáticas avanzadas.
- Habilidades de programación: Aprender métodos bibliotecarios específicos y resolver problemas ambientales son habilidades valiosas para implementar los LLM de manera efectiva.
Lea nuestros blogs anteriores de la serie True ML Talks:
Sigue viendo el TrueML serie youtube y leyendo el TrueML serie de blogs.
True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA

















.png)


.webp)




.webp)







