True ML Talks #14: cofundador de LLMs y Reinforcement Learning @ CX Score

Actualizado: June 22, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Volvemos con otro episodio de True ML Talks. En este artículo, volvemos a profundizar en los LLMs, Reinforcement Learning y CX Score y estamos hablando con Ashwin Rao.

Ashwin Rao es un profesional distinguido con una formación diversa en el mundo académico, el liderazgo industrial y el espíritu empresarial. Actualmente es cofundador de CX Score, una empresa emergente de inteligencia artificial en fase inicial que se centra en capacitar a las empresas para que mejoren las experiencias de los clientes en las aplicaciones web y móviles.

📌

Nuestras conversaciones con Ashwin abordarán los siguientes aspectos:
- Puntuación CX.
- Desafíos y aplicaciones del LLM en el comercio minorista.
- Aprendizaje por refuerzo.
- Aplicaciones de RL en el campo de las finanzas
- Uso del aprendizaje por refuerzo para mejorar los LLM
- Garantizar respuestas seguras, imparciales y de alta calidad en los LLM

Mira el episodio completo a continuación:

Charla de TrueML con Ashwin Rao

Puntuación CX

Descripción general de CX Ops y CX Score

CX Ops amplía los principios de DevOps para mejorar la experiencia digital del cliente. Implica un enfoque colaborativo para mejorar continuamente los sitios web, las aplicaciones web y las aplicaciones móviles.

El CX Score evalúa la experiencia del cliente utilizando la información de un usuario sintético: un bot de inteligencia artificial que se comporta como un humano. Identifica problemas como fallos de funcionamiento, incoherencias en el diseño, problemas de seguridad, etc., lo que genera tickets para desarrolladores y diseñadores.

Los equipos multifuncionales abordan los problemas señalados y se esfuerzan por lograr mejoras continuas. El usuario sintético vuelve a realizar las pruebas una vez resuelto el problema, lo que contribuye a mejorar la puntuación de CX con el tiempo.

La integración de CX Ops en DevOps garantiza que la experiencia del cliente sea un enfoque clave durante todo el proceso de desarrollo. Esto crea plataformas digitales fluidas y atractivas para los clientes.

Cómo la puntuación CX imita las interacciones humanas

El CX Score emplea un enfoque de aprendizaje para imitar las interacciones humanas y comprender qué hace que una experiencia digital sea intuitiva y fácil de usar. Al observar y analizar el comportamiento humano en sitios web y aplicaciones, el usuario sintético, o robot de inteligencia artificial, puede aprender de las señales y patrones que muestran los usuarios reales.

Los datos de supervisión se recopilan para obtener información sobre cómo los usuarios navegan por las plataformas digitales. Estos datos incluyen métricas como el tiempo dedicado a las diferentes páginas, la secuencia de acciones realizadas y los casos de abandono. Estas señales proporcionan información valiosa sobre la confusión y las frustraciones de los usuarios y las áreas en las que la experiencia es insuficiente.

Por ejemplo, si los usuarios encuentran dificultades con frecuencia para alcanzar un objetivo específico, como implementar un modelo de aprendizaje automático, se puede capacitar al usuario sintético para que reconozca que esta experiencia de usuario no es óptima. Al comparar el comportamiento de los usuarios reales que tienen dificultades con el proceso con el de los que lo completan sin esfuerzo, el bot puede entender la diferencia y descubrir qué hace que la experiencia sea más intuitiva.

El proceso de aprendizaje del robot de IA se basa en tener una cantidad sustancial de datos y comentarios de usuarios reales. Al analizar y mapear los recorridos de los usuarios, es posible identificar los puntos débiles, los cuellos de botella y las áreas de mejora. Este enfoque basado en datos permite al bot distinguir entre las interacciones fáciles de usar y las que pueden causar frustración o confusión.

Al aprender continuamente del comportamiento humano, el CX Score tiene como objetivo optimizar la experiencia digital del cliente, haciéndola más intuitiva, optimizada y alineada con las expectativas de los usuarios. El objetivo es garantizar que el usuario sintético pueda imitar con precisión las interacciones humanas y proporcionar información valiosa sobre las áreas en las que se puede mejorar la experiencia.

Desafíos y aplicaciones del LLM en el sector minorista

La industria minorista ha sido testigo de avances significativos en la aplicación de IA, ML y LLM (modelos de lenguaje grande) para resolver varios desafíos y mejorar las experiencias de los clientes. En este artículo, analizamos los desafíos a los que se enfrenta el sector minorista y las aplicaciones emergentes de los LLM para abordar estos problemas.

Desafíos en la industria minorista

Operaciones y cadena de suministro: Los minoristas se enfrentan a dificultades a la hora de gestionar el inventario, la logística y las operaciones de la cadena de suministro de manera eficiente. Es crucial optimizar estos procesos para garantizar el movimiento fluido de los productos y las entregas puntuales.
Experiencia del cliente: Ofrecer experiencias de cliente personalizadas y atractivas es una prioridad para los minoristas. Esto incluye resultados de búsqueda precisos, recomendaciones personalizadas, marketing dirigido y la creación de diseños adaptados a las preferencias individuales.

Aplicaciones del LLM en el comercio minorista

Optimización de operaciones: Los LLM pueden analizar grandes cantidades de datos para optimizar la gestión del inventario, la previsión de la demanda y las operaciones de la cadena de suministro. Al aprovechar los LLM, los minoristas pueden mejorar sus procesos de toma de decisiones, mejorar la eficiencia operativa y reducir los costos.
Recomendaciones personalizadas: Los LLM se destacan en la comprensión de las preferencias de los clientes y las similitudes de los productos. Al utilizar la integración de clientes y productos, los LLM pueden generar recomendaciones altamente personalizadas, lo que permite a los minoristas ofrecer sugerencias de productos específicas y mejorar las ventas.
Capacidades de búsqueda mejoradas: Los LLM pueden transformar la experiencia de búsqueda en el comercio minorista. En lugar de basarse únicamente en las búsquedas basadas en palabras clave, los chatbots conversacionales impulsados por los LLM pueden entablar diálogos en lenguaje natural, comprender el contexto y la intención de proporcionar resultados de búsqueda más precisos y relevantes.
Servicio de atención al cliente inteligente: Los LLM tienen el potencial de revolucionar el servicio al cliente en el sector minorista. A medida que la tecnología LLM avance, los chatbots inteligentes podrán entablar diálogos significativos, ayudar a los clientes a encontrar los productos correctos, proporcionarles orientación sobre los precios, ofrecer asistencia de compra personalizada y gestionar las solicitudes de devolución de forma eficaz.
Posibilidades futuras: Con nuevos avances, los LLM tienen el potencial de convertirse en asistentes de compras altamente inteligentes, comprender las preferencias individuales, el historial de compras y sugerir productos relevantes en función de las necesidades personalizadas. Esto puede crear una experiencia de compra más fluida e intuitiva para los clientes

Aprendizaje por refuerzo

El aprendizaje por refuerzo (RL) es un campo avanzado del aprendizaje automático en el que los agentes aprenden mediante ensayo y error.

En RL, un agente interactúa con un entorno, como un automóvil autónomo que navega por carreteras llenas de obstáculos y tráfico. El agente observa el estado actual del entorno y selecciona las acciones para maximizar las recompensas acumuladas a lo largo del tiempo.

Las recompensas son valores numéricos que reflejan la calidad de las decisiones de un agente, teniendo en cuenta factores como la eficiencia y la seguridad. Al acumular recompensas, los agentes de RL aprenden a navegar con eficacia.

RL incorpora la estocasticidad para gestionar las incertidumbres del entorno, lo que permite a los agentes tomar decisiones óptimas a pesar de circunstancias impredecibles.

RL encuentra aplicaciones en finanzas, venta minorista, robótica y vehículos autónomos. También ha contribuido a mejorar los modelos lingüísticos como ChatGPT, mejorando su rendimiento y generando respuestas más precisas. Comprender los fundamentos de RL nos permite apreciar su potencial para resolver problemas complejos de toma de decisiones y mejorar las capacidades de inteligencia artificial

Recibirás recompensas y castigos por tus acciones en función de las recompensas que obtengas. Así es como aprenden los humanos, por eso el campo me pareció muy interesante.
- Ashwin

📌

importancia de la recompensa negativa en RL:
Las recompensas negativas en el aprendizaje por refuerzo (RL) son cruciales para moldear el comportamiento de los agentes y promover los resultados deseables. En lugar de confiar en los juicios humanos, el mejor enfoque es diseñar sistemas en los que las recompensas sean orgánicas y se basen en los resultados reales. Por ejemplo, en el contexto de la conducción, las recompensas negativas pueden asociarse a accidentes o a una desaceleración significativa. Al centrarse en mediciones objetivas, como la eficiencia del tiempo y la comodidad, los agentes de RL pueden aprender a tomar decisiones óptimas sin necesidad de un etiquetado humano subjetivo. Este enfoque garantiza un aprendizaje sólido y efectivo sin las complejidades de la variedad de opiniones y juicios.

Aplicaciones del aprendizaje por refuerzo en el campo de las finanzas

Gestión de cartera: El aprendizaje por refuerzo se puede utilizar para asignar inversiones de forma dinámica en función de las condiciones cambiantes del mercado, optimizando la asignación de fondos entre diferentes activos y ajustando los niveles de riesgo.
Precios de derivados: Se pueden emplear técnicas de aprendizaje por refuerzo para fijar precios y cubrir con precisión derivados complejos, como las opciones, lo que contribuye a mejorar la gestión del riesgo en los mercados financieros.
Comercio algorítmico: El aprendizaje por refuerzo puede facilitar las decisiones de negociación en tiempo real, incluidas las estrategias de ejecución óptimas para grandes operaciones en bloque y el control de los diferenciales entre oferta y demanda para los creadores de mercado, lo que mejora la eficiencia y la rentabilidad de las operaciones.

Estas aplicaciones representan solo un subconjunto de los posibles casos de uso del aprendizaje reforzado en finanzas. A medida que el campo siga evolucionando, se espera que surjan más oportunidades para aprovechar la RL, lo que se traducirá en una mayor adopción y avances en los procesos de toma de decisiones financieras.

Cómo RL puede gestionar los diferentes plazos de inversión.

Al considerar los diferentes plazos para las inversiones en finanzas, el concepto del valor temporal del dinero se vuelve crucial. El valor temporal del dinero reconoce que el valor del dinero recibido en el futuro es inferior al de la misma cantidad de dinero recibida en el presente. Los marcos de aprendizaje por refuerzo (RL) dan cuenta de esto al incorporar un factor de descuento, que permite valorar las recompensas futuras en el presente.

En finanzas, el factor de descuento se determina en función de la tasa de rendimiento libre de riesgo. Por ejemplo, si la tasa libre de riesgo es del 4%, una recompensa de 1 dólar recibida en un año tendría un valor aproximado de 0,96 USD en términos de valor actual. Este mecanismo de descuentos de RL ayuda a captar el valor temporal del dinero y la importancia de los diferentes horizontes temporales para las inversiones.

Otra consideración a la hora de maximizar la rentabilidad financiera es el equilibrio entre riesgo y recompensa. Si bien maximizar la rentabilidad esperada es un objetivo común, expone a los inversores a diferentes niveles de incertidumbre y riesgo. Cada individuo tiene su propio apetito por el riesgo y su preferencia a la hora de equilibrar las posibles recompensas y los riesgos. Este equilibrio entre rentabilidad y riesgo es un aspecto clave de la teoría de la utilidad, que aborda la forma en que las personas valoran los diferentes resultados en función de sus preferencias de riesgo.

En finanzas, la función de recompensa va más allá de los meros montos en dólares e incluye retornos ajustados al riesgo. Definir un objetivo que incorpore rentabilidades ajustadas al riesgo permite a los inversores alinear sus estrategias de inversión con su tolerancia al riesgo y el equilibrio deseado entre riesgo y recompensa. La teoría de la utilidad proporciona un marco para comprender y cuantificar este equilibrio, lo que ayuda a los inversores a tomar decisiones informadas.

Explorar la intrincada relación entre los plazos, las rentabilidades ajustadas al riesgo y las preferencias de los inversores requiere una comprensión más profunda de la teoría de las finanzas y la utilidad, que puede explorarse más a fondo en recursos integrales, como el libro de Ashwin Rao sobre el aprendizaje por refuerzo para las finanzas.

Uso del aprendizaje por refuerzo para mejorar los LLM

El aprendizaje por refuerzo (RL) ha desempeñado un papel importante en la mejora de los modelos lingüísticos (LLM) como Chat GPT. Si bien es posible que el RL no sea ampliamente reconocido en la corriente principal, ha sido una técnica crucial para los avances de los LLM.

El camino hacia el desarrollo de Chat GPT comenzó hace unos años con versiones anteriores como GPT-2 y GPT-3. Sin embargo, estos modelos a menudo producían respuestas absurdas o irrelevantes, lo que limitaba su usabilidad. Sin embargo, en un período relativamente corto, se observaron mejoras notables en la calidad de las respuestas generadas por modelos como Chat GPT.

El avance clave provino de la incorporación de la RL como un medio para controlar las respuestas del modelo. Imagina usar Chat GPT-4 a diario, donde después de cada respuesta que genera, tienes la posibilidad de dar tu opinión. Puedes indicar si la respuesta fue excelente, valiosa o si te pareció absurda o irrelevante. Esta retroalimentación actúa como una recompensa o un castigo para la modelo y determina sus respuestas futuras.

En el contexto de una conversación, este ciclo de retroalimentación crea un marco de RL. El modelo recibe la recompensa o el castigo en función de la forma en que los usuarios responden a sus respuestas. Esta interacción continua permite que el modelo aprenda y mejore con el tiempo. El marco RL captura la naturaleza secuencial de las conversaciones, con transiciones de estado que se producen a medida que avanza el diálogo.

A través de este marco de RL, Chat GPT aprende a entender qué constituye una respuesta sensata frente a una absurda. También ayuda a abordar el problema de las alucinaciones, en las que el modelo genera resultados que pueden ser incorrectos o inventados. Al recibir comentarios sobre estos casos de alucinaciones, el modelo puede aprender a controlarlos y minimizarlos.

Por lo tanto, la RL para los LLM puede considerarse un método de control de las alucinaciones, que garantiza un equilibrio entre la generación de respuestas creativas y coherentes sin ir demasiado lejos en el ámbito de la producción sin sentido. Al aprovechar las técnicas de aprendizaje virtual, los LLM como Chat GPT pueden mejorar continuamente su rendimiento y mejorar la experiencia general del usuario.

La integración de RL en los LLM representa una dirección importante para los desarrollos futuros en el procesamiento y la comprensión del lenguaje. Permite a los modelos adaptar y refinar sus respuestas en función de los comentarios de los usuarios en tiempo real, lo que conduce a interacciones más precisas, relevantes y sensibles al contexto.

Garantizar respuestas seguras, imparciales y de alta calidad en los LLM

Enfoques para garantizar respuestas seguras, imparciales y de alta calidad en los LLM:

Incorporar la retroalimentación humana: Los evaluadores humanos pueden identificar y proporcionar comentarios sobre situaciones en las que las respuestas de LLM pueden ser inseguras o dañinas. Esta retroalimentación ayuda a entrenar al modelo para que reconozca y evite estos casos.
Definir los límites éticos: Las empresas de tecnología pueden establecer límites o limitaciones predefinidos para ciertas áreas, como la moral, la ética y los comportamientos predefinidos. Estos límites están codificados y no están sujetos a modificaciones mediante la capacitación en materia de responsabilidad limitada, lo que garantiza un comportamiento coherente y alineado con los estándares éticos.
Modelado formal y sistemático: Garantizar respuestas seguras, imparciales y de alta calidad requiere un enfoque más formal para modelar y moldear el comportamiento de LLM. Esto implica procesos sistemáticos para abordar los prejuicios, los problemas de seguridad, la corrección y la calidad de la respuesta, más allá de simplemente ofrecer recompensas.
Monitorización continua: El monitoreo continuo del comportamiento de la LLM es crucial para detectar y abordar cualquier problema potencial. La evaluación y el análisis periódicos ayudan a identificar las áreas en las que se pueden realizar mejoras para mejorar la seguridad y la calidad de las respuestas.
Lograr un equilibrio: El proceso de capacitación debe lograr un equilibrio entre brindar flexibilidad y cumplir con los estándares de seguridad y calidad. Esto implica una consideración cuidadosa de las ventajas y desventajas y un refinamiento constante para optimizar el comportamiento del modelo.
Investigación y mejora: La investigación continua y la mejora de las técnicas de capacitación son esenciales para mejorar la solidez y confiabilidad de los LLM. Esto incluye mantenerse alerta contra la posible explotación por parte de personas malintencionadas y abordar de manera proactiva los desafíos emergentes.

Lea nuestros blogs anteriores de la serie True ML Talks:

‍

True ML Talks #13 - Machine Learning Platform @ Cookpad

In this blog, we dive deep into Cookpad’s Machine Learning Platform, and Nvidia Triton. Understand Cookpad’s ML architecture, how ML is used at Cookpad.

TrueFoundry Blog TrueFoundry

Sigue viendo el TrueML serie youtube y leyendo el TrueML serie de blogs.

True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora