True ML Talks #21: plataforma de aprendizaje automático en Loblaw Digital

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Volvemos con otro episodio de True ML Talks. En esto, nos sumergimos profundamente Derecho digital ML Platform y estamos hablando con Adhithya Ravichandran
Adhithya es ingeniera sénior de software en Loblaw Digital. Forma parte del equipo de la plataforma de aprendizaje automático, donde crea y mantiene la plataforma de aprendizaje automático.
📌
Nuestras conversaciones con Adhitihya abordarán los siguientes aspectos:
- Equipo de plataforma ML en Loblaw
- Herramientas y componentes de ML personalizados
- Motor de recomendaciones Helios
- Sistemas de recomendación: personalización y manejo del contexto en tiempo real
- Potenciar la observabilidad del aprendizaje automático
- Avances en la IA generativa
Mira el episodio completo a continuación:
Equipo de plataforma ML en Loblaw
El equipo de la plataforma ML, responsable de la creación de plataformas para el aprendizaje automático, existe desde hace más de cinco años. Su formación fue impulsada por la necesidad de optimizar las operaciones de manera eficiente dentro de la gran organización. El tamaño del equipo es pequeño, con menos de diez miembros, pero desempeña un papel vital en la implementación de productos y conjuntos de herramientas especializados.
Herramientas y componentes de ML personalizados
AirFlow y otros conjuntos de herramientas de nicho
El equipo de la plataforma ML de Loblaw Digital emplea productos y conjuntos de herramientas especializados, incluido Airflow, un orquestador de flujos de trabajo. Airflow es utilizado no solo por los equipos de aprendizaje automático, sino también ampliamente por los equipos de ingeniería de datos, inteligencia empresarial y análisis. El equipo hace hincapié en el uso de herramientas de código abierto y ha desarrollado una práctica sólida para el uso eficiente de las herramientas.
Optimización de los flujos de trabajo con plantillas de código
El equipo de la plataforma ML colabora estrechamente con equipos específicos responsables de los casos de uso. Identifican métodos eficientes para realizar las tareas y convierten estas mejores prácticas en plantillas de código y paquetes de Python reutilizables. Con el tiempo, estas prácticas se han convertido en un conjunto básico de prácticas codificadas, accesibles para todos los equipos, lo que hace que los flujos de trabajo sean más ágiles y eficientes.
Motor de recomendaciones Helios
El motor de recomendaciones Helios, una piedra angular de la plataforma de comercio electrónico de Loblaw Digital, nació de la necesidad de mejorar la experiencia del usuario y capitalizar la gran cantidad de datos a disposición de la empresa. Al ser el minorista más grande de Canadá con un importante programa de fidelización de clientes, Loblaw Digital tuvo acceso a un conjunto de datos sin igual. Esta gran cantidad de información brindó la oportunidad de crear modelos de recomendación personalizados adaptados a las preferencias de los clientes canadienses.
En un principio, Loblaw Digital se basó en herramientas de terceros para hacer recomendaciones. Sin embargo, a medida que el proyecto cobraba impulso, se hizo evidente que crear un motor de recomendaciones interno no solo era factible sino también rentable. Con una experiencia cada vez mayor en la implementación de sus propios modelos, el equipo utilizó herramientas como Google Kubernetes Engine (GKE) en Google Cloud Platform (GCP) y Seldon, una herramienta de generación de modelos de código abierto. Estos componentes constituyeron la base para crear un paquete de API basado en sus modelos de recomendación.
La publicación de modelos era un desafío fundamental que el motor de recomendaciones de Helios pretendía abordar. Loblaw Digital tenía la capacidad de entrenar modelos de recomendación sofisticados y tenía una serie de equipos internos que trabajaban en varios aspectos de su plataforma de comercio electrónico. Sin embargo, integrar sus modelos a la perfección en la plataforma resultó ser una tarea compleja cuando se utilizaban proveedores externos. De ahí la decisión de desarrollar una solución personalizada que pudiera servir de manera eficiente a sus propios modelos.
Aunque Seldon, una herramienta utilizada en su solución, es técnicamente una herramienta de terceros, Loblaw Digital mantuvo a los operadores de Seldon y la personalizó para satisfacer sus necesidades específicas. Este enfoque les permitió tener un mayor control sobre su infraestructura de servicio de modelos y garantizar una integración perfecta con su plataforma de comercio electrónico.
Puedes leer más sobre el motor de recomendaciones Helio en este blog escrito por el equipo de Loblaw Digital:
📌
Optimización de la inferencia: equilibrio en tiempo real y por lotes para el motor de recomendaciones de Helios:
Las necesidades de inferencia de Loblaw Digital son diversas y abarcan el servicio en tiempo real para recomendaciones instantáneas de los usuarios y la inferencia por lotes para otros casos de uso. Históricamente, han utilizado principalmente la inferencia por lotes, optimizando la rentabilidad calculando previamente las inferencias y almacenándolas para recuperarlas de manera eficiente.
Reconociendo la evolución del panorama del comercio electrónico, Loblaw Digital adopta cada vez más la inferencia en tiempo real para satisfacer las demandas de los usuarios de recomendaciones instantáneas, priorizando una experiencia de compra perfecta.
Sistemas de recomendación: personalización y contexto en tiempo real
Potenciar la personalización
La personalización en el centro
Loblaw Digital ha establecido firmemente una base para la personalización dentro de su sistema de recomendaciones. Comenzaron con la multiplicación de matrices, que ha sido una técnica básica durante algunos años. A medida que avanzaba su viaje, Loblaw Digital incorporó modelos más sofisticados, incluidos transformadores masivos, para mejorar la personalización.
Cómo manejar los desafíos del contexto en tiempo real
El contexto en tiempo real: un desafío complejo
En los sistemas de recomendación, responder al contexto en tiempo real es un desafío importante. El contexto en tiempo real incluye señales de usuario inmediatas, como el clic anterior del usuario, e información contextual más amplia, como los patrones estacionales de los últimos dos años para productos específicos. Equilibrar estos tipos extremos de funciones presenta un importante desafío de ingeniería.
Empoderar a los demás a través del equipo de la plataforma
El equipo de plataformas de Loblaw Digital desempeña un papel fundamental a la hora de abordar estos complejos desafíos. Están desarrollando contratos de datos y un enfoque de «datos como servicio» para proporcionar datos oportunos a las diversas partes interesadas. El equipo de la plataforma ha pasado de ser un proveedor externo patentado para realizar acciones durante la sesión y desde el navegador a una solución de código abierto llamada Snowplow analytics. Esta transición permite a Loblaw Digital tener un mayor control sobre las canalizaciones de datos, lo que permite una disponibilidad más rápida de los datos para los servicios de backend, incluidos los modelos de recomendación. El equipo de la plataforma trabaja dentro de la organización de la plataforma de datos y aprendizaje automático, y es responsable de varias funciones relacionadas con los datos, incluidas las canalizaciones de datos en tiempo real y los datos como servicio. La centralización de estas funciones dentro del equipo facilita la resolución eficiente de los problemas y garantiza la alineación con la visión de la organización.
Ahora hemos implementado nuestra versión de código abierto de Snowplow analytics. Por lo tanto, tenemos mucho más control sobre las canalizaciones desde la aplicación de navegador de alguien. Estoy haciendo que estén disponibles más rápido para nuestros servicios de backend, incluidos los modelos, y ya he visto cierto éxito al respecto. - Adhithiya
Potenciar la observabilidad del aprendizaje automático
Enfoque integrado de los datos y la observabilidad
- Independencia: La organización madura de Loblaw Digital permite a los ingenieros de aprendizaje automático y a los científicos de datos crear canales de datos de forma independiente para sus modelos.
- Autosuficiencia: Los procesos y plantillas simplificados facilitan la autosuficiencia.
- Descubribilidad de datos: Las estrategias de toda la organización promueven la capacidad de descubrimiento de datos, lo que permite el acceso autónomo a los datos.
Observabilidad integral del aprendizaje automático - Éntesis crucial: Adhithya subraya la importancia de la observabilidad del aprendizaje automático.
- Métricas: Las métricas generales de observabilidad abarcan los volúmenes de solicitudes, la latencia, las tasas de error y el estado de la implementación.
- Enfoque centralizado: Loblaw Digital centraliza la supervisión y la observabilidad, simplificando los procesos con herramientas listas para usar.
Abordar los desafíos de la observabilidad de modelos
- Centrado en los datos: La observabilidad del modelo se centra en evaluar las estadísticas de los datos de entrada dentro de plazos específicos.
- Agilidad operativa: Su objetivo es permitir respuestas rápidas basadas en la información de los datos para satisfacer las necesidades operativas.
- Soluciones para proveedores: Loblaw Digital explora las soluciones de los proveedores para una observabilidad avanzada en plazos más cortos.
Mejora de la observabilidad con soluciones especializadas
- Avances de los proveedores: Los proveedores desarrollan soluciones similares a las de una pila de Prometheus optimizadas para el análisis en tiempo real.
- Aprovechar las ventajas: Estas soluciones aprovechan las ventajas de la «gran pila de datos» para realizar cálculos métricos más rápidos y adaptados a la observabilidad del modelo.
- Considerando la adopción: Loblaw Digital considera la posibilidad de adoptar estas soluciones basándose en la experiencia con Prometheus autohospedado.
Función clave del registro centralizado
- Captura de datos: Loblaw Digital emplea un servicio de registro centralizado para capturar los mensajes y las respuestas de la API de aprendizaje automático.
- Funcionamiento eficiente: El servicio funciona de forma asincrónica con un impacto mínimo en el servicio.
- Utilización de datos: Los datos capturados se introducen en el almacén de datos analíticos de la organización, lo que facilita la elaboración de informes y análisis exhaustivos.
Avanzando la observabilidad de extremo a extremo
- Operativo: Las soluciones centralizadas de registro y observabilidad están operativas para casos de uso específicos.
- Seguimiento del rendimiento: Los equipos realizan un seguimiento del rendimiento de los modelos, correlacionan las inferencias con las acciones de los usuarios y evalúan el impacto del modelo.
- Mejora continua: Loblaw Digital continúa mejorando y centralizando los servicios de observabilidad para una adopción organizacional más amplia.
Avances en la IA generativa
Intrigantes avances en la IA generativa
Loblaw Digital está haciendo avances sustanciales en el ámbito de la IA generativa. El equipo está explorando numerosas oportunidades en este ámbito. Internamente, existe un inmenso entusiasmo, no solo por lo que respecta a la utilización de conocidas interfaces de chat, sino también por la creación de productos innovadores y el alojamiento de modelos patentados.
Compromiso profundo con la IA generativa
Loblaw Digital está profundamente comprometida con el potencial de la IA generativa. La organización está considerando activamente el desarrollo de productos que aprovechen la IA generativa. Existe un fuerte deseo de explorar la posibilidad de alojar sus propios modelos en el futuro.
El enfoque progresista del liderazgo
La dirección de Loblaw Digital está abierta a explorar una amplia gama de posibilidades en el espacio de la IA generativa. La ambición de la organización va más allá de utilizar proveedores externos y proyectar un futuro en el que puedan crear y alojar sus modelos de IA generativa. Loblaw Digital se considera afortunada de estar a la vanguardia de desarrollos tan interesantes.
Lea nuestros blogs anteriores de la serie TrueML
Sigue viendo el TrueML serie youtube y leyendo todo el TrueML serie de blogs.
True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA

















.png)


.webp)




.webp)







