TrueML #22: plataforma de aprendizaje automático y @ Voiceflow de LLM

Actualizado: October 12, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Volvemos con otro episodio de True ML Talks. En esto, nos sumergimos profundamente Voice flowde la plataforma ML, así como de LLM, y estamos hablando con Denis Linkov

Denys dirige el equipo de aprendizaje automático de Voiceflow. Se unió como ingeniero fundador de ML. Antes de eso, trabajó como arquitecto sénior de nube para un banco global que trabajaba en sistemas de datos, MLOP e infraestructura básica.

📌

Nuestras conversaciones con Adhitihya abordarán los siguientes aspectos:
- Aprendizaje automático en Voiceflow
- El viaje de Voiceflow a través de MLOps
- Automatizar el despliegue y la observabilidad del modelo para reducir el cambio de contexto y mejorar la eficiencia
- Proceso de inferencia en tiempo real: ventajas y desafíos
- El enfoque de Voiceflow sobre la IA generativa

Mira el episodio completo a continuación:

Aprendizaje automático en Voiceflow

Voiceflow es una plataforma sin código que permite a las empresas crear e implementar aplicaciones de IA conversacional. Se puede usar para crear chatbots, asistentes virtuales y otras interfaces conversacionales para una amplia gama de sectores, entre los que se incluyen:

Comercio electrónico
Bienes inmuebles
Banca
Automoción
Utilidades
Government

El modelo de NLU de Voiceflow puede cubrir una amplia gama de sectores porque se basa en un enorme conjunto de datos de texto y código de una variedad de fuentes. Esto permite a Voiceflow entender y responder a una amplia gama de consultas en lenguaje natural, independientemente del sector.

Per example: Una empresa de comercio electrónico podría utilizar un chatbot de Voiceflow para ayudar a los clientes a encontrar productos, responder preguntas sobre los productos y realizar pedidos. Una empresa inmobiliaria también podría utilizar un chatbot de Voiceflow para ayudar a los posibles compradores a encontrar viviendas, programar citas con agentes y obtener información sobre el proceso de compra de una vivienda.

Uno de los desafíos de crear un modelo de NLU que pueda cubrir todas estas industrias es que cada industria tiene su propio lenguaje y jerga únicos. Sin embargo, el modelo de NLU de Voiceflow puede aprender estas diferencias con el tiempo, ya que está expuesto a más datos de diferentes sectores.

El viaje de Voiceflow a través de MLOps: creación e implementación de modelos de aprendizaje automático para la IA conversacional

Uno de los primeros desafíos a los que se enfrentó Voiceflow fue decidir si crear sus propios modelos o utilizar modelos externos. Voiceflow decidió explorar ambas opciones y creó un par de pruebas de concepto. La primera función que creó Voiceflow fue la generación de expresiones, que utiliza el aprendizaje automático para generar ejemplos que un usuario debe agregar para enriquecer su propio modelo de datos.

Para implementar el modelo de generación de expresiones en la producción, Voiceflow creó su plataforma MLOps. El objetivo de la plataforma era poder implementar varios experimentos en producción muy rápidamente, así como gestionar los entornos.

El modelo de generación de enunciados fue el primero en desaparecer con el lanzamiento de ChatGPT, que es un modelo generativo más avanzado. Esto le enseñó a Voiceflow la importancia de ser flexible y estar dispuesto a eliminar sus propios desarrollos si fuera necesario, para centrarse en lo que es mejor para la experiencia del cliente.

Voiceflow también analiza el enorme cambio que se ha producido en el espacio de la IA conversacional desde el lanzamiento de modelos basados en GPT ajustados a las instrucciones. Voiceflow admite que fue un error estratégico al no pensar en usar el GPT-3 en aquel momento, pero también aprendió que es importante adaptarse y estar dispuesto a cambiar su enfoque a medida que el campo evoluciona.

Aquí tienes un blog sobre el que puedes leer Voiceflow Creation of NLU:

‍

Inside Voiceflow | Voiceflow

Allow us to regale you with product announcements, an exclusive peek behind the Voiceflow curtain, and product tips and tricks from our communit.

Voiceflow

‍

Automatizar el despliegue y la observabilidad del modelo para reducir el cambio de contexto y mejorar la eficiencia

En el proceso tradicional de desarrollo de aprendizaje automático, los científicos de datos entrenan modelos en cuadernos Jupyter y luego los entregan a ingenieros de aprendizaje automático o ingenieros de backend para que los implementen en producción. Esto puede provocar cambios de contexto y retrasos, ya que los ingenieros necesitan entender el modelo y los datos para poder implementarlo correctamente.

Automatice la implementación y la observabilidad del modelo

Una forma de abordar este desafío es automatizar el despliegue y la observabilidad del modelo. Esto se puede lograr creando un conjunto de herramientas y procesos que permitan a los científicos de datos implementar y monitorear sus modelos en producción sin tener que involucrar a otros ingenieros.

Un ejemplo de esto es el uso de una plataforma basada en la nube que proporciona servicios gestionados para la implementación y la observabilidad de los modelos. Estas plataformas pueden ofrecer una variedad de funciones, como:

Despliegue y escalado automatico de modelos
Monitorización de modelos en tiempo real
Detección y alerta de desviaciones
Control de versiones y reversión de modelos

Desarrolle sus propias herramientas y procesos personalizados

Otro enfoque para automatizar la implementación y la observabilidad de los modelos es desarrollar sus propias herramientas y procesos personalizados. Esto puede brindarle más flexibilidad y control, pero también requiere más inversión.

Este es un ejemplo específico de cómo una empresa automatizó el despliegue y la observabilidad del modelo utilizando este enfoque:

Cree un conjunto de scripts automatizados que pongan en marcha un entorno de nube con todos los servicios necesarios para implementar y supervisar sus modelos.
Desarrolle una herramienta de CLI que facilite la implementación de nuevos modelos en el entorno de la nube.
La herramienta CLI crearía automáticamente todas las carpetas y archivos de Terraform necesarios para implementar el modelo.
La herramienta CLI también especificará el entorno en el que se implementará el modelo.

Esta automatización permitió a los científicos de datos de la empresa implementar y monitorear sus modelos en producción sin tener que involucrar a ningún otro ingeniero.

Desafíos de desarrollar sus propias herramientas y procesos personalizados

También hay algunos desafíos que deben tenerse en cuenta al desarrollar sus propias herramientas y procesos personalizados para la implementación y la observabilidad del modelo:

Complejidad: Desarrollar sus propias herramientas y procesos personalizados puede resultar complejo y llevar mucho tiempo.
Depuration: Puede resultar difícil depurar los problemas cuando se producen, especialmente si los científicos de datos no tienen una visibilidad completa de las canalizaciones que se han creado.
Manteniment: Las herramientas y los procesos personalizados requieren mantenimiento y soporte continuos.

Cómo mitigar los desafíos

Hay algunas cosas que se pueden hacer para mitigar los desafíos de desarrollar sus propias herramientas y procesos personalizados para la implementación y la observabilidad de los modelos:

Empieza con algo pequeño: Comience por desarrollar un conjunto básico de herramientas y procesos que satisfagan sus necesidades inmediatas. A continuación, puede agregar más funciones y funciones con el tiempo.
Use herramientas y bibliotecas de código abierto: Hay varias herramientas y bibliotecas de código abierto disponibles que pueden ayudar a desarrollar sus propias herramientas y procesos personalizados. El uso de estas herramientas y bibliotecas puede reducir la cantidad de trabajo de desarrollo requerido.
Documente sus herramientas y procesos: Documente minuciosamente sus herramientas y procesos para que los científicos de datos y otros ingenieros puedan entenderlos y usarlos fácilmente.
Brinde capacitación y apoyo: Brinde capacitación y soporte a los científicos de datos y otros ingenieros sobre cómo usar sus herramientas y procesos personalizados.

Proceso de inferencia en tiempo real: ventajas y desafíos

Los canales de inferencia en tiempo real ofrecen una serie de beneficios, entre los que se incluyen:

Latencia más baja: Los canales de inferencia en tiempo real pueden ofrecer predicciones a los usuarios con un retraso mínimo.
Mayor escalabilidad: Las canalizaciones de inferencia en tiempo real se pueden escalar hacia arriba o hacia abajo para satisfacer la demanda, lo que las hace ideales para aplicaciones de gran volumen.
Flexibilidad mejorada: Las canalizaciones de inferencia en tiempo real se pueden usar para implementar una variedad de modelos de aprendizaje automático, incluida la clasificación, la regresión y la detección de objetos.

Sin embargo, las canalizaciones de inferencia en tiempo real también presentan algunos desafíos, como:

Mayor complejidad: Los canales de inferencia en tiempo real pueden ser complejos de diseñar e implementar, y requieren experiencia en aprendizaje automático, sistemas distribuidos e infraestructura.
Coste increased: Las canalizaciones de inferencia en tiempo real pueden ser más costosas de operar que las canalizaciones de inferencia por lotes, debido a la necesidad de hardware e infraestructura más potentes.
Mayor riesgo de errores: Las canalizaciones de inferencia en tiempo real pueden ser más propensas a errores que las canalizaciones de inferencia por lotes, debido a la necesidad de procesar datos y generar predicciones en tiempo real.

Automatic Escalate in a process of automatic learning in time real

Uno de los desafíos de crear e implementar una canalización de aprendizaje automático en tiempo real es cómo escalar automáticamente el sistema para gestionar los cambios en el tráfico. Hay varios factores a tener en cuenta, como la previsibilidad de los patrones de tráfico, los requisitos de latencia de los modelos y la complejidad del algoritmo de escalado automático.

Un enfoque para escalar automáticamente una canalización de aprendizaje automático en tiempo real es utilizar un sistema de colas. Esto permite desvincular a los productores (que generan las solicitudes de inferencia) de los consumidores (que procesan las solicitudes de inferencia). Esto le brinda más flexibilidad a la hora de escalar el sistema.

Para escalar automáticamente un sistema basado en colas, puede usar una variedad de métricas, como la cantidad de mensajes en la cola, la latencia promedio de las solicitudes o la utilización de la CPU por parte de los trabajadores. Tambien puedes usar una combinación de estas métricas.

Es importante ajustar cuidadosamente el algoritmo de escalado automático para evitar sobreescalar o subescalar el sistema. El escalado excesivo puede provocar el desperdicio de recursos, mientras que el escalado insuficiente puede provocar problemas de rendimiento.

Estas son algunas ideas adicionales sobre el escalado automático de un sistema basado en colas para la inferencia en tiempo real:

Utilice una plataforma basada en la nube: Las plataformas basadas en la nube pueden facilitar el escalado automático del sistema a medida que cambian los patrones de tráfico. Por ejemplo, puedes usar un balanceador de cargas basado en la nube para distribuir el tráfico entre tus pods y aumentar o reducir la cantidad de pods según sea necesario.
Utilice un sistema de colas que permita el escalado automático: Algunos sistemas de colas admiten el escalado automático, lo que significa que pueden aumentar o reducir automáticamente la cantidad de trabajadores en función de la cantidad de mensajes en la cola. Esto puede ayudar a garantizar que su sistema pueda gestionar los picos de tráfico sin ninguna intervención manual.
Supervise su sistema: Es importante supervisar el sistema de búsqueda para identificar cualquier problema relacionado con el escalado automático. Por ejemplo, es posible que deba ajustar los umbrales que activan el escalado hacia arriba o hacia abajo, o puede que necesite identificar y abordar los cuellos de botella específicos de su sistema.

Model Servers for systems in real time sensibles a la latencia

La elección de un servidor modelo para aplicaciones sensibles a la latencia puede ser difícil por varios motivos. En primer lugar, hay muchos modelos de servidores disponibles, cada uno con sus puntos fuertes y débiles. En segundo lugar, los requisitos para las aplicaciones sensibles a la latencia pueden variar mucho según la aplicación específica y los tipos de modelos que se utilicen. Por último, con frecuencia es difícil predecir el rendimiento de un servidor modelo en un entorno de producción.

Factores a tener en cuenta

Al elegir un modelo de servidor para una aplicación sensible a la latencia, es importante tener en cuenta los siguientes factores:

Model Latencia: La latencia del servidor modelo debe ser lo suficientemente baja para cumplir con los requisitos de la aplicación.
Escalabilidad: El servidor modelo debe poder escalarse para satisfacer las demandas de tráfico de la aplicación.
Flexibilidad: El servidor modelo debe ser lo suficientemente flexible como para soportar las necesidades específicas de la aplicación, como los diferentes marcos y plataformas de hardware.
Facilidad de uso: El servidor modelo debe ser fácil de usar y administrar.
Puntos de referencia: Es importante comparar diferentes modelos de servidores para ver cuál funciona mejor para sus necesidades específicas.
Support: Tenga en cuenta el nivel de soporte disponible para el servidor modelo.
Comunidade: Tenga en cuenta el tamaño y la actividad de la comunidad en torno al servidor modelo.

💡

Otras ideas sobre la plataforma ML en Voiceflow:
Voiceflow usa una combinación de AWS y GCP, ya que los diferentes clientes empresariales tienen diferentes requisitos. Todavía no han explorado el uso de Karpenter o Autopilot, ya que ya estaban desarrollando su infraestructura cuando se lanzaron estas funciones. También necesitan usar las GPU T4 para muchas de sus cargas de trabajo, que no son óptimas para Autopilot. En general, por ahora están priorizando el tiempo dedicado a la ingeniería y, con el tiempo, migrarán a soluciones de infraestructura más avanzadas a medida que vayan escalando.

El enfoque de Voiceflow para la IA generativa

Voiceflow está adoptando un enfoque cauteloso con respecto a la IA generativa de código abierto. Son conscientes de los beneficios potenciales de estos modelos, pero también son conscientes de los desafíos que implican. Se comprometen a ofrecer a sus usuarios la mejor experiencia posible y cambiarán a modelos de código abierto cuando sea el momento adecuado para sus negocios.

Desafíos de la IA generativa de código abierto

Hay algunos desafíos asociados con la IA generativa de código abierto:

Rapid Evolution: Los modelos de IA generativa de código abierto evolucionan rápidamente, lo que puede dificultar mantenerse al día con las optimizaciones más recientes.
Coste: Los modelos de IA generativa de código abierto pueden ser costosos desde el punto de vista computacional de entrenar e implementar.
Support: Es posible que los modelos de IA generativa de código abierto no tengan el mismo nivel de soporte que los modelos propietarios.

Beneficios de la IA generativa de código abierto

A pesar de los desafíos, los modelos de IA generativa de código abierto también ofrecen una serie de beneficios:

Transparencia: Los modelos de IA generativa de código abierto son más transparentes que los modelos propietarios, lo que significa que los usuarios pueden entender mejor cómo funcionan y confiar en los resultados.
Reproducibilidad: Los modelos de IA generativa de código abierto son más reproducibles que los modelos propietarios, lo que significa que los usuarios pueden replicar los resultados de los experimentos y compartir su trabajo con otros.
Personalización: Los modelos de IA generativa de código abierto se pueden personalizar y ampliar para satisfacer necesidades específicas.

Latencia management

La latencia es un factor fundamental para tener en cuenta al elegir un modelo para un sistema de generación aumentada de recuperación. El mejor enfoque es ofrecer a los usuarios la posibilidad de elegir entre los modelos que pueden usar y proporcionarles información sobre qué usar para las diferentes tareas.

Por ejemplo, si la latencia es el factor más importante, se recomienda utilizar un enfoque basado en la NLU con expresiones intensas y respuestas estáticas. Los modelos de NLU suelen ser mucho más rápidos que los modelos generativos, y las respuestas estáticas se pueden entregar con una latencia muy baja.

Si el usuario necesita una mayor precisión o un mejor formato, se recomienda utilizar un modelo generativo como el GPT-4. Los modelos generativos son más eficaces que los modelos NLU y pueden generar texto más natural y atractivo. Sin embargo, es importante señalar que los modelos generativos también son mucho más lentos que los modelos de NLU.

Otra forma de reducir la latencia es utilizar una arquitectura distribuida. En una arquitectura distribuida, las tareas de recuperación y generación se realizan en servidores independientes. Esto permite que el sistema se escale para satisfacer las necesidades incluso de las aplicaciones más exigentes.

Creation of an Aumented Generation Recovery System

Los sistemas de generación aumentada de recuperación (RAG) son un nuevo y poderoso enfoque para la generación de texto que combina las fortalezas de los modelos generativos y de recuperación. Los sistemas RAG funcionan recuperando primero los pasajes relevantes de una base de conocimientos y luego utilizando un modelo generativo para generar texto a partir de los pasajes recuperados.

Los sistemas RAG se pueden usar para una variedad de tareas, como la respuesta a preguntas, el resumen y la escritura creativa. Sin embargo, crear un sistema RAG de alto rendimiento puede ser un desafío.

En esta entrada de blog, analizamos algunos de los factores clave para tener en cuenta al crear un sistema RAG, que incluyen:

Model selection: Hay una variedad de modelos generativos y de recuperación diferentes disponibles. Es importante elegir modelos que sean apropiados para sus necesidades específicas. Por ejemplo, si necesita generar texto en un idioma específico, tendrá que elegir un modelo que esté especializado en texto en ese idioma.
Selección de datos: La calidad de los datos que utilice para entrenar su sistema tendrá un impacto significativo en su rendimiento. Es importante elegir datos que sean relevantes para sus tareas objetivo y que no contengan errores.
Selección de hardware: El hardware que utilice también tendrá un impacto significativo en el rendimiento del sistema. Por ejemplo, el uso de las GPU puede acelerar considerablemente las tareas de recuperación y generación.
Arquitectura del sistema: Los sistemas RAG se pueden implementar de varias maneras diferentes. Es importante elegir una arquitectura de sistema que sea adecuada para sus necesidades específicas. Por ejemplo, si necesita implementar su sistema en producción, tendrá que elegir una arquitectura que sea escalable y confiable.

Además de los factores mencionados anteriormente, también es importante tener en cuenta que los sistemas RAG son complejos y pueden resultar difíciles de generalizar. El dominio y el caso de uso de cada usuario serán diferentes, por lo que es importante darles a los usuarios la posibilidad de probar sus propias estrategias de instrucciones, procesamiento y fragmentación. Esto permitirá a los usuarios personalizar el sistema para satisfacer sus necesidades específicas.

Aquí puede leer más sobre cómo implementar una arquitectura RAG en TrueFoundry:

‍

LLM-powered QA Chatbot on your data in your Cloud

Productionize a question-answering bot on your data in your cloud environment using open source LLMs using RAG (Retrieval-Augmented Generation).

TrueFoundry Blog TrueFoundry

‍

Transición a la IA generativa: desafíos y oportunidades

Las empresas que han creado soluciones basadas en la PNL utilizando métodos tradicionales se enfrentan ahora al desafío de la transición a la IA generativa. Los modelos de IA generativa, como el GPT-4 y el LaMDA, ofrecen una serie de ventajas con respecto a los métodos tradicionales, incluida la capacidad de generar texto, traducir idiomas y responder a las preguntas de forma exhaustiva e informativa. Sin embargo, también hay una serie de desafíos asociados con la transición a la IA generativa.

Uno de los desafíos es que los modelos de IA generativa aún están en desarrollo y su uso puede resultar caro. Además, el concepto de incitación sigue siendo bastante ambiguo y desafiante. Las empresas deben poder desarrollar técnicas de incitación eficaces para aprovechar al máximo los modelos de IA generativa.

Otro desafío es integrar modelos de IA generativa en la infraestructura existente. Las empresas deben asegurarse de que sus sistemas puedan gestionar el aumento de la carga y la complejidad de los modelos de IA generativa.

A pesar de los desafíos, también hay una serie de oportunidades asociadas con la transición a la IA generativa. Los modelos de IA generativa pueden ayudar a las empresas a mejorar la calidad de sus productos y servicios, automatizar las tareas y crear nuevos productos y servicios.

Estos son algunos consejos para las empresas que están haciendo la transición a la IA generativa:

Comience a evaluar sus necesidades. ¿Cuáles son las tareas específicas que necesita que realicen los modelos de IA generativa? ¿Cuáles son sus limitaciones presupuestarias? Una vez que comprenda bien sus necesidades, puede empezar a identificar los modelos de IA generativa adecuados para su caso de uso.
Experimenta con diferentes modelos y técnicas. No existe un enfoque único para la transición a la IA generativa. Las empresas deben experimentar con diferentes modelos y técnicas para encontrar lo que mejor les funcione.
Integre modelos de IA generativa en su infraestructura actual. Las empresas deben asegurarse de que sus sistemas puedan gestionar el aumento de la carga y la complejidad de los modelos de IA generativa. Esto puede requerir ampliar su infraestructura o realizar cambios en su software.
Capacitado como su personal. Los modelos de IA generativa son herramientas poderosas, pero también pueden ser complejos de usar. Las empresas deben capacitar a su personal sobre cómo utilizar los modelos de IA generativa de manera eficaz.

La transición a la IA generativa puede ser un desafío, pero también es una oportunidad para que las empresas mejoren sus productos y servicios y creen nuevos productos y servicios. Si siguen los consejos anteriores, las empresas pueden hacer que la transición a la IA generativa sea lo más fluida y exitosa posible.

Lea nuestros blogs anteriores de la serie TrueML

‍

True ML Talks #20 - Transformers, Embedding, LLMS @ Turnitin

Deep dive into a new way of thinking about Transformers and LLMs, via Embeddings . We talk with Sumeet, Distinguished ML Scientist @ Turnitin.

TrueFoundry Blog TrueFoundry

‍

Sigue viendo el TrueML youtube series y leyendo todo el TrueML series de blogs.

True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora