TrueML habla #25: GenAI y LLMOP para GTM (comercialización) en Twilio

Actualizado: December 21, 2023

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Volvemos con otro episodio de True ML Talks. En este artículo, volvemos a profundizar en las aplicaciones MLOps y LLMS en GitLab y estamos hablando con Prutvi Shetty.

Pruthvi es científico de datos del personal de Twilio. Antes de eso, también dirigió el aprendizaje automático para SAP y una empresa emergente llamada ZapLabs que fue adquirida por Anywhere RE. En Twilio, Pruthvi lidera las iniciativas de la generación de inteligencia artificial para Twilio, y hoy profundizaremos en ello.

📌

Nuestras conversaciones con Pruthvi abordarán los siguientes aspectos:
- Aplicaciones y casos de uso de ML y GenAI en torno a GTM
- XGPT: la potencia de Twilio para los equipos de comercialización
- Luchando contra los límites de velocidad de OpenAI
- Experimentando con LLM de código abierto
- RFP Genie: automatización de las respuestas a las RFP
- Flujo de trabajo para modelos de aprendizaje automático tradicionales

Mira el episodio completo a continuación:

Aprovechar la IA para los equipos de comercialización

Twilio tiene una larga historia de aprovechar el aprendizaje automático (ML) y la ciencia de datos para optimizar sus productos y servicios. Sin embargo, los avances recientes en la IA generativa (GenAI) han abierto nuevas oportunidades para mejorar aún más la forma en que operan los equipos de GTM.

ML tradicional para GTM

Si bien GenAI es una herramienta poderosa, Twilio no ha abandonado sus raíces tradicionales de aprendizaje automático. La empresa sigue utilizando el aprendizaje automático para diversas tareas de GTM, como:

Modelos de propensión: Predice la probabilidad de que un cliente se convierta en un usuario de pago.
Modelos de venta cruzada: Recomiende productos adicionales a los clientes actuales en función de sus datos de uso.
Modelos de venta adicional: Recomiende actualizaciones a niveles de servicio más altos a los clientes actuales en función de sus datos de uso.
Modelos de generación de leads: Identifica nuevos clientes potenciales que puedan estar interesados en los productos de Twilio.

GenAI para GTM

Twilio reconoció el potencial de GenAI desde el principio y estableció un equipo dedicado para explorar sus aplicaciones. Este equipo ha creado un conjunto de herramientas impulsadas por GenAI específicamente para los equipos de GTM, que incluye:

XGPT: Esta versátil herramienta permite a los equipos de GTM generar contenido de divulgación personalizado, como correos electrónicos, lo que ahorra mucho tiempo y esfuerzo. También aborda las consultas de los clientes, ya que procesa la increíble cantidad de 15 000 preguntas al mes, lo que demuestra su capacidad para gestionar grandes volúmenes de interacciones.
FlexGPT y SegGPT: Diseñados para productos específicos, estos modelos de IA generan documentación completa y precisa tanto para Flex como para Segment, lo que garantiza que los usuarios tengan la información fácilmente disponible.
RFP Genie: Esta herramienta transformadora aborda la tediosa tarea de responder a las preguntas de la RFP. Al procesar las consultas con un 90% de precisión, reduce el tiempo de finalización de semanas a minutos, lo que libera valiosos recursos para los equipos de GTM.

XGPT: la potencia de Twilio para los equipos de comercialización

Twilio reconoció el potencial de la IA generativa (GenAI) desde el principio y creó un equipo dedicado a explorar sus aplicaciones. Este equipo, dirigido por Pruthvi, ha creado un conjunto de herramientas impulsadas por GenAI específicamente para los equipos de GTM. Una de las herramientas clave que crearon es XGPT.

XGPT se desarrolló como respuesta a dos problemas relacionados con el uso de modelos GenAI disponibles públicamente, como ChatGPT:

Seguridad y privacidad: Los modelos públicos se entrenan con datos compartidos públicamente, lo que plantea problemas de seguridad y privacidad en relación con la información interna de Twilio.
Personalización limitada: Los modelos públicos no pueden incorporar el conocimiento interno específico de Twilio, como la información sobre el lanzamiento de productos, las estrategias de venta y el posicionamiento de la competencia.

XGPT abordó estos problemas de la siguiente manera:

Aprovechar los datos de Twilio: Formado en información interna, como lanzamientos de productos, estrategias de ventas y análisis de la competencia, XGPT proporciona información relevante para funciones y situaciones específicas.
Garantizar la privacidad de los datos: XGPT utiliza la API privada de Twilio, lo que garantiza que los datos permanezcan seguros y no estén disponibles para la formación externa.

Lo tenemos desde hace unos 4-5 meses. En la actualidad, respondemos unas 15 000 preguntas al mes y hemos observado un aumento espectacular del número de usuarios avanzados de nuestras aplicaciones. Eso ha sido XGPT hasta ahora.
- Prutvi

Funcionalidad e impacto de XGPT

XGPT es una plataforma segura y personalizable que:

Responde preguntas: Proporciona respuestas a las consultas de los usuarios basándose en una amplia base de conocimientos de los documentos internos y externos de Twilio.
Genera contenido: Ayuda a los usuarios a crear correos electrónicos y contenido de divulgación personalizados basados en las conversaciones con los clientes.
Mejora la eficiencia de GTM: Proporciona a los equipos de GTM información fácilmente disponible sobre los productos, la competencia y las estrategias de ventas de Twilio, lo que lleva a un aumento de la productividad y a una mejor experiencia del cliente.

Arquitectura técnica de XGPT

XGPT no es solo un modelo, sino un conjunto de productos, cada uno diseñado para funciones y necesidades específicas de GTM. Estos productos incluyen FlexGPT para los representantes del servicio de atención al cliente y SegGPT para las tareas de segmentación.

Una canalización personalizada de flujo RAG recopila toda la información relevante para XGPT, incluidos los datos públicos y privados. Esta información proviene de varias fuentes, como sistemas de administración de contenido, documentos internos, transcripciones de llamadas, notas de Salesforce y documentación de productos.

Las incrustaciones sin conexión se utilizan para FlexGPT y otras aplicaciones, creadas con herramientas como Espacio y Croma. Los ajustes personalizados garantizan la escalabilidad y el control. Además del texto, XGPT también entiende los datos de audio y visuales a través de incrustaciones multimodales. Susurro transcribe demostraciones de productos, mientras que un modelo de visión extrae información de gráficos y diagramas. A continuación, estas incrustaciones se convierten en incrustaciones de rostros, lo que permite a XGPT vincularlas a las fuentes pertinentes en sus respuestas.

El procesamiento principal de LLM es manejado por API OpenAI. En casos específicos, como las solicitudes de propuestas, Llama se utiliza para la interpretación. Las estrategias de paralelización y procesamiento por lotes optimizan el procesamiento y evitan los límites de velocidad. Una capa de interpretación filtra y contextualiza las preguntas antes de enviarlas al LLM. El XGPT proporciona enlaces a la documentación relevante para cada respuesta, lo que le permite explorar más a fondo.

Héroku aloja las aplicaciones, lo que garantiza la estabilidad y el rendimiento. Estibador los contenedores permiten un despliegue y una escalabilidad sencillos. Los datos se almacenan de forma segura en Postgres. Airtable rastrea las preguntas y comentarios, mejorando constantemente la funcionalidad de XGPT. CloudWatch monitorea las métricas para un rendimiento óptimo.

El futuro del flujo XGPT y RAG

El equipo trabaja constantemente para mejorar el flujo de XGPT y RAG. Su visión para el futuro incluye:

Flujo RAG mejorado: Esto incluye simplificar el proceso de creación y mantenimiento de incrustaciones para toda la documentación de Twilio.
Detección automatizada de brechas en la documentación: XGPT puede ayudar a identificar las áreas en las que falta documentación y sugerir contenido adicional para llenar los vacíos.
Mitigación de las alucinaciones: El equipo está explorando nuevas técnicas para reducir aún más la aparición de alucinaciones en las respuestas del XGPT.

Luchando contra los límites de velocidad de OpenAI: trucos de ingeniería para un XGPT paralelo

El XGPT de Twilio, una potencia para los equipos de comercialización, se enfrentó a un obstáculo importante: los límites de velocidad de OpenAI. Al responder a las preguntas de forma iterativa, la versión inicial alcanzó rápidamente estos límites. La rotación de las claves de API ofrecía una solución temporal, pero el límite de velocidad organizacional de OpenAI resultó ser más difícil.

Para resolver este desafío, el primer paso del equipo fue utilizar las mejores prácticas de OpenAI para evitar los límites de velocidad y paralelizar las llamadas. Esto proporcionó una base sólida, pero era necesaria una mayor optimización. Los ingenieros de Twilio también idearon una solución inteligente: agrupar estratégicamente por lotes las llamadas a la API para que no pasaran desapercibidas para OpenAI. Esto implicaba agrupar cuidadosamente las preguntas y, al mismo tiempo, mantener la experiencia de usuario de la aplicación. Para mejorar aún más la eficiencia, los ingenieros asignaron pesos estratégicos a diferentes tareas. Esto garantizó que las preguntas críticas recibieran prioridad y, al mismo tiempo, permitió procesar las solicitudes menos urgentes.

Experimentando con LLM de código abierto

Si bien tanto ChatGPT como Llama son modelos de lenguaje poderosos, Twilio optó por Llama para su aplicación XGPT por varias razones clave:

Rentabilidad: Llama opera a un costo significativamente menor que ChatGPT, lo que lo convierte en una opción más económica para una tarea como la interpretación, que requiere un razonamiento y unos matices menos complejos.
Idoneidad de la tarea: La primera etapa de XGPT consiste en interpretar las preguntas de los usuarios. Esta es una tarea para la que Lama está bien preparado, ya que se destaca en la comprensión y traducción del significado del texto.
Evitar la dependencia de un proveedor: Twilio quiere evitar depender únicamente de un proveedor para sus necesidades de LLM. Al usar Llama junto con ChatGPT, tienen una opción de respaldo en caso de interrupciones o cambios en las políticas de OpenAI.

Al elegir Llama para la primera capa de interpretación, Twilio logró una solución rentable que cumplía con los requisitos de la tarea, al tiempo que diversificaba su uso de LLM y demostraba su compromiso con la comunidad de código abierto.

RFP Genie: Automatización de las respuestas a las RFP

RFP Genie es otra herramienta de IA generativa desarrollada por el equipo interno de Twilio. Automatiza el proceso de respuesta a las solicitudes de propuestas, lo que puede resultar una tarea tediosa y lenta para los equipos de GTM. RFP Genie puede:

Extraiga la información clave: Extraiga automáticamente la información y los requisitos clave de los documentos de RFP.
Genere respuestas: Genere respuestas completas y precisas a cada pregunta de la RFP, ahorrando a los equipos de GTM innumerables horas de trabajo.
Mantenga la coherencia: Asegúrate de que todas las respuestas sean coherentes con la marca y los mensajes de Twilio.

Flujo de trabajo para modelos de aprendizaje automático tradicionales

En la introducción, abordamos brevemente los modelos ML tradicionales que todavía se utilizan para GTM en Twilio, como Modelos de propensión y generación de leads.

El flujo de trabajo de los modelos de aprendizaje automático tradicionales aprovecha una potente combinación de herramientas y tecnologías:

Almacenamiento de datos: Los datos de los clientes se almacenan en varias bases de datos, incluidas Postgres y Airtable, según el modelo específico.
Entrenamiento modelo: Las canalizaciones de SageMaker se utilizan para entrenar los modelos de aprendizaje automático, lo que garantiza la escalabilidad y la eficiencia.
Gestión de equipos portátiles y canalizaciones de datos: Abacus proporciona una plataforma fácil de usar para administrar las canalizaciones de datos y los cuadernos, lo que simplifica el proceso de desarrollo del modelo.
Despliegue: Buildkite garantiza que se cumplan todos los requisitos de cumplimiento normativo antes de que los modelos se implementen en producción.

Lea nuestros blogs anteriores de la serie True ML Talks:

^‍

MLOps and LLMs Applications at Gitlab

Dive deep into MLOps practices at Gitlab, how ML and how LLMs is solving various usecases at GItlab both internally and for end to end customers.

TrueFoundry Blog TrueFoundry

Sigue viendo el TrueML serie youtube y leyendo la serie de blogs TrueML.

True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora