TrueML Talks #25 - IA Generativa e LLMOps para GTM @ Twilio

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Estamos de volta com mais um episódio de True ML Talks. Neste, mergulhamos novamente em aplicações de MLOps e LLMs na GitLab e conversaremos com Pruthvi Shetty.

Pruthvi é um Cientista de Dados Sênior na Twilio. Antes disso, ele também liderava a área de ML para a SAP, bem como uma startup chamada ZapLabs, que foi adquirida pela Anywhere RE. Na Twilio, Pruthvi lidera os esforços de IA Generativa para a Twilio, e vamos nos aprofundar nisso hoje.

📌

Nossas conversas com Pruthvi abordarão os seguintes aspectos:
- Aplicações e casos de uso de ML e IA Generativa relacionados a GTM
- XGPT: A Potência da Twilio para Equipes de Go-to-Market
- Lidando com os Limites de Taxa da OpenAI
- Experimentando com LLMs de Código Aberto
- RFP Genie: Automatizando Respostas a RFPs
- Fluxo de Trabalho para Modelos de ML Tradicionais

Assista ao episódio completo abaixo:

Utilizando a IA para Equipes de Go-To-Market

A Twilio tem um longo histórico de utilização de aprendizado de máquina (ML) e ciência de dados para otimizar seus produtos e serviços. No entanto, os avanços recentes em Inteligência Artificial Generativa (GenAI) abriram novas oportunidades para aprimorar ainda mais a forma como as equipes de GTM operam.

ML Tradicional para GTM

Embora a IA Generativa seja uma ferramenta poderosa, a Twilio não abandonou suas raízes tradicionais em ML. A empresa continua a usar ML para diversas tarefas de GTM, como:

Modelos de propensão: Preveem a probabilidade de um cliente se converter num utilizador pagante.
Modelos de venda cruzada: Recomendam produtos adicionais a clientes existentes com base nos seus dados de utilização.
Modelos de upsell: Recomendam atualizações para níveis de serviço superiores a clientes existentes com base nos seus dados de utilização.
Modelos de geração de leads: Identificam potenciais novos clientes que provavelmente estarão interessados nos produtos da Twilio.

GenAI para GTM

A Twilio reconheceu o potencial da GenAI desde cedo e estabeleceu uma equipa dedicada para explorar as suas aplicações. Esta equipa construiu um conjunto de ferramentas alimentadas por GenAI especificamente para equipas de GTM, incluindo:

XGPT: Esta ferramenta versátil permite às equipas de GTM gerar conteúdo de divulgação personalizado, como e-mails, poupando tempo e esforço significativos. Também lida com as questões dos clientes, processando um notável número de 15.000 perguntas por mês, demonstrando a sua capacidade de gerir grandes volumes de interações.
FlexGPT e SegGPT: Adaptados a produtos específicos, estes modelos de IA geram documentação abrangente e precisa para Flex e Segment, garantindo que os utilizadores tenham informações prontamente disponíveis.
RFP Genie: Esta ferramenta transformadora aborda a tarefa tediosa de responder a perguntas de RFP. Ao processar as questões com 90% de precisão, reduz o tempo de conclusão de semanas para minutos, libertando recursos valiosos para as equipas de GTM.

XGPT: A Potência da Twilio para Equipas Go-to-Market

A Twilio reconheceu o potencial da Inteligência Artificial Generativa (GenAI) desde cedo e construiu uma equipa dedicada para explorar as suas aplicações. Esta equipa, liderada por Pruthvi, desenvolveu um conjunto de ferramentas alimentadas por GenAI especificamente para equipas de GTM. Uma das principais ferramentas que construíram é o XGPT.

O XGPT foi desenvolvido em resposta a dois problemas com a utilização de modelos de GenAI publicamente disponíveis como o ChatGPT:

Segurança e Privacidade: Modelos públicos são treinados com base em dados compartilhados publicamente, o que levanta preocupações de segurança e privacidade para as informações internas da Twilio.
Personalização Limitada: Modelos públicos não podem incorporar o conhecimento interno específico da Twilio, como informações de lançamento de produtos, estratégias de vendas e posicionamento da concorrência.

O XGPT abordou essas questões da seguinte forma:

Aproveitando os dados da Twilio: Treinado com base em informações internas como lançamentos de produtos, estratégias de vendas e análise da concorrência, o XGPT oferece insights relevantes para funções e situações específicas.
Garantindo a privacidade dos dados: O XGPT utiliza a API privada da Twilio, garantindo que os dados permaneçam seguros e indisponíveis para treinamento externo.

Nós o temos há cerca de 4 a 5 meses. Atualmente, estamos respondendo a cerca de 15.000 perguntas por mês, e vimos um aumento muito bom no número de usuários avançados de nossos aplicativos. Esse tem sido o XGPT até agora.
- Pruthvi

Funcionalidade e Impacto do XGPT

O XGPT é uma plataforma segura e personalizável que:

Responde a perguntas: Ele fornece respostas a consultas de usuários com base em uma vasta base de conhecimento de documentos internos e externos da Twilio.
Gera conteúdo: Ele ajuda os usuários a criar conteúdo de divulgação e e-mails personalizados com base em conversas com clientes.
Melhora a eficiência de GTM: Ele capacita as equipes de GTM com informações prontamente disponíveis sobre os produtos, concorrentes e estratégias de vendas da Twilio, levando a um aumento da produtividade e a uma melhor experiência do cliente.

Arquitetura Técnica do XGPT

O XGPT não é apenas um modelo, mas um conjunto de produtos, cada um adaptado para funções e necessidades específicas de GTM. Esses produtos incluem o FlexGPT para representantes de atendimento ao cliente e o SegGPT para tarefas de segmentação.

Um fluxo RAG personalizado reúne todas as informações relevantes para o XGPT, incluindo dados públicos e privados.. Esta informação provém de várias fontes, tais como sistemas de gestão de conteúdo, documentos internos, transcrições de chamadas, notas do Salesforce e documentação do produto.

Embeddings offline são usados para o FlexGPT e outras aplicações, criados usando ferramentas como Space e Chroma. Ajustes personalizados garantem escalabilidade e controle. Além do texto, o XGPT também compreende dados de áudio e visuais através de embeddings multimodais. Whisper transcreve demonstrações de produtos, enquanto um modelo de visão extrai informações de gráficos e diagramas. Esses embeddings são então convertidos em embeddings de Face, permitindo que o XGPT os ligue a fontes relevantes nas suas respostas.

O processamento principal do LLM é feito por OpenAI API. Em casos específicos, como RFPs, Llama é usado para interpretação. Estratégias de paralelização e processamento em lote otimizam o processamento e evitam limites de taxa. Uma camada de interpretação filtra e contextualiza as perguntas antes de as alimentar ao LLM. O XGPT fornece links para a documentação relevante para cada resposta, permitindo que explore mais a fundo.

Heroku hospeda as aplicações, garantindo estabilidade e desempenho. Docker containers permitem fácil implementação e escalabilidade. Os dados são armazenados de forma segura em Postgres. Airtable acompanha perguntas e feedback, melhorando constantemente a funcionalidade do XGPT. CloudWatch monitora métricas para um desempenho ideal.

Futuro do XGPT e do fluxo RAG

A equipe está constantemente trabalhando para melhorar o XGPT e o fluxo RAG. Sua visão para o futuro inclui:

Fluxo RAG aprimorado: Isso inclui simplificar o processo de criação e manutenção de embeddings para toda a documentação da Twilio.
Detecção Automatizada de Lacunas na Documentação: O XGPT pode ajudar a identificar áreas onde a documentação é deficiente e sugerir conteúdo adicional para preencher as lacunas.
Mitigação de Alucinações: A equipe está explorando novas técnicas para reduzir ainda mais a ocorrência de alucinações nas respostas do XGPT.

Combatendo os Limites de Taxa da OpenAI: Truques de Engenharia para um XGPT Paralelo

O XGPT da Twilio, uma ferramenta poderosa para equipes de go-to-market, enfrentou um obstáculo significativo: os limites de taxa da OpenAI. Respondendo a perguntas de forma iterativa, a versão inicial rapidamente atingiu esses limites. A rotação de chaves de API ofereceu uma solução temporária, mas o limite de taxa organizacional da OpenAI se mostrou mais desafiador.

Para resolver esse desafio, o primeiro passo da equipe foi utilizar as melhores práticas da OpenAI para evitar limites de taxa e paralelizar chamadas. Isso forneceu uma base sólida, mas otimizações adicionais eram necessárias. Os engenheiros da Twilio também desenvolveram uma solução inteligente: agrupar estrategicamente chamadas de API para passar despercebido pelo radar da OpenAI. Isso envolveu agrupar cuidadosamente as perguntas, mantendo a experiência do usuário do aplicativo. Para melhorar ainda mais a eficiência, os engenheiros atribuíram pesos estratégicos a diferentes tarefas. Isso garantiu que as perguntas críticas recebessem prioridade, ao mesmo tempo em que permitia que solicitações menos urgentes fossem processadas.

Experimentando com LLM de Código Aberto

Embora tanto o ChatGPT quanto o Llama sejam modelos de linguagem poderosos, a Twilio optou pelo Llama para sua aplicação XGPT por algumas razões principais:

Custo-Benefício: O Llama opera a um custo significativamente menor do que o ChatGPT, tornando-o uma escolha mais econômica para uma tarefa como interpretação, que exige raciocínio e nuances menos complexos.
Adequação da Tarefa: A primeira fase do XGPT envolve a interpretação das perguntas dos usuários. Esta é uma tarefa para a qual o Lama é bastante adequado, pois ele se destaca na compreensão e tradução do significado de textos.
Evitando a Dependência de Fornecedor Único: A Twilio quer evitar depender exclusivamente de um único fornecedor para as suas necessidades de LLM. Ao usar o Llama juntamente com o ChatGPT, eles têm uma opção de backup em caso de interrupções ou mudanças nas políticas da OpenAI.

Ao escolher o Llama para a primeira camada de interpretação, a Twilio alcançou uma solução econômica que atendeu aos requisitos da tarefa, ao mesmo tempo em que diversificava o uso de LLM e demonstrava o seu compromisso com a comunidade de código aberto.

RFP Genie: Automatizando Respostas a RFPs

O RFP Genie é outra ferramenta de IA generativa desenvolvida pela equipe interna da Twilio. Ele automatiza o processo de resposta a RFPs, o que pode ser uma tarefa demorada e tediosa para as equipes de GTM. O RFP Genie pode:

Extrair informações principais: Extrair automaticamente informações e requisitos principais dos documentos de RFP.
Gerar respostas: Gerar respostas abrangentes e precisas para cada pergunta da RFP, poupando às equipes de GTM inúmeras horas de trabalho.
Manter a consistência: Garantir que todas as respostas sejam consistentes com a marca e a mensagem da Twilio.

Fluxo de Trabalho para Modelos Tradicionais de ML

Na Introdução, abordamos brevemente os Modelos Tradicionais de ML ainda utilizados para GTM na Twilio, como Modelos de Propensão e Geração de Leads.

O fluxo de trabalho dos Modelos Tradicionais de ML aproveita uma poderosa combinação de ferramentas e tecnologias:

Armazenamento de Dados: Os dados dos clientes são armazenados em vários bancos de dados, incluindo Postgres e Airtable, dependendo do modelo específico.
Treinamento do Modelo: Os pipelines do SageMaker são usados para treinar os modelos de ML, garantindo escalabilidade e eficiência.
Pipelines de Dados e Gerenciamento de Notebooks: A Abacus oferece uma plataforma amigável para gerenciar pipelines de dados e notebooks, simplificando o processo de desenvolvimento de modelos.
Implantação: O Buildkite garante que todos os requisitos de conformidade regulatória sejam atendidos antes que os modelos sejam implantados em produção.

Leia nossos blogs anteriores da série True ML Talks:

^‍

MLOps and LLMs Applications at Gitlab

Dive deep into MLOps practices at Gitlab, how ML and how LLMs is solving various usecases at GItlab both internally and for end to end customers.

TrueFoundry Blog TrueFoundry

Continue assistindo à série TrueML no YouTube e lendo a série de blogs TrueML.

TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo em que garante total segurança e controle para a equipe de Infraestrutura. Através de nossa plataforma, capacitamos as equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos - permitindo-lhes economizar custos e lançar modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now