True ML Talks #1 - Fluxo de Trabalho de Machine Learning @ Gong

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Hoje, TrueFoundry está lançando uma Série de Aprofundamento em Machine Learning, onde conversamos com líderes de ML e Ciência de Dados de empresas que utilizam ML para aprofundar nos casos de uso e fluxos de trabalho de ML dentro de suas organizações. Como parte desta série, abordaremos e aprofundaremos na pilha de ML de empresas como Gong, StichFix, SalesForce, Gusto, Simpl, e muitas outras.
📌
Nesta série, mergulhamos no mundo do Machine Learning para desvendar o espectro de aplicações de ML e configurações de infraestrutura em diversas indústrias.
Nossas conversas girarão em torno de quatro temas principais:
1. Casos de uso de Machine Learning para o negócio
2. Como eles construíram sua pilha de Machine Learning, incluindo o Pipeline de Treinamento e Experimentação, Implantação e Servimento, Monitoramento, e como os otimizaram para Custo/Latência ao longo do caminho
3. Desafios enfrentados na construção da pilha de ML, com desafios específicos relacionados à indústria
4. Uma visão geral das inovações de ponta aplicadas durante o processo de construção e escalonamento da infraestrutura de ML.
Para iniciar a primeira discussão da série, conversamos com Noam Lotner da Gong. A Gong é uma plataforma de Inteligência de Receita. Ela permite que as equipes de Receita alcancem seu potencial máximo, revelando a realidade do cliente a partir das conversas da equipe de receita. A Gong analisa as interações com o cliente por telefone, e-mail, web, etc., para fornecer os melhores insights para as equipes de receita, para que elas possam usá-los para fechar mais negócios.
Noam Lotner é Líder da Equipe de Operações de Pesquisa na Gong. Ele está construindo a plataforma operacional para o grupo de pesquisa de IA/ML – automatizando processos de lançamento de modelos, gerenciamento de experimentos e testes de desempenho, construindo ferramentas de rotulagem e criação de conjuntos de dados, e permitindo acesso seguro a fontes de dados de produção.
Confira nossa conversa abaixo:
Por que o ML é Importante para a Gong: Uma Plataforma de Inteligência de Vendas
A Gong analisa as interações com o cliente por telefone, e-mail, web, etc. O Machine Learning se torna ainda mais essencial para analisar as interações de vendas e fornecer insights às Equipes de Receita. Algoritmos de ML podem automatizar tarefas que antes eram feitas manualmente, como análise de videochamadas, transcrição e análise de chamadas telefônicas de vendas. Isso economiza tempo e melhora a eficiência do processo de vendas.
- Pipeline de análise de videochamadas → Para analisar chamadas, a equipe processa o vídeo, classifica os quadros e realiza algum processamento em certos tipos de segmentos de vídeo.
- Pipeline de Análise de Transcrição de Áudio → A voz recebe transcrição automática, juntamente com outro pipeline que envolve vários modelos, verificando onde está a fala, detectando qual orador fala em que momento, juntamente com o conteúdo da conversa.
- Pipeline Baseado em PNL de Texto → Existe um pipeline para extrair informações dos slides e notas de chamada. Para e-mails, é utilizado um pipeline diferente de processamento de PNL, mensagens e comentários.
Como esses Modelos são segmentados entre os Clientes
Embora esta seja uma pergunta que fizemos à Gong, vemos que invariavelmente todas as empresas SaaS:
- Modelos comuns a todos os clientes: Existem alguns modelos, como os Modelos ASR, que fazem o reconhecimento automático da fala. Isso ajuda na padronização do serviço e na manutenção da consistência em toda a plataforma
- Modelos exclusivos para cada cliente: No caso de startups SaaS, especialmente no caso de uma plataforma de inteligência de vendas como a Gong, cada modelo precisa ser único. Isso é feito para garantir a privacidade e segurança dos dados, bem como para oferecer customização ou personalização, treinando o modelo no conjunto de dados do cliente. Isso apresenta dois desafios: o fornecimento e a privacidade dos dados. Como a Gong permite que os clientes treinem os modelos com base em seus próprios dados, eles precisam expor Interfaces de ML em sua plataforma, e, portanto, a segregação de dados para cada cliente se torna um desafio.
📌
Número de modelos: Número de Clientes X Tipos de Modelos
📌
"Usamos o mesmo modelo base para todos. Também permitimos que os clientes realizem o treinamento de modelos específicos para o seu próprio conteúdo."
Para otimizar custos, a Gong utiliza o serviço de múltiplos modelos na camada de inferência, já que executar modelos separados em máquinas separadas resultaria em um sistema de alto custo.
Aqui está um blog detalhado da Gong que aborda o uso de ML em vendas B2B
Fluxo de Trabalho do Sistema de ML na Gong
Na Gong, o sistema de ML é estruturado de acordo com a organização de ML.
- Pesquisa: Existe um ambiente separado para pesquisa. A equipe trabalha separadamente - obtém os dados, realiza o treinamento, finaliza o treinamento, lança o modelo, e então o modelo é enviado para o pipeline de implantação, gerenciado pela engenharia.
- Implantação em Produção (parte da Engenharia): O modelo treinado é implantado em produção pela equipe de Engenharia.
Neste blog (e também na série de chats), vamos aprofundar nos desafios da infraestrutura do lado da Pesquisa para a Gong
Como é configurado o Fluxo de Trabalho do Pesquisador de ML na Gong?

- Fase de Teste Básico: Pesquisadores pegam dados e treinam em suas próprias máquinas ou usando VMs, puxando dados da Produção para suas máquinas
- Fase de Automação: Assim que o modelo é finalizado, um pipeline automático é criado para processar os dados, a fim de disponibilizar a grande quantidade de dados para o pesquisador.
Para permitir que os pesquisadores iniciem máquinas facilmente, toda a pilha é configurada sobre o Kubernetes para a Infraestrutura de Pesquisa. A maioria dos modelos na equipe de pesquisa não utiliza recursos online.
Nuvem: A maior parte da infraestrutura está na AWS e também trabalha com outros fornecedores de nuvem em uma capacidade um pouco menor.
Gerenciamento de infraestrutura: os pipelines estão, na verdade, executando os modelos especificamente para cada cliente. Há uma máquina que é ativada e lida com todas as chamadas dessa empresa.
Outros Desafios que tornam o ML um Problema complexo de resolver na Gong
- Custo: Já abordamos isso acima, o custo é um grande desafio para a Gong, pois uma enorme quantidade de dados é necessária para treinar e depois retreinar o modelo. Os conjuntos de dados de fala são muito grandes (algumas centenas de horas de fala se traduzem em algumas centenas de gigabytes de dados). Os conjuntos de dados de PNL são menores em tamanho, mas podem ter muitas linhas. Como a pesquisa é separada da produção, isso permite que a equipe de pesquisa seja flexível com a quantidade de dados a ser usada no treinamento do modelo. A equipe de pesquisa está trabalhando para otimizar a quantidade de dados a ser usada no treinamento.
- Simplificando a Plataforma de ML: Um aspecto importante da simplificação do processo é, na verdade, ocultar a complexidade de selecionar o tipo de dados a ser usado para treinamento, com o controle de acesso adequado, por trás das ferramentas.
É feito de forma diferente para diferentes fontes de dados. No caso de um grande número de bancos de dados (cada um contendo um tipo diferente de informação, e cada um acessível de forma diferente), muito trabalho é feito na criação de pipelines seguros que permitem que apenas pessoas autorizadas usem os dados e criem um registro de quem acessou os dados e para qual finalidade. Isso também inclui permitir que os pesquisadores combinem e comparem resultados de diferentes fontes de dados. - Segurança e Privacidade dos Dados: Uma das principais preocupações da Gong é a segurança e a privacidade, ou seja, garantir que não haja vazamentos e que ninguém sem autoridade possa acessar os dados, e que nenhum cliente receba dados de outro cliente. Isso é muito complicado devido à grande quantidade de dados.
Como a Gong resolveu: Armazenando os dados em locais seguros e tendo cada ponto de dados anotado, e com direitos de acesso, de acordo com o ID do locatário do cliente. O acesso é controlado por mecanismos de credenciais, e tudo o que pode ser automatizado é automatizado. - Garantindo que não há como os dados de 1 cliente alimentarem outro modelo - Ao usar um modelo de linguagem grande, é possível inferir algo de um cliente, e outro cliente obter informações privadas. Isso é algo que precisa ser levado em consideração.
- O Retreinamento Automático não é fácil: O retreinamento é feito apenas quando há um método realmente bem estabelecido para realizar todas as etapas do pipeline. É muito raro. Os esforços de retreinamento dependem do tipo de modelo, por exemplo, no caso de um modelo de reconhecimento de fala para um idioma específico, é bastante fácil fazer o retreinamento com os mesmos parâmetros em novos dados.
A atualização de dados também altera muito do conteúdo e também exige que um pesquisador faça alguma pesquisa novamente para garantir que o novo modelo esteja realmente performando melhor do que o que tínhamos antes.
Mais Reflexões de Noam
Kubernetes é o caminho a seguir
Tudo o que é feito na equipa de Pesquisa está agora a ser migrado para Kubernetes. Parte do trabalho do Noam é ajudar a sua equipa a obter acesso automático a recursos da cloud Kubernetes. É atualmente um esforço contínuo.
📌
"Eu recomendaria a qualquer pessoa que esteja a entrar nisto que, bem no início da sua jornada, precisa de pensar em escala e precisa de pensar em como o seu grupo vai funcionar"
"Penso que a maioria dos sistemas MLOps exige Kubernetes para gerir os recursos. Não vejo nenhuma plataforma no futuro que possa fazer algo relacionado com MLOps sem usar Kubernetes"
Alguns pontos importantes a considerar:
- A escala para zero é realmente importante em termos de gestão de custos. É um enorme rombo nos custos ter máquinas ativas e sem fazer nada.
- O sistema precisa de ser ágil para lidar com questões de segurança e privacidade de forma eficiente. Os dados precisam de permanecer onde estão e é preciso levar o código até lá.
MLOps: Construir vs Comprar
📌
"A minha perspetiva é que na Gong foi necessário construir esta plataforma"
- Ao construir, comece com Kubernetes, que é uma plataforma escalável e flexível.
- Configure todos os sistemas para que esteja pronto para a separação de inquilinos e pronto para aplicar o RGPD, e se alguém quiser apagar os dados, precisa de apagar os dados.
- Pensar em escala desde cedo é muito importante. Torne a sua infraestrutura ágil e flexível, certifique-se de que tem capacidades de escalonamento, e pode implementar e ativar quantas máquinas quiser quando precisar delas. Mas faça com que sejam desativadas assim que estiverem inativas.
Segurança, Segurança, Segurança
Nada pode ser mais importante para uma empresa SaaS do que a segurança. O pipeline de ML deve priorizar a segurança devido à privacidade dos dados ao lidar com dados sensíveis de clientes, bem como para controlar o acesso não autorizado.
Esperamos que a 1ª série de artigos do blog TrueML Talks tenha conseguido fornecer-lhe informações valiosas sobre como pode pensar em construir a sua Infraestrutura de Pesquisa de Machine Learning para impulsionar as suas Equipas de ML. #MLOps #MachineLearning #DataScience #DevOps #ModelOps #AIInfrastructure
Leia os nossos novos artigos do blog da série
Aceda ao nosso segundo episódio dos TrueML talks, onde conversamos com o Líder de Plataforma da Stitch. Continue assistindo aos TrueML série do YouTube e encontre todos os episódios da série de blog TrueML aqui -
TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, ao mesmo tempo que lhes permite total flexibilidade no teste e implantação de modelos, garantindo total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as Equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos - permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI














.webp)






.webp)

.webp)
.webp)





.png)



