Empresa de Saúde da Fortune 100 entrega casos de uso de LLM

Permitindo que uma empresa de saúde da Fortune 100 entregasse mais de 30 casos de uso de LLM em menos de um ano

O cliente do estudo é uma empresa de saúde da Fortune 100 sediada nos EUA. Ela investe pesadamente em pesquisa de saúde e no uso de tecnologia de ponta. Dado seu enorme porte (mais de 50 mil funcionários), eles têm funções que vão de manufatura, pesquisa e gestão da cadeia de suprimentos até casos de uso internos como RH, operações, Customer Experience etc.

Dada a inclinação da empresa para ser uma early adopter de novas tecnologias, quando os LLMs foram lançados, a equipe foi à prancheta e identificou um conjunto de mais de 30 casos de uso com um potencial de impacto de mais de US$ 500 milhões por ano. Com esse objetivo ambicioso em mente, a equipe começou a assumir esses casos de uso e a construir sua stack central para IA generativa a fim de:

Entregar rapidamente casos de uso de LLM de alto impacto: Para desbloquear crescimento de receita e redução de custos em funções como pesquisa, customer experience, busca de documentos etc.
Permitir que as equipes reutilizem o trabalho umas das outras: Disponibilizando incrementalmente, a cada novo projeto, todos os ativos (data parsers, modelos, data features etc.) desenvolvidos por outras equipes. Isso garantiria que cada novo caso de uso construído levasse menos tempo que o anterior.

Além de levar o que há de mais avançado aos seus casos de uso, a equipe queria democratizar a IA para aumentar sua adoção. Ela queria viabilizar:

Deployment com 1 clique de regras de negócio e modelos existentes: Para que qualquer usuário possa começar a usar diretamente os modelos/regras que são implementados uma vez, sem a necessidade de um cientista de dados.

Uma visão de painel único para gerenciar todos os modelos implantados: As regulamentações de movimentação de dados forçavam a empresa a implantar modelos separadamente em cada região de presença. Isso criava um pesadelo de gestão para implantar e monitorar o desempenho desses modelos. A equipe queria simplificar esse processo para as equipes de ML e DevOps.

Com a colaboração entre a equipe do cliente e a TrueFoundry, conseguimos -

Alcançar uma redução de 60-80% no TTV dos casos de uso de LLM: Com acesso aos templates de casos de uso e à opção de implantar cada elemento do caso de uso (modelo/UI/DB/modelo de embedding/data parsers/splitters). Com um único clique, a equipe podia entregar o caso de uso em 1 semana.
Democratizar o uso da IA: A equipe conseguiu criar um marketplace pesquisável de todas as regras de negócio e modelos internos, a partir do qual qualquer usuário não ML também podia fazer inferências diretamente pela UI e obter resultados por e-mail.
Simplificar a gestão de modelos: A equipe conseguiu garantir que o ROI de negócio fosse entregue por seus modelos implantados, ao poder monitorar todos eles por meio de um painel único. Também conseguimos simplificar significativamente o processo de release e de atualização desses modelos.

Sobre o cliente

O cliente é uma grande empresa de saúde da Fortune 100 com uma história de mais de 100 anos. Eles têm presença em mais de 120 países e um impacto positivo significativo na saúde pública desses países. Eles têm um DNA de pesquisa intensa e se mantêm comprometidos em estar na vanguarda da tecnologia. Sua divisão de pesquisa e desenvolvimento emprega mais de 7.000 funcionários e gasta mais de US$ 10 bilhões.

O cliente já tinha várias equipes internas desenvolvendo casos de uso para diferentes verticais de negócio. Com o lançamento dos Large Language Models, a maioria das verticais foi à prancheta para reimaginar seus processos. A entrega desses casos de uso foi delegada à equipe de Data Science.

A equipe de Data Science era responsável por construir diferentes casos de uso e também o ferramental para tornar as equipes de Data Science de cada BU mais eficientes. É uma combinação única de atuação vertical e horizontal nesse grupo, que apresenta desafios e oportunidades interessantes.

Desbloqueando o potencial de negócio dos LLMs

Com mais de 30 casos de uso de LLM definidos pela equipe, os líderes perceberam que, sem construir capacidade adicional de IA generativa, levaria anos e dezenas de milhões de dólares antes de conseguirem executar todos esses casos de uso.

Esses casos de uso estavam distribuídos por vários domínios:

Pesquisa: Ajudando as equipes de pesquisa ao resumir artigos e papers, ajudando-as a se manterem atualizadas com os últimos desenvolvimentos e, em um nível avançado, ajudando até a conceber novas ideias de experimentos e a propor testes.
Bem-estar do cliente: Desenvolvendo aplicações que ajudavam a melhorar a experiência de seus clientes e aquelas voltadas às populações dos países em que atuam, ajudando a melhorar a saúde geral desses países. Isso incluía aplicações como o bot de perguntas e respostas para esclarecer dúvidas dos pacientes, gerar conteúdo educativo sobre administração de medicamentos e vacinas etc.
RH e operações internas: Ajudando a otimizar e automatizar processos como correspondência de currículos, perfilamento de candidatos, aquisição de talentos etc., que normalmente eram um processo manual extremamente demorado.

Reduzindo o Time to Value da Inteligência Artificial

A liderança da empresa identificou que, como havia várias verticais de negócio e várias equipes de Data Science operando dentro da empresa, muitas vezes uma equipe ficava sem enxergar o trabalho feito por outra equipe.

A transferência de conhecimento entre as equipes era escassa. Quando acontecia, a equipe que tentava construir sobre o trabalho de outra equipe tinha de enfrentar um enorme atraso antes de conseguir tornar o ativo (modelo/UI/lógica de negócio etc.) útil para sua equipe. Isso era causado por:

Descoberta limitada do trabalho feito entre as equipes: As equipes têm transferência de conhecimento limitada entre si e em relação aos ativos gerados em cada projeto.
Só a documentação não é suficiente: Muitas vezes, a documentação se torna redundante, incompleta e demora para ser lida e implementada. Isso introduz atrito quando as equipes querem reutilizar o trabalho umas das outras.
Dependência da equipe de engenharia para reutilização: Reutilizar o trabalho de alguém também significava envolver a equipe de engenharia no deployment dos modelos.
Reduzir o tempo para manter os modelos: Como a maioria dos modelos havia sido implantada separadamente em cada região em que a empresa opera, mantê-los (atualizações e mudanças) ou simplesmente monitorar se estavam funcionando

Explicando como os cientistas de dados tinham de consultar o desempenho do modelo em cada região manualmente — Gerenciar modelos implantados em diferentes regiões é difícil

A equipe havia iniciado o desenvolvimento em ambas as frentes

Quando a TrueFoundry começou a explorar uma parceria com a equipe, eles haviam começado a desenvolver ambos os seus objetivos. No entanto, após 3-4 meses de desenvolvimento, começaram a enfrentar alguns desafios:

Alguns casos de uso de LLM foram contratados com empresas de consultoria

A empresa já estava trabalhando com algumas das principais empresas de consultoria e implementação. Eles decidiram alocar alguns dos casos de uso a essas empresas e, para validar a ideia, começaram com 1 caso de uso. Alguns dos problemas que enfrentaram aqui foram:

Cada caso de uso custa de US$ 500 mil a US$ 1 milhão para a V1: A equipe entendeu que escalar esses casos de uso e refiná-los e mantê-los por essa via não escalaria até o nível de impacto que haviam imaginado.
Processo lento: O Time to Value de cada um dos casos de uso era de 3-4 meses; portanto, para 30 casos de uso, a equipe teria de esperar 2-3 anos ou gastar significativamente mais.
A construção de capacidade era limitada: Como o campo se atualiza todos os dias, a equipe percebeu que, sem fortalecer a capacidade da sua própria equipe, seria impossível manter a roda girando no longo prazo.

A equipe interna de ML também havia começado a construir outro caso de uso

A equipe interna de ML começou o desenvolvimento de um dos casos de uso por conta própria. No entanto, estava achando difícil acompanhar o ritmo em que os desenvolvimentos aconteciam no campo. Alguns de seus principais desafios eram:

Acesso limitado a APIs e ferramentas de terceiros: Qualquer coisa que exigisse enviar dados para fora estava além do escopo da equipe. Eles também não tinham suporte construído para algumas das ferramentas que simplificam o fine-tuning, o teste de modelos etc. e, portanto, precisavam descobrir esses componentes por conta própria.
Dependência de DevOps: Como o paradigma de LLM/GenAI do machine learning exigia a orquestração de infraestrutura em uma escala antes desconhecida pela equipe, eles enfrentavam muito atraso para conseguir criar suporte para qualquer novidade que surgisse no mercado.
A experimentação era restrita: pelos modelos que podiam ser suportados pela equipe de infraestrutura e, portanto, a equipe não sabia se estava na melhor qualidade possível que poderia ter sido alcançada. Além disso, enfrentavam atrasos ao tentar assumir tarefas mais complexas como o fine-tuning com LoRA etc.

O marketplace de IA generativa ficou reduzido apenas à descoberta, e não ao deployment de recursos

A equipe planejou construir uma espécie de marketplace de IA generativa, onde todas as equipes de ML pudessem publicar seu trabalho (modelos, data features, parsers, pré-processamento etc.). O marketplace tinha de hospedar:

Modelos de ML desenvolvidos internamente: Para treinamento e deployment incrementais fáceis
Ativos de LLM: Para ajudar a desenvolver aplicações de LLM de ponta a ponta com modelos, DBs, UI etc.
Modelos base: Incluindo LLMs, modelos de regressão, de séries temporais etc.
Utilitários de código: Data loaders, parsers etc.
Apps: Aplicações internas totalmente funcionais para diferentes casos de uso

Marketplace de IA generativa com: Modelos de ML desenvolvidos internamente: para treinamento e deployment incrementais fáceis; Ativos de LLM: para ajudar a desenvolver aplicações de LLM de ponta a ponta com modelos, DBs, UI etc.; Modelos base: incluindo LLMs, regressão, modelos de séries temporais etc.; Utilitários de código: data loaders, parsers etc.; Apps: aplicações internas totalmente funcionais para diferentes casos de uso — A visão da equipe para o marketplace de IA generativa

No entanto, quando a equipe iniciou o desenvolvimento do projeto, percebeu que levaria muito tempo para construir a camada de orquestração subjacente que pudesse concretizar sua visão:

Implantar modelos era difícil: A menos que os modelos fossem implantados à medida que eram desenvolvidos, era muito difícil garantir os mesmos níveis de desempenho.
Modelos/serviços não eram dockerizados: Não era prática comum dockerizar os modelos, e os cientistas de dados relutavam em realizar quaisquer etapas adicionais.
Orquestrar a infraestrutura era complicado: Exigia cuidar do escalonamento de GPU, do auto-scaling e da garantia de confiabilidade

Por isso, a equipe decidiu que manteria o marketplace apenas para permitir que as equipes descobrissem o trabalho umas das outras. Decidiram remover a executabilidade, que era um dos recursos centrais, da versão inicial do marketplace

A equipe queria entregar as regras de negócio como uma biblioteca Python

No entanto, perceberam que essa abordagem não funcionaria porque:

Comprometeria a descoberta: Sem criar uma interface para ela,
O controle de versão dessas regras seria impossível: Como essas regras seriam executadas nas máquinas locais dos usuários, garantir que todos os usuários tivessem a mesma versão da biblioteca seria impossível, especialmente se uma correção/mudança fosse feita, diferentes usuários estariam usando versões diferentes dela.

A empresa decidiu co-construir sua stack de IA com a TrueFoundry

Dois casos de uso de LLM de alto valor foram entregues em menos de 3 meses

A equipe do cliente decidiu desenvolver 2 casos de uso de alto valor usando o módulo de LLM da plataforma TrueFoundry. Esses casos de uso eram os seguintes:

Sumarização de relatórios de mercado

Uma equipe interna costumava analisar diferentes relatórios de inteligência de mercado e gerar um relatório-resumo. Essa atividade semanal significava:

Centenas de horas gastas a cada mês
Cobertura limitada das informações disponíveis

A equipe queria criar uma solução baseada em LLM que pudesse resumir esses relatórios e fornecer uma interface de perguntas e respostas com eles:

Solução proposta para resumir relatórios de mercado

Chatbot de inteligência sobre vacinas

Por meio desse caso de uso, a empresa queria conseguir aumentar a conscientização sobre vacinas desenvolvendo um chatbot de perguntas e respostas capaz de pesquisar nos documentos disponíveis sobre a administração de vacinas e esclarecer quaisquer dúvidas que um paciente possa ter.

Aumentar as taxas de vacinação: Por meio desse caso de uso, a empresa tentava esclarecer quaisquer receios que uma pessoa que vai se vacinar possa ter devido às fake news que muitas vezes estão associadas às vacinas e que criam estigma em torno delas.

A TrueFoundry ajudou a reduzir o tempo de entrega para 1/5 da estimativa inicial

Construir o caso de uso exige reunir vários componentes. Fornecemos à equipe um template para montar partes do pipeline de RAG (Retrieval Augmented Generation). Isso incluía componentes como:

Deployment de LLM open source: Implantar modelos como LLaMA 2, Bloom etc. junto com diferentes versões quantizadas dos modelos
Fine-tuning de modelos: Ajudamos a equipe a simplesmente conectar suas fontes de dados e disparar execuções de fine-tuning em configurações de infraestrutura otimizadas.
Microservice de carregamento, divisão e chunking de dados: Para dividir os dados em chunks lógicos antes do embedding
Serviço de backend: Para aceitar a consulta do usuário e retornar a resposta
Modelo de embedding: Para converter os chunks de texto em seus vetores representativos
Banco de dados vetorial: Para armazenar os chunks de dados vetorizados
Deployment do modelo final: Implantar o modelo final de forma escalável

Fluxo de trabalho para desenvolver um sistema de RAG — Fluxo de trabalho do caso de uso de RAG

A TrueFoundry impulsionou o marketplace de IA da empresa

A TrueFoundry atuou como o trilho que impulsiona o marketplace interno. Para viabilizar isso, ajudamos a equipe a:

Iniciar os componentes do marketplace: com ativos prontos para uso fornecidos pela TrueFoundry
Implementar uma arquitetura de inferência assíncrona: Isso garantiu que nenhuma requisição fosse perdida e que o mesmo endpoint de API pudesse atender a requisições que levavam tempos diferentes para responder (mais de 10-15 min se o dataset for enorme)
Configurar pipelines de casos de uso, como o pipeline de RAG: Com todos os componentes como data parsers, lógica de chunking, modelos etc. disponíveis para as equipes, a equipe podia replicar facilmente o que fez com o Vaccine Intelligence e a sumarização de relatórios para qualquer novo caso de uso em menos de 1 mês
Adicionar descoberta por meio da UI: Fornecemos à equipe APIs construídas sobre os deployments e jobs da TrueFoundry, que eles integraram com uma UI para tornar a inferência a partir de qualquer modelo ou o deployment de qualquer componente algo de um único clique para as equipes, sem necessidade de ler documentação.

“A TrueFoundry atuou como parceira ao nos permitir desbloquear capacidades de LLMOps em escala. A equipe fez um trabalho extra para dar suporte a qualquer novo modelo de que precisássemos. Hoje, podemos dizer com orgulho que somos líderes em nosso espaço no uso de LLMs. A equipe da TrueFoundry nos ofereceu um modelo inédito de ‘product team as a service’, trazendo habilidades difíceis de encontrar potencializadas pela plataforma. Em áreas de tecnologia em constante mudança como a Gen AI, a TrueFoundry ofereceu às empresas um mecanismo de engajamento de baixo risco e alta recompensa.”

- Global Head of Data Science

Usuários de negócio conseguem fazer inferências a partir das regras de negócio sem atritos

Todas as lógicas de negócio foram empacotadas em uma API executada no servidor de nuvem usando a TrueFoundry. Garantimos que essa API fosse estruturada de forma semelhante a uma biblioteca Python para facilitar o uso. Isso permitiu que houvesse:

Nenhum problema de gestão de versão
Execução simples por meio da UI
Notificações por e-mail quando os resultados estivessem disponíveis

A TrueFoundry é o painel único para todos os modelos implantados

Todos os diferentes clusters regionais estão conectados à TrueFoundry. Eles podem visualizar e gerenciar todos esses modelos a partir de um único control plane. — A TrueFoundry ajudou a equipe a gerenciar modelos implantados em diferentes clusters

‍

Interagir com a TrueFoundry para monitorar, atualizar e lançar modelos em diferentes regiões ajudou a equipe a:

Reduzir o tempo de deployment dos modelos em 60-80%
Melhorar o ROI dos modelos ao monitorar seu desempenho

Caminho a seguir

À medida que a parceria entre as duas empresas avança, aprendemos muito sobre problemas práticos que podem surgir em uma equipe de ML dessa escala. Conseguimos testar a plataforma em condições reais enquanto também desenvolvemos recursos novos e mais maduros. Juntos, estamos determinados a construir uma tecnologia de última geração que permita às equipes de Data Science focar apenas em entregar valor por meio de casos de uso de ML, sem nunca precisar orquestrar infraestrutura ou perder tempo em tarefas de engenharia.

The fastest way to build, govern and scale your AI

Book a Demo

Enabling a Fortune 100 Healthcare Company to ship 30+ LLM use cases in less than a year

30+

4 a 5 vezes menor

Permitindo que uma empresa de saúde da Fortune 100 entregasse mais de 30 casos de uso de LLM em menos de um ano

Sobre o cliente

Desbloqueando o potencial de negócio dos LLMs

Reduzindo o Time to Value da Inteligência Artificial

A equipe havia iniciado o desenvolvimento em ambas as frentes

Alguns casos de uso de LLM foram contratados com empresas de consultoria

A equipe interna de ML também havia começado a construir outro caso de uso

O marketplace de IA generativa ficou reduzido apenas à descoberta, e não ao deployment de recursos

A equipe queria entregar as regras de negócio como uma biblioteca Python

A empresa decidiu co-construir sua stack de IA com a TrueFoundry

Dois casos de uso de LLM de alto valor foram entregues em menos de 3 meses

Sumarização de relatórios de mercado

Chatbot de inteligência sobre vacinas

A TrueFoundry ajudou a reduzir o tempo de entrega para 1/5 da estimativa inicial

A TrueFoundry impulsionou o marketplace de IA da empresa

Usuários de negócio conseguem fazer inferências a partir das regras de negócio sem atritos

A TrueFoundry é o painel único para todos os modelos implantados

Caminho a seguir

Opere seu Pipeline de ML desde o Dia 0

Recursos

Por que TrueFoundry?

Enabling a Fortune 100 Healthcare Company to ship 30+ LLM use cases in less than a year

30+

4 a 5 vezes menor

Permitindo que uma empresa de saúde da Fortune 100 entregasse mais de 30 casos de uso de LLM em menos de um ano

Sobre o cliente

Desbloqueando o potencial de negócio dos LLMs

Reduzindo o Time to Value da Inteligência Artificial

A equipe havia iniciado o desenvolvimento em ambas as frentes

Alguns casos de uso de LLM foram contratados com empresas de consultoria

A equipe interna de ML também havia começado a construir outro caso de uso

O marketplace de IA generativa ficou reduzido apenas à descoberta, e não ao deployment de recursos

A equipe queria entregar as regras de negócio como uma biblioteca Python

A empresa decidiu co-construir sua stack de IA com a TrueFoundry

Dois casos de uso de LLM de alto valor foram entregues em menos de 3 meses

Sumarização de relatórios de mercado

Chatbot de inteligência sobre vacinas

A TrueFoundry ajudou a reduzir o tempo de entrega para 1/5 da estimativa inicial

A TrueFoundry impulsionou o marketplace de IA da empresa

Usuários de negócio conseguem fazer inferências a partir das regras de negócio sem atritos

A TrueFoundry é o painel único para todos os modelos implantados

Caminho a seguir

Opere seu Pipeline de ML desde o Dia 0

Recursos

Por que TrueFoundry?

Assine nossa newsletter