O Meio Confuso: Do IVR aos Sistemas de IA Híbrida

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

1. O Problema da Transição – Por Que Sistemas Antigos Falham e LLMs Ainda Não Estão “Prontos”

Por décadas, as empresas confiaram em sistemas de Resposta de Voz Interativa (IVR) baseados em regras para gerenciar chamadas de clientes. Esses sistemas foram projetados para oferecer eficiência: guiar os chamadores por menus, reconhecer algumas palavras-chave e encaminhá-los para a equipe ou roteiro certo. Em pequena escala, isso funcionava. Mas em uma empresa que atende centenas de milhões de chamadas anualmente, essas limitações tornam-se dolorosamente claras. Os clientes não seguem roteiros. Eles falam em linguagem natural, fluida e imprevisível - às vezes emocional, às vezes técnica, às vezes impaciente. Sistemas baseados em regras simplesmente não foram construídos para lidar com solicitações tão diversas.

O resultado? Altas taxas de abandono de chamadas, clientes frustrados e danos significativos à marca. Empresas que tentam encaixar à força conversas humanas em árvores de decisão rígidas ficam com tempos de resolução mais longos, maiores taxas de transferência para agentes e custos operacionais crescentes. Pior ainda, a experiência do cliente sofre de maneiras que afetam diretamente a retenção e a receita. A análise da indústria relatou que em 2021 a classificação geral de Csat do autoatendimento IVR foi de 75%, e a classificação geral de Csat da Navegação IVR foi de apenas 53%! [link]

Ao contrário dos sistemas baseados em regras, Sistemas Agentivos baseados em LLM podem analisar a intenção, adaptar-se ao contexto e responder em linguagem natural, semelhante à humana. Em teoria, eles podem lidar com a fluidez de conversas reais em escala. Eles representam a mudança de patamar tão esperada: não apenas automatizando o roteamento de chamadas, mas envolvendo os clientes de uma forma que pareça personalizada e empática.

Mas o problema é: LLMs prontos para uso não são treinados para os processos operacionais específicos da indústria de grandes empresas, nem são robustecidos para atender aos padrões de nível empresarial para privacidade de dados, confiabilidade e implantação. Apesar de sua promessa, os LLMs atuais ainda exibem modos de falha que deixam CIOs e oficiais de conformidade nervosos. Eles podem “alucinar” respostas, interpretar mal consultas sensíveis à regulamentação ou variar no tom de uma interação para a próxima. Confiabilidade, consistência e conformidade - todos não negociáveis para uma equipe de atendimento ao cliente da Fortune 500 - ainda não podem ser garantidos.

Isso deixa as empresas presas no problema de transição: O sistema antigo consegue tecnicamente lidar com o volume de chamadas, mas isso resulta em um grande número de clientes insatisfeitos devido a casos de uso mal suportados e expectativas crescentes dos usuários modernos. Enquanto isso, os novos sistemas, embora mais alinhados com as necessidades dos usuários atuais, ainda não são confiáveis o suficiente para substituir completamente os antigos.

Para os líderes de tecnologia, este momento é definido por uma tensão delicada: depender demais de sistemas legados e arriscar uma crescente insatisfação do cliente; adotar LLMs muito rapidamente e arriscar erros caros que corroem a confiança.

2. Por Que as Empresas Não Podem Esperar – O Custo da Inação e a Urgência da Adoção da IA

Para muitos executivos, a escolha mais segura pode parecer ser esperar até que os LLMs “amadureçam”. Mas, na prática, essa não é uma opção. As pressões competitivas são muito altas, e o custo da inação é elevado.

Primeiro, as expectativas dos clientes mudaram irreversivelmente. Os consumidores interagem diariamente com chatbots alimentados por IA, assistentes inteligentes e motores de recomendação. Quando ligam para uma empresa bilionária, esperam o mesmo nível de fluência, personalização e capacidade de resposta de suas experiências de URA. Oferecer algo menos parece antiquado. Em setores como bancos, seguros e telecomunicações, essa lacuna não é apenas um inconveniente – é o suficiente para empurrar os clientes para concorrentes que já estão investindo em IA.

Segundo, a economia dos call centers é brutal. Lidar com 500 milhões de chamadas por ano apenas com agentes humanos é inviável. Mesmo ganhos incrementais de eficiência se traduzem em dezenas de milhões em economia anualmente. Deixar de adotar a IA agora não significa apenas ficar para trás, significa fixar estruturas de custos desnecessárias que corroem as margens.

Terceiro, os concorrentes estão se movimentando. Em todos os setores, já estamos vendo líderes de mercado experimentarem a experiência do cliente impulsionada por IA. Alguns podem tropeçar, mas o sinal para clientes e investidores é claro: a inovação está acontecendo, e as marcas que lideram com IA se diferenciarão. Esperar à margem arrisca não apenas a rotatividade de clientes, mas também danos à reputação como um “retardatário na adoção”.

Finalmente, há a curva de aprendizado organizacional. Implementar a IA de forma responsável em um ambiente Fortune 500 leva tempo: alinhar equipes jurídicas, treinar funcionários, integrar com sistemas legados, configurar estruturas de observabilidade. Estas não são capacidades que podem ser ativadas da noite para o dia. Mesmo que os LLMs se tornem totalmente confiáveis amanhã, as empresas que ainda não desenvolveram a capacidade para a adoção da IA estarão anos atrasadas.

Em suma, as empresas não podem se dar ao luxo de esperar. Os riscos da inação - custos crescentes, clientes perdidos, competitividade diminuída - superam em muito os riscos de uma adoção cuidadosamente gerida. O desafio não é se adotar, mas como adotar de forma responsável durante o período de transição.

3. Caso de Uso Real: Equilibrando LLMs com Sistemas Baseados em Regras

Reconhecendo que nem os IVRs baseados em regras nem as soluções prontas alimentadas por LLMs poderiam atender às necessidades de uma empresa Fortune 500 por si só, a TrueFoundry trabalhou com uma das maiores redes de farmácias dos EUA para projetar um agente de IA de Voz híbrido. O objetivo era ambicioso: replicar a eficácia de um farmacêutico humano qualificado em milhões de chamadas de rotina que abrangem status de prescrição, recargas, informações da loja, verificações de estoque e outras necessidades diárias dos clientes.

No cerne deste design está uma abordagem de otimização híbrida: combinando a eficiência de sistemas determinísticos baseados em regras com a flexibilidade da conversação impulsionada por IA. Consultas comuns e repetitivas, como verificar o horário de funcionamento da loja ou recargas prontas para retirada, são roteadas através de processamento de via rápida baseado em regras. Isso lida com 90–95% das solicitações de rotina, evitando chamadas desnecessárias de LLM, reduzindo a latência e diminuindo os custos de computação.

Quando um cliente apresenta uma solicitação mais complexa ou ambígua, um sistema de roteamento inteligente assume o controle. Usando classificadores de reconhecimento de intenção que também levam em consideração o contexto de fundo, adicionado automaticamente à solicitação do cliente a partir de conversas anteriores, o gerenciador de intenções determina se a solicitação pode ser resolvida por regras ou deve ser escalada para um fluxo conversacional alimentado por LLM. Isso garante o equilíbrio certo: respostas previsíveis onde a precisão é importante, e interações naturais onde a flexibilidade é crucial.

Para interações complexas, como fluxos de agilização de recargas e cancelamento, construímos agentes conversacionais usando LangGraph. Esses agentes se integram a sistemas de backend através de chamada de ferramenta, permitindo-lhes processar solicitações de recarga com segurança em tempo real. Os clientes podem perguntar naturalmente (“Você pode agilizar minha recarga?”), e o sistema interpreta a intenção enquanto executa as ações de backend necessárias.

Para manter uma sensação humana mesmo durante as operações de backend, implementamos textos de preenchimento (“Por favor, aguarde um momento enquanto busco seus detalhes”). Esses toques sutis reforçam a confiança do cliente, fazendo com que o sistema pareça responsivo em vez de robótico.

Como a solução atende farmácias, a precisão na interpretação de prescrições era inegociável. Integramos modelos de fala para texto específicos da indústria ajustados para vocabulário farmacêutico, garantindo o reconhecimento correto de nomes complexos de medicamentos. Isso reduz significativamente os erros de transcrição que, de outra forma, poderiam frustrar os clientes ou colocar em risco a segurança do paciente.

Todas as interações LLM são canalizadas através de um serviço dedicado serviço de gateway apoiado por um serviço de gerenciamento de prompts. Isso permite o gerenciamento centralizado de prompts e garante respostas consistentes e pré-configuradas que cumprem tanto os requisitos regulatórios quanto a voz da marca. As atualizações podem ser implementadas rapidamente sem a necessidade de alterar dezenas de serviços, mantendo o sistema ágil e garantindo a conformidade.

Para salvaguardar a experiência do cliente, o agente de IA de Voz inclui análise de sentimento em tempo real. Se for detetada frustração ou insatisfação, como respostas negativas repetidas ou intensidade emocional crescente, o sistema pode acionar uma escalada para um agente humano. Isso garante que situações sensíveis sejam tratadas com empatia, evitando que experiências negativas do cliente se agravem.

Monitorização de desempenho é gerida pela Analytics AI, um serviço agêntico construído para analisar eventos de todo o sistema. Melhora a operação do negócio ao:

Avaliar tendências de sentimento em milhões de conversas para detetar clientes frustrados ou insatisfeitos.
Gerar automaticamente consultas SQL em vários domínios de negócio (operações de farmácia, inventário, métricas de call center).
Encaminhar consultas de forma inteligente para o conjunto de dados correto para realizar análises específicas por categoria.
Medir o desempenho do nível de serviço, destacando pontos problemáticos ou gargalos emergentes.

Isso fecha o ciclo entre tecnologia e negócio, proporcionando transparência e insights acionáveis.

O sistema já é utilizado em ~2.000 das 10.000 lojas, atendendo milhares de clientes diariamente. O modelo híbrido garante escala sem comprometer a confiança: os LLMs melhoram as interações com os clientes onde necessário, enquanto as regras garantem fiabilidade e velocidade na maioria dos casos. As implementações iniciais mostram melhorias significativas na eficiência, resolução de chamadas e satisfação do cliente.

Em suma, o design híbrido não é um compromisso - é uma ponte estratégica. Permite que as empresas adotem a IA de forma responsável hoje, ao mesmo tempo que prepara o caminho para um futuro onde os LLMs podem assumir uma parcela ainda maior da carga de trabalho.

4. Os Compromissos: Transparência sobre Complexidade e Manutenção

Embora a abordagem híbrida de IA de Voz resolva o problema de transição, ela também introduz o seu próprio conjunto de compromissos. Para empresas que gerenciam centenas de milhões de chamadas de clientes, esses compromissos não são meros detalhes – eles moldam o custo total de propriedade, a prontidão organizacional e a sustentabilidade a longo prazo.

1. Maior Complexidade Arquitetural

Num sistema puramente baseado em regras, a lógica é determinística e relativamente simples de rastrear. Num sistema puramente LLM, a arquitetura poderia, em teoria, ser simplificada para um motor conversacional mais integrações de backend. Um sistema híbrido, contudo, exige ambos. Isso significa manter infraestruturas paralelas:

Fluxos determinísticos para a grande maioria das consultas comuns.
Fluxos orientados por IA para interações matizadas e de alto valor.
Uma camada de roteamento inteligente que decide qual caminho ativar.

O benefício é a flexibilidade e a resiliência, mas o compromisso é uma arquitetura mais complexa que requer equipes multifuncionais para projetar, monitorar e ajustar continuamente.

2. Maior Carga de Manutenção

IVRs tradicionais exigem atualizações ocasionais de script. Por outro lado, um sistema híbrido precisa de manutenção contínua em múltiplas frentes:

Retreinamento de classificadores: Manter os modelos de roteamento precisos à medida que novos padrões de chamadas surgem.
Modelos específicos de domínio: Manter os motores de reconhecimento de fala ajustados para vocabulário farmacêutico ou outras necessidades da indústria.
Monitoramento de pipelines: Garantir que as ferramentas de monitoramento capturem os eventos certos e revelem insights acionáveis.

Isso introduz novos ritmos de manutenção mais próximos de gestão do ciclo de vida do produto de software do que o suporte de telefonia tradicional.

3. Equilíbrio entre Eficiência de Custos e Desempenho

Embora os atalhos baseados em regras mantenham 90–95% das chamadas com intenção simples e única eficientes, o híbrido ainda incorre em custos de:

Executar LLMs para fluxos complexos.
Operar infraestruturas duplas.
Investir em sistemas especializados de monitoramento e análise.

As empresas devem ponderar se a melhoria da experiência do cliente justifica o custo adicional. Em muitos casos, justifica, mas o cálculo do ROI depende das margens da indústria, riscos regulatórios, e expectativas do cliente.

4. Complexidade de Governança e Conformidade

Empresas, especialmente nos setores de saúde, bancário e seguros, devem impor conformidade rigorosa. Um sistema híbrido introduz mais componentes móveis:

Respostas baseadas em regras oferecem conformidade por design.
Fluxos baseados em LLM exigem salvaguardas, auditoria e monitoramento em tempo real para alucinações ou linguagem fora da marca.
O roteamento inteligente deve comprovar explicabilidade: por que uma determinada chamada foi para um LLM em vez de uma regra?

Isso aumenta a complexidade da governança, mas também oferece uma oportunidade: o sistema híbrido pode ser instrumentado para maior transparência do que qualquer uma das abordagens isoladamente.

5. Mudança de Habilidades Organizacionais

Finalmente, a adoção híbrida exige novos conjuntos de habilidades. As empresas precisam não apenas de designers de URA, mas também de:

Cientistas de dados para classificadores de roteamento.
Engenheiros de prompt para fluxos de LLM.
Equipes de operações de IA para gerenciar monitoramento em tempo real, análise de sentimento e gatilhos de escalonamento.

Essa mudança no perfil da equipe é uma consideração importante para empresas com equipes de TI de call center legadas.

O Resultado Final

A abordagem híbrida de IA de Voz não é do tipo “configurar e esquecer”. É um sistema vivo que exige um design cuidadoso, monitoramento contínuo e investimento organizacional. A recompensa é uma ponte resiliente que permite às empresas aproveitar a IA sem sacrificar a confiabilidade. Mas a contrapartida é real: maior complexidade, maior manutenção e necessidades contínuas de governança.

Para os líderes que tomam decisões hoje, reconhecer abertamente essas contrapartidas é fundamental para construir confiança entre as partes interessadas técnicas, operacionais e de conformidade.

5. Perspectivas Futuras – Equilibrando as Curvas do Antigo e do Novo

A evolução das tecnologias de interação com o cliente não segue uma linha reta – ela segue ciclos. Novas inovações surgem com grande promessa, experimentam contratempos inevitáveis e, por fim, encontram seu lugar no conjunto de ferramentas da empresa. Ao mesmo tempo, as tecnologias tradicionais não simplesmente desaparecem; elas se corrigem, estabilizam e continuam a entregar valor em nichos onde suas forças são inigualáveis.

Uma maneira de pensar sobre isso é expandir o Ciclo de Hype da Gartner, que mapeia como as novas tecnologias se movem do “Gatilho de Inovação” através do “Pico das Expectativas Inflacionadas”, do “Vale da Desilusão” e, eventualmente, para o “Platô de Produtividade”. Ao lado desta curva, podemos traçar uma imagem espelhada: a curva de “sobrevivência” da tecnologia tradicional.

No Pico das Expectativas Inflacionadas:
Quando o entusiasmo pela nova tecnologia aumenta, a antiga é prematuramente declarada obsoleta. Em nosso setor, isso está acontecendo com os IVRs baseados em regras. O hype em torno da IA conversacional criou a percepção de que os fluxos de chamadas determinísticos já são irrelevantes, mesmo que permaneçam altamente eficientes para tarefas previsíveis e repetitivas.
No Vale da Desilusão:
À medida que as limitações da nova tecnologia se tornam claras — altos custos, lacunas de confiabilidade, riscos de conformidade — os sistemas tradicionais frequentemente ressurgem. As empresas redescobrem a estabilidade e a previsibilidade dos sistemas baseados em regras, valorizando sua eficácia em termos de custo e precisão. Durante esta fase, as organizações dependem mais de abordagens híbridas para estabilizar as operações enquanto continuam a experimentar com IA.
No Platô de Produtividade:
Eventualmente, a nova tecnologia amadurece, seus casos de uso se tornam bem compreendidos e as estruturas de implantação a tornam segura e escalável. Neste ponto, a tecnologia antiga não desaparece, mas ela se move para casos de uso muito específicos e incontestáveis. Para IVR, isso significará que as regras continuam sendo a melhor ferramenta quando a conformidade exige controle absoluto sobre a formulação, ou onde o custo de uma pequena má interpretação é inaceitável.

Figura 1: Ciclo de hype da nova tecnologia e resistência da tecnologia antiga

New technology hype cycle and resistance of old technology

Onde Estamos Hoje

Pela maioria dos indicadores, agentes de voz com IA ainda estão se aproximando do Pico das Expectativas Inflacionadas. As empresas estão entusiasmadas com seu potencial transformador, mas também estão começando a encontrar sua fragilidade em escala. A verdade é que ainda estamos no processo de encontrar o equilíbrio certo: onde a IA aprimora a experiência e onde as regras fornecem salvaguardas.

Este equilíbrio não é um compromisso; é uma ponte estratégica entre as curvas. Ao adotar abordagens híbridas agora, as empresas se posicionam para capturar os benefícios da inovação em IA sem descartar a confiabilidade dos sistemas comprovados. Com o tempo, à medida que a IA avança em direção ao seu Platô de Produtividade, o papel do IVR tradicional se estreitará, mas nunca desaparecerá — persistirá naqueles contextos de nicho e de missão crítica onde a previsibilidade continua sendo soberana.

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now