Construindo a Camada de Infraestrutura que Faltava à IA Empresarial

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

‍

Em 2022, antes de o ChatGPT ter entrado no vocabulário cultural, os nossos fundadores Nikunj Bajaj, Abhishek e Anuraag já estavam construindo. Não em reação a uma tendência, nem em busca de um momento, mas construindo a partir da convicção de que o mundo empresarial estava prestes a atingir um ponto de inflexão para o qual não estava preparado.

Essa convicção veio de dentro. Antes de fundar a TrueFoundry, Nikunj passou um tempo na Meta, onde a experiência de trabalhar com infraestrutura de aprendizado de máquina em escala mudou fundamentalmente a forma como ele pensava sobre o problema.

"A forma como se constrói modelos de aprendizado de máquina na Meta é fundamentalmente diferente de como se faz isso usando o ecossistema de nuvem pública externa", Nikunj compartilhou no podcast Code Story. "A Meta vê o aprendizado de máquina como um caso especial de engenharia de software e a IA generativa como um caso especial de aprendizado de máquina."

Esse modelo mental – software na base, ML no meio, GenAI no topo, tudo rodando através de uma interface unificada em infraestrutura compartilhada – não é como a maioria das empresas opera. A maioria das organizações executa duas, às vezes três, pilhas paralelas: uma para software, uma para ML e, agora, cada vez mais, uma separada para GenAI. O resultado é fragmentação, redundância e um sistema que colapsa sob o próprio peso à medida que escala.

A TrueFoundry foi fundada para resolver exatamente isso.

A Aposta Que Levou Um Ano Para Ser Construída

Quando as pessoas falam sobre MVPs, geralmente se referem a algo rudimentar – um protótipo rápido para testar uma hipótese. A versão da TrueFoundry disso parecia muito diferente.

"Passamos mais de um ano dedicados ao desenvolvimento da plataforma", explicou Nikunj. "Estávamos construindo a infraestrutura central sobre a qual as empresas podem começar a construir suas aplicações de aprendizado de máquina e IA generativa e começar a lançá-las em produção."

A aposta técnica no centro desse trabalho era o Kubernetes. A equipe acreditava que, assim como as cargas de trabalho de software haviam convergido para o Kubernetes para orquestração, as cargas de trabalho de ML seguiriam o mesmo caminho. Na época, o Kubeflow era a ferramenta dominante que ajudava as organizações a executar ML no Kubernetes, mas estava em declínio de contribuição à medida que o Google direcionava seu investimento para o Vertex. A equipe da TrueFoundry viu essa lacuna e a preencheu deliberadamente, construindo toda a sua pilha de ML e GenAI para rodar nativamente no Kubernetes. Essa decisão lhes deu algo inestimável: infraestrutura que poderia rodar em qualquer lugar – AWS, GCP, Azure ou on-premise – sem estar presa a nenhum provedor de nuvem único.

Foi um começo paciente e com princípios. E lançou as bases para tudo o que se seguiu.

Adaptando-se a um Mundo em Constante Movimento

Uma das coisas mais impressionantes sobre a jornada do produto da TrueFoundry é como o mundo ao seu redor se transformou de forma constante e como eles se adaptaram deliberadamente.

Em 2022, os grandes modelos de linguagem tornaram-se genuinamente úteis pela primeira vez. Em 2023, as empresas descobriram que respostas úteis exigiam fundamentação em seus próprios dados, e o RAG (Geração Aumentada por Recuperação) tornou-se o paradigma dominante. Em 2024, os agentes estavam se tornando realidade, e as organizações começaram a pensar seriamente em colocar a IA em fluxos de trabalho de produção. Em 2025, o MCP (Model Context Protocol) e a comunicação agente-para-agente surgiram como a nova fronteira.

A cada ano, o modelo operacional mudava. E a abordagem da TrueFoundry foi manter a arquitetura fundamental constante, enquanto adaptava a camada que fica acima dela – a experiência do desenvolvedor, as interfaces, o tecido conectivo entre os componentes.

"Nós nos adaptamos ao modus operandi", disse Nikunj. "Construímos a camada de UX em torno disso, mas trazemos tudo de volta ao mesmo princípio fundamental e básico sobre como você executa essas cargas de trabalho na mesma infraestrutura subjacente."

O produto hoje reflete essa filosofia. O AI Gateway da TrueFoundry fica no meio de cada chamada de API que uma empresa faz para seus LLMs e agentes. Ele engloba um gateway LLM, um gateway MCP e um gateway de agente, um plano de controle unificado para observabilidade, governança, gerenciamento de custos e conformidade em toda a pilha de agentes. Ao lado dele, o produto AI Deployments permite que as empresas executem modelos personalizados, hospedem servidores MCP e orquestrem agentes em sua própria computação – tudo através de uma interface nativa do Kubernetes.

O Erro Sobre o Qual Estão Dispostos a Falar

Nem tudo saiu como planejado. Em 2024, a TrueFoundry, como a maior parte da indústria, acreditava que a camada de proxy LLM que as empresas estavam construindo internamente permaneceria fina. A lógica fazia sentido na época: as APIs de modelo eram em grande parte consistentes, a camada era leve, e as equipes se sentiam à vontade para construí-la por conta própria.

"Acreditávamos que esta camada seria mais desenvolvida internamente", admitiu Nikunj. "Esse erro nos fez perder parte do desenvolvimento que poderíamos ter feito no ano entre 2024 e 2025."

O que mudou foi a complexidade. As assinaturas das APIs dos modelos começaram a divergir. Novos protocolos como o MCP surgiram. Aplicações baseadas em agentes foram para produção, o que significava que a disponibilidade era crucial. E o que havia começado como uma fina camada de proxy de repente precisou se tornar um plano de controle de nível empresarial com salvaguardas, regras de conformidade, rastreamento de custos e observabilidade centralizada em cada agente da organização.

Quando a TrueFoundry percebeu essa mudança, agiu rapidamente. Em seis meses, eles reconstruíram e expandiram seu gateway de IA, transformando-o em um dos produtos mais capazes do mercado. Hoje, o gateway opera em 17 regiões globalmente, alcança mais de quatro noves de disponibilidade, introduz menos de cinco milissegundos de latência e lida com dezenas de milhares de requisições por segundo para aplicações empresariais críticas de produção.

A velocidade de resposta transformou uma oportunidade perdida em uma posição de liderança no mercado.

A Equipe Por Trás de Tudo

Pergunte a Nikunj do que ele mais se orgulha na TrueFoundry, e ele não menciona as métricas do produto ou a lista de clientes. Ele fala sobre a equipe.

A empresa começou com três cofundadores que cresceram juntos: Nikunj, Anurag e Abhishek, cujos conhecimentos complementares em ML, infraestrutura e estratégia deram à empresa a forma certa desde o primeiro dia. Abhishek havia liderado a organização de infraestrutura de vídeo da Meta. Anurag havia usado aprendizado de máquina para construir estratégias de negociação na WorldQuant e liderou expansões geográficas para a empresa. Juntos, eles trouxeram a profundidade técnica e o alcance operacional que a construção de infraestrutura empresarial exige.

Agora com cerca de 90 a 100 pessoas, a TrueFoundry ainda exige que cada novo contratado passe por uma entrevista com um dos fundadores. Os critérios não mudaram: habilidades técnicas, sim, mas, mais importante, um alinhamento genuíno com a missão e o tipo de mentalidade de 'dono' que faz as empresas em estágio inicial funcionarem.

"Acreditamos que esse é o maior valor que um fundador pode criar em uma empresa", disse Nikunj.

Para Onde Tudo Isso Está Indo

O desafio de curto prazo que Nikunj vê para a indústria é a transição de centenas de pequenos agentes de IA de baixo risco, ferramentas de produtividade pessoal e experimentos funcionais para agentes que se situam no caminho crítico das operações de negócios reais. Essa transição exige um nível de controle, confiabilidade e governança que a maioria das empresas ainda não construiu.

A ambição de longo prazo da TrueFoundry é ainda maior. A analogia que Nikunj usa é a de Databricks ou Snowflake — empresas que desbloqueiam valor centralizando os dados de uma organização. A TrueFoundry quer fazer o mesmo para a computação. Uma única plataforma onde os agentes são desenvolvidos, implantados e orquestrados. Um plano de controle central para toda a computação que flui pelos sistemas de IA de uma empresa.

É uma grande visão. Mas é uma que foi definida claramente em 2022 e só se tornou mais relevante desde então.

Ouça a conversa completa com Nikunj Bajaj no Code Story Podcast, Temporada 12, Episódio 16, disponível no Spotify e Apple Podcast.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now