TrueFoundry: Balanço de fim de ano de 2024

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

No ano passado, comparamos a nossa trajetória de startup a construir um foguete, e imaginamos 2024 como o ano da ignição — o momento em que o nosso foguete saltaria para a órbita. E de facto, houve ignição! Estávamos a sonhar alto quando conquistar um cliente da Fortune 500 implicava trabalhar com NVidia, ou ser reconhecidos como um líder emergente no quadrante mágico da Gartner?

Mas, como sempre, esta história não é apenas uma celebração das nossas conquistas, mas também um reconhecimento dos desafios que superamos, uma valorização das oportunidades que nos foram apresentadas e das aprendizagens que abraçamos. Vamos levá-lo nesta jornada emocionante — desde avanços emocionantes a territórios inexplorados — navegando tanto pela turbulência quanto pelos triunfos nesta odisseia estelar!

TrueFoundry e o ano de 2023

A TrueFoundry está a construir uma PaaS agnóstica à nuvem em Kubernetes, que padroniza o treino e a implementação de aplicações de Machine Learning e IA Generativa utilizando APIs prontas para produção e amigáveis para desenvolvedores — ao mesmo tempo que adota uma postura assertiva sobre como MLOPs / LLMOps e DevOps são penas da mesma plumagem!

2023 foi o ano de oportunidades sem precedentes e de ameaça existencial, ambos ao mesmo tempo, para a maioria das organizações no mundo. A forma como abraçaram o mundo em mudança definiria o seu futuro ou ditaria se teriam algum! E as organizações procuravam toda a ajuda possível para as auxiliar a definir casos de uso, realizar experiências, combater as políticas de segurança, e criar comunicados de imprensa para serem reconhecidas como as pioneiras do mundo da GenAI.

A TrueFoundry estava muito bem posicionada para ajudar as organizações a navegar estes tempos incertos, as escolhas entre modelos internos vs. de código fechado, a complexidade da infraestrutura baseada em GPU, o conjunto de ferramentas para colocar aplicações em produção. E isso, precisamente, era a chave — sabíamos que qualquer aplicação que não esteja em produção é um centro de custo que não entrega valor. E enquanto o resto do mundo realizava experiências para fins de relações públicas, um cliente da Fortune 100 da TrueFoundry estava a colocar aplicações em produção à velocidade da luz! Essa vantagem inicial em 2023 tornou-os líderes em GenAI na sua indústria! Tomamos algumas decisões cruciais em 2023 que nos prepararam para o sucesso — separamos o que era urgente a curto prazo e o que era importante a longo prazo!

Primeiro, focamo-nos em organizações que acreditávamos ter um valor de negócio claro, diferenciado e a longo prazo com a GenAI e não apenas a correr atrás da moda!
Em segundo lugar, não corremos atrás de ajudar as organizações com tudo o que estava em voga na altura — supervalorizando a escassez de GPUs, ou o facto de as organizações não terem permissão para usar modelos de código fechado de primeira linha. Não me interpretem mal — esses problemas precisavam de ser resolvidos, mas não podiam ser a única coisa em que nos focávamos, porque era uma questão de tempo até que desaparecessem! Em vez disso, focamo-nos de forma singular nos desafios que as organizações enfrentariam ao colocar aplicações em produção com confiança a longo prazo!

Isto levou-nos a duas aprendizagens importantes que acertamos e das quais tomamos nota.

1. O verdadeiro teste não é apenas colocar o seu produto à frente de um cliente, mas sim no caminho do valor de negócio real gerado para esse cliente!

2. Não há problema em querer pegar uma onda de tendência, mas quando uma crise acontece, esteja preparado para emergir do outro lado — e isso, só acontece, focando nos princípios fundamentais.

Dando início a 2024

Com isso, entramos em 2024 com força — que foi um ano de execução para nós, apostando forte no que acreditávamos que funcionaria — e submetendo-o a testes reais — à maneira TrueFoundry!

Trabalhamos com algumas das maiores organizações do mundo e as ajudamos a dar vida a aplicações que gerariam centenas de milhões de dólares em valor — através da automação de chamadas de suporte ao cliente / utilização otimizada de clusters de GPU / ajudando representantes de vendas a vender medicamentos de forma mais eficaz. Tornamo-nos um componente crítico da pilha de GenAI de várias empresas da Fortune 500, duplicamos o tamanho da nossa equipa e quadruplicamos as nossas receitas — tudo dentro deste ano. A questão é: o que nos levou a este ponto, e como categorizamos o que fizemos certo e o que não fizemos, tanto estratégica quanto taticamente? Vamos aprofundar isso —

[Estratégico, Funcionou] Uniformidade de LLMOPs, MLOPs e DevOps —

Já falamos sobre isso no passado em detalhe. Mas é uma decisão tão crítica da nossa plataforma, que é importante mencionar! Em 2022, quando nos focamos em MLOPs, nunca pensamos nisso como algo fundamentalmente diferente de DevOps — os modelos de ML também são aplicações que precisam ser executadas em algum tipo de computação — embora mais complicadas. Em 2023, adotamos a mesma postura, quando a GenAI chegou ao mundo — o ajuste fino de LLM ou o treinamento de modelos de ML ou a execução de um trabalho de pipeline de dados são todos trabalhos de computação de longa duração, e o serviço de modelos LLM ou a inferência de modelos de ML ou uma simples API Rest são todos trabalhos de execução contínua. E enquanto arquitetonicamente, eles são os mesmos, é uma questão de construir a UX certa sobre como manobrar a complexidade de lidar com recursos de GPU, ou computação distribuída ou tamanhos de modelos grandes ou trabalhos de execução muito longos — muita engenharia, com certeza, mas nada fundamentalmente diferente.

Em outras palavras, a TrueFoundry fundamentalmente pega qualquer aplicação ou código e o traduz para um manifesto K8s, enquanto oculta a complexidade específica da aplicação. Este design teve um impacto profundo na forma como os clientes viam a TrueFoundry.

A TrueFoundry atuou como uma ponte do território desconhecido de GPUs, infraestrutura multi-cloud, modelos muito grandes para o território conhecido da sua plataforma existente construída em K8s.

A TrueFoundry falava a língua deles, encaixava-se na sua pilha existente e permitiu que as organizações aproveitassem todos os pipelines fundamentais de construção e implantação que haviam configurado com tanto esforço!

[Estratégico, Funcionou] Núcleo baseado em primitivas — Serviços, Tarefas, Helm Charts e Volumes

Na TrueFoundry, acreditamos que qualquer aplicação no mundo pode ser fundamentalmente pensada em termos de 4 primitivas —

Serviços — APIs sempre ativas e em execução
Tarefas — Tarefas offline de longa duração
Helm Charts — Use, encontre e compartilhe aplicações construídas em K8s.
Volumes — Montagens de dados, armazenamento de arquivos e camada de armazenamento.

Essas primitivas tornaram-se nossa camada central e, a partir delas, tudo é construído. Por exemplo, a hospedagem de LLM nada mais é do que um serviço, o ajuste fino nada mais é do que uma tarefa e o VectorDB nada mais é do que um helmchart!

E o novo paradigma de aplicação de IA composta pode ser pensado como uma combinação dessas primitivas. Por exemplo, uma aplicação RAG compreende — leitura de dados de origem de um volume, análise, fragmentação e indexação como uma tarefa, VectorDB como um helm chart, LLM como um serviço e API RAG como um serviço!

Enquanto o modus operandi em 2023 era RAG e em 2024 eram aplicações agentivas, isso pode ser diferente no futuro. Esta arquitetura nos ajuda a estar seguros para o futuro e não estamos presos a nenhuma forma específica de desenvolvimento. Em 2024, generalizamos este conceito como um produto e ele foi muito bem recebido pelos nossos clientes.

[Tático, Funcionou] Design à prova de futuro — evitar aprisionamento tecnológico

O padrão para a construção de aplicações de IA Generativa ainda não foi estabelecido, e as organizações não estão dispostas a se prender a nada, e isso se estende a provedores de nuvem, provedores de modelos e provedores de frameworks.

O design da TrueFoundry de escolher qualquer computação de qualquer provedor sem se preocupar com a camada de gerenciamento de infraestrutura, escolher qualquer modelo através do Gateway sem se preocupar com a assinatura da API ou ajudar as pessoas a orquestrar implantações sem codificação prescritiva, eliminando a dependência de qualquer framework — incluindo o nosso, tem ressoado muito bem com nossos clientes. Na verdade, vamos ao ponto de tornar a TrueFoundry redundante, expondo manifestos K8s brutos gerados pela TrueFoundry, para que o cliente nunca fique preso à TrueFoundry!

Devo admitir, no entanto, que, embora isso esteja funcionando agora, não estamos confiantes de que a longo prazo as coisas continuarão assim. Um exemplo potencial de pegar uma onda, mas estar atento ao que está do outro lado.

[Tático, Funcionou] Foco no tempo até o valor

O foco da TrueFoundry sempre foi reduzir o tempo para entregar aplicações prontas para produção aos nossos usuários finais. O tempo até o valor é a métrica central que sempre otimizamos. Em 2024, dedicamos tempo suficiente para otimizar o tempo até o valor para nós como plataforma também — o que significa, quão rápido é instalar a TrueFoundry no ambiente de um cliente e quão rápido é derivar valor de negócio final para os usuários finais.

É claro em nossas avaliações no G2 que nosso Tempo para entrar em operação de 0,42 meses é significativamente melhor do que outros em nossa categoria, que é de 2,29 meses, e o ROI estimado em 4 meses em comparação com a média de 13,66!

[Tático, Não Funcionou] Estar mais próximo dos casos de uso

Com nosso foco em acertar a arquitetura, acreditamos que houve casos em que falhamos em estar super próximos do objetivo final que o usuário tenta alcançar. Isso significa que, às vezes, é um pouco mais difícil para os usuários finais construir a aplicação final, e podemos alinhar melhor a experiência do nosso produto com isso. Por exemplo, hoje as pessoas podem construir e entregar qualquer aplicação agêntica na TrueFoundry — por causa de como nossa arquitetura permite a entrega de qualquer aplicação de IA composta, mas a experiência é tão fluida quanto gostaríamos? Provavelmente não!

Tivemos um grande sucesso nesta área em 2024, com o nosso primeiro lançamento de código aberto, Cognita — um framework construído para entregar aplicações RAG prontas para produção que obteve mais de 3000 estrelas nas primeiras semanas de lançamento! Mas quero dizer, isso pode ser pouco demais, tarde demais! Idealmente, esta é uma área que deveríamos ter otimizado em 2023 e construído muito mais em 2024! Mas agora que percebemos isso, precisamos trabalhar ativamente para isso em 2025.

[Estratégico, Não Funcionou] Foco na Persona do Comprador

A sabedoria comum do mundo das startups — se você pretende criar um processo de vendas repetível, precisa estar focado no seu Perfil de Cliente Ideal e na persona do comprador. Pensávamos que sabíamos disso e “priorizamos implacavelmente” esta parte para finalmente reduzir nossos compradores a um dos dois usuários — um Chefe de ciência de dados tentando levar um aplicativo de IA Generativa para produção, e um Chefe de plataforma construindo ferramentas de desenvolvimento para todas as equipes internas de ciência de dados.

Nossa crença mais recente é — dois ainda não é suficiente. Foco laser significa um e apenas um! Isso nos ajudará a otimizar tudo, desde a UX final do produto, aos materiais de Habilitação de Vendas, ao marketing de produto e a todas as funções que constroem a empresa. O veredito ainda não foi dado, mas, por enquanto, parece que teremos que dedicar tempo em 2025 para refinar ainda mais isso!

Olhando para o Futuro e Dando as Boas-Vindas a 2025

Munidos dos aprendizados, de um produto fundamental e arquitetonicamente sólido, de um forte impulso de clientes e ao lado de uma equipe brilhante e incansável que realmente se importa em resolver este problema, estamos animados para nos aventurar em 2025 — sentimos que estamos posicionados mais fortes do que nunca!

Mais importante, estamos animados para abraçar as mudanças que a IA Generativa trouxe para nós como startup e expandir nossa própria visão! Com as capacidades desbloqueadas pela IA Generativa, acreditamos que todas as melhorias em tempo até o valor, economia de custos e a capacidade de fazer mais com menos são apenas marcos. Eventualmente, tudo será instantâneo, mais eficiente e totalmente em Piloto Automático! Assim como hoje, não pensamos se um compilador moveu a memória de forma eficiente ou alocou recursos quando escrevemos um programa, amanhã, não pensaremos se a infraestrutura gerenciada por IA está sendo feita corretamente.

Se estamos entrando em um mundo onde milhares de agentes interagirão com seres humanos para realizar cada tarefa, não é viável nem lógico que os seres humanos se tornem o gargalo para gerenciá-los. A plataforma central que gerencia o mundo da

IA será gerenciada por IA

Com os olhos postos nesta visão expandida, acolhemos 2025 de braços abertos! Feliz Ano Novo a todos.

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now