LLMs de Código Aberto: Abrace ou Pereça

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Conversamos com muitas empresas e líderes de negócios que estão tentando definir sua estratégia para usar LLMs neste patamar da IA - devemos usar OpenAI ou LLMs de código aberto? Existem muitos bons blogs que mostram os prós e contras de diferentes abordagens de forma neutra. Nossa posição aqui é bem definida-
- Se você acha que, LLMs serão cruciais para o seu negócio, você precisa investir no uso de LLMs de Código Aberto, na sua própria infraestrutura- ontem!!!
- Se você acha que os LLMs não serão cruciais para o seu negócio, pense melhor. Se você ainda obtiver a mesma resposta, pense mais uma vez. Depois disso, talvez você esteja certo e possa usar OpenAI ou outros LLMs comerciais para alguns casos de uso rápidos que deseja resolver.
Obviamente, se o seu negócio, DNA tecnológico e escala exigem o pré-treinamento de LLMs do zero, por favor, invista nisso. Mas a maioria das empresas não se encaixará nessa categoria, e é por isso que temos uma recomendação clara-
Sua última chance de permanecer no Jogo da IA é adotar LLMs de Código Aberto agora e executá-los em sua infraestrutura!
A Importância dos LLMs de Código Aberto
Acreditamos que as empresas que investem em LLMs de código aberto e os utilizam internamente estão prontas para se beneficiar de segurança de dados aprimorada, maior controle sobre sua tecnologia e tempos de iteração mais rápidos. Mas aqueles que ignoram essa tendência correm o risco de ficar para trás, perdendo para concorrentes que já começaram a construir seu músculo de IA usando modelos menores e mais eficientes. Vamos nos aprofundar nos detalhes aqui-
Segurança de Dados e Vantagem Competitiva
A maioria das empresas está presa em discussões internas sobre a definição de políticas de segurança de dados: quais dados podem ser enviados a provedores de LLM comerciais? Onde estou cruzando um limite de conformidade versus onde estou perdendo minha vantagem competitiva? Sim, você pode impedir que a OpenAI use diretamente seus dados de chat para ajuste fino, mas um dia algum desenvolvedor cometerá este erro.
Enquanto tudo isso ocorre, concorrentes ágeis já estão progredindo usando LLMs de Código Aberto e conquistando a confiança de seus clientes. Eles estão lançando recursos rapidamente, aprendendo rápido e, ao mesmo tempo, construindo uma vantagem competitiva de longo prazo usando LLMs de código aberto.
Iterar para aprimorar
Muitos, incluindo o Google, está antecipando que modelos de código aberto menores e refinados podem prevalecer sobre modelos muito grandes, genéricos e estáticos. Isso é intuitivo porque modelos de linguagem muito grandes são quase impossíveis de iterar. Você tem uma única chance ou seus custos e tempo de iteração se multiplicam.
As equipes que começaram a investir no desenvolvimento dessa capacidade estão em uma enorme vantagem posicional, pois isso lhes permite iteração e melhoria rápidas usando modelos pequenos a uma fração do custo dos modelos grandes! Uma vez estabelecida essa lacuna, é muito difícil reduzi-la, pois muito aprendizado é adquirido nesse processo.
Controlando o seu destino
Invocar as APIs da OpenAI é fácil, mas há preocupações com latência e tempo de atividade. Isso provavelmente melhorará com o tempo, mas e se eles decidirem cobrar muito mais pelas garantias de latência? E se a hospedagem de modelos ajustados não se encaixar no seu modelo de negócios de longo prazo e eles decidirem descontinuá-lo completamente?
Contribuições da comunidade
Modelos de linguagem muito grandes evoluem na velocidade em que as dezenas ou centenas de pessoas que trabalham na OpenAI / Google podem contribuir, priorizando a necessidade de milhões. Por outro lado, toda a comunidade de desenvolvedores de código aberto está construindo rapidamente muitas versões de modelos menores — alguns com otimizações de baixo ranque, alguns que rodam em dispositivos móveis, alguns que podem ser personalizados, alguns que são maiores e ajustados por instrução. Literalmente não há limite para essa inovação e personalização. Você pode escolher qual modelo funciona melhor para cada um dos seus casos de uso.
Além disso, há uma vantagem inerente em poder rodar rápido e barato se você estiver usando vários modelos menores específicos para uma determinada tarefa. Em produção, isso geralmente requer um roteador de LLM que pode direcionar cada solicitação para o modelo mais apropriado com base no custo, latência ou complexidade da tarefa. Esta é também a direção arquitetônica por trás dos modernos agentes de LLM, onde modelos especializados menores coordenam tarefas em vez de depender de um único modelo de propósito geral.

Por que nem todo mundo está usando LLMs de Código Aberto?
Uma recomendação tão forte levanta a questão: se é tão importante, por que nem todo mundo está fazendo isso? Em primeiro lugar, um número crescente de pessoas já está investindo cada vez mais seu tempo e recursos para entender o cenário e construir sobre LLMs de código aberto. Então o axioma de que nem todo mundo está fazendo isso está se tornando falso a cada dia :) Mas, existem alguns desafios inerentes associados ao uso de LLMs de Código Aberto e à execução deles em sua infraestrutura, em comparação com o uso de suas contrapartes comerciais-
Falta de expertise técnica
A maioria das equipes hoje não possui a expertise multifacetada para ajustar e hospedar modelos de linguagem grandes internamente. Pessoas inteligentes sempre conseguem descobrir no final, mas descobrir essa modelagem complicada e infra ao mesmo tempo, enquanto novas ferramentas e modelos são lançados todos os dias, é simplesmente difícil e demorado.
Termos de uso
Muitos líderes técnicos e de negócios estão confusos sobre qual LLM, conjunto de dados ou biblioteca é aceitável para uso comercial e qual não é? É exatamente por isso que entender licenças de LLM tornou-se crucial, porque os termos de licenciamento frequentemente determinam se um modelo pode legalmente passar da experimentação para a produção. Por exemplo, o Vicuna, que parece estar sob a licença Apache 2.0, é treinado no Llama, que não está disponível comercialmente, tornando seu uso impossível e muito difícil de perceber que isso poderia ser uma violação. Veja os detalhes que abordamos em um blog anterior aqui.
Restrições de memória e tempo
A maioria dos modelos de linguagem grandes de tamanho razoável (13B+ parâmetros) não caberá ou não poderá ser ajustada em GPUs comumente disponíveis devido a restrições de memória. Se você decidir otimizar a memória, o que não é trivial, seu tempo de treinamento será afetado. Existem muitas técnicas relacionadas à gestão de gradientes, aproximação de baixa patente, serviço de precisão mista, treinamento e implantação acelerados, otimizações específicas de modelos usando diferentes bibliotecas – todas elas são difíceis de aprender e implementar rapidamente. Isso faz com que as equipes joguem hardware no problema e monitorem as GPUs a cada execução bem-sucedida.
Disponibilidade e gerenciamento de GPU
Provedores de nuvem exigem cotas de GPU que são frequentemente restritas e caras, e muitas vezes vêm em lotes de 8 placas de GPU, o que pode ser subótimo do ponto de vista de custo. A maioria das equipes não está familiarizada com a forma de distribuir um modelo por várias GPUs, pois ele não caberia em uma única e para executá-las de forma otimizada.
Além disso, há sempre uma pressão para fazer as coisas rapidamente, pois as empresas temem que, se não anunciarem seus próprios LLMs em breve, a concorrência possa obter a vantagem de pioneirismo e impressionar seus clientes. Em uma nota separada, essa preocupação não é infundada, pois vimos isso acontecer com vários clientes com quem conversamos.
O que a TrueFoundry está fazendo a respeito?
Na TrueFoundry, alguns desses problemas são centrais para o que estamos resolvendo. Nossa plataforma é projetada para rodar em sua infraestrutura, garantindo segurança completa dos dados e construindo abstrações significativas onde ocultamos complexidades irrelevantes da infraestrutura, mantendo o controle nas mãos do desenvolvedor. Como um espaço em rápida evolução, a IA e os LLMs exigem aprendizado e adaptação constantes. A equipe da TrueFoundry se dedica a ajudá-lo a navegar por este cenário através de nosso produto, orientação, sugestões e soluções personalizadas.
Investir em LLMs de código aberto e usá-los internamente é um movimento estratégico que ajudará sua empresa a se manter à frente. A TrueFoundry pode ajudar a acelerar suas iniciativas de IA e manter uma vantagem competitiva em um cenário em constante mudança. Não fique para trás — adote os LLMs de código aberto e garanta seu lugar na vanguarda da inovação em IA.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI

















.webp)








.webp)

.webp)
.webp)





.png)



