TrueFoundry Agora Implanta e Ajusta LLMs de Código Aberto Com Apenas Alguns Cliques!

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
É com entusiasmo que anunciamos que a TrueFoundry desenvolveu uma solução poderosa, mas fácil de usar, para a implantação e o ajuste de Grandes Modelos de Linguagem (LLM) através do nosso Catálogo de Modelos. Nosso objetivo é ajudar as empresas a auto-hospedar seus LLMs de código aberto no Kubernetes, tornando assim seus custos de inferência 10 vezes mais baratos com 1 clique. Neste blog, mostramos como você pode implantar um Dolly-v2-3b modelo e ajustar um Pythia-70M modelo usando a TrueFoundry.Os LLMs mudariam a forma como pensamos sobre MLOps?
A plataforma TrueFoundry foi projetada para suportar modelos de Machine Learning e Deep Learning de todos os tipos, desde os mais simples, como Regressão Logística, até modelos de ponta como Stable Diffusion. Pode-se pensar, por que ela precisaria construir algo novo quando se trata de Grandes Modelos de Linguagem?
O tamanho e a complexidade desses modelos apresentam desafios significativos quando se trata de implantá-los em aplicações do mundo real. Embora a plataforma TrueFoundry já suportasse a implantação de modelos de todos os tamanhos em escala, percebemos que há mais otimizações (custo+tempo) e melhorias na experiência do usuário que poderíamos fazer para esses modelos.
Grandes Modelos de Linguagem (LLMs) vieram para ficar.
Grandes modelos de linguagem (LLMs), como o ChatGPT, inquestionavelmente geraram um grande entusiasmo no campo da inteligência artificial.
Mas, ao conversar com mais de 50 empresas que já estão começando a colocá-los em produção, o valor que eles já estão criando é imenso. Acreditamos que o uso de LLMs só vai se expandir à medida que as pessoas descobrem novos casos de uso todos os dias.

Mas colocar LLMs em produção é difícil.
Criar um caso de uso de Prova de Conceito com Grandes Modelos de Linguagem e APIs da OpenAI é fácil, mas quando você começa a pensar em produção 🚀, muitas outras considerações entram em jogo.
Para a maioria das empresas, construir a capacidade de engenharia para lidar com a complexa infraestrutura de GPU para servir LLMs de forma confiável é difícil e demorado. Além disso, a maioria das empresas quer modelos específicos que funcionem melhor para o seu caso de uso, para os quais precisam ajustar esses modelos. Isso pode ser tecnicamente desafiador e um empreendimento caro.

Implante LLMs de código aberto rapidamente!
Nossa posição sobre o futuro dos LLMs é que os Modelos de Código Aberto serão o caminho a seguir. Leia mais sobre nossas opiniões sobre o assunto aqui. Decidimos aproveitar esta comunidade de inovadores em rápida evolução e ajudar a equipar as empresas para utilizar todo o valor desses LLMs de código aberto em suas organizações.
A TrueFoundry quer que nossos parceiros possam perceber toda a gama de vantagens que os LLMs de Código Aberto, ajustados para seu caso de uso específico, podem trazer para suas organizações:
- Custo-benefício: Custo 5 a 10 vezes menor do que usar as APIs da OpenAI
- Privacidade Total dos Dados: No seu próprio cluster Kubernetes na nuvem/on-premise
- Controle total: para ajustar, reverter, etc.
No entanto, gerenciar e implantar modelos de código aberto em sua própria infraestrutura não é uma tarefa fácil. Embora implantação de LLM on-premise ofereça controle de dados incomparável, prontidão para conformidade e eficiência de custos a longo prazo, requer profunda experiência em orquestração de GPU, gerenciamento de Kubernetes e otimização de modelos.
Mas imagine se fosse tão fácil quanto conectar seus dados e alguns cliques?
Entendemos os desafios que as empresas enfrentam ao fazer a transição de provas de conceito de LLM para produção. Nosso objetivo é construir a camada que torna esse processo super fácil para nossos parceiros. Veja como fazemos isso:
Apresentando o Catálogo de Modelos
Da TrueFoundry Catálogo de Modelos é um repositório de todos os populares Modelos de Linguagem Grandes de Código Aberto (LLMs) que podem ser implementados com um único clique. O utilizador também pode ajustar o modelo diretamente a partir do catálogo de modelos.
O catálogo já suporta a maioria dos modelos populares, e estamos a adicionar suporte para mais todos os dias. Alguns dos modelos populares que já pode implementar na sua própria nuvem são:
- Pythia-70M
- Vicuna 7B 1.1 HF e Vicuna 13 B 1.1 HF
- Dolly V2 7B e Doly V2 12B
- Flan T5 XL
- Alpaca 7B e Alpaca 13B
E muitos mais.....
A Magia que fazemos com LLMs de Código Aberto 🪄
A nossa obsessão é que as empresas consigam lançar no primeiro dia. Para tornar isso possível, estes são os princípios nos quais estamos a construir as nossas capacidades de LLM:
- Otimização de Custos: Maximiza a utilização de recursos para reduzir despesas de infraestrutura sem sacrificar o desempenho.
- Implantação Simplificada: Implantação otimizada de LLMs com conteinerização e Kubernetes para escalabilidade contínua e alta disponibilidade.
- Gestão de Infraestrutura: Lida com tarefas complexas como alocação de GPU e gestão de Kubernetes, liberando as empresas para focar na otimização de LLMs.
- Abstrações Pré-Construídas: Oferece soluções prontas para fácil integração de LLMs em fluxos de trabalho existentes, eliminando a necessidade de desenvolvimento personalizado.
- Suporte para Escalonamento de Modelos: Permite o escalonamento de LLMs de todos os tamanhos e tipos para desempenho e eficiência ideais.
ℹ️
Para um passo a passo detalhado dos fluxos de treinamento e ajuste fino na interface do usuário, consulte este vídeo do YouTube
Tutorial: Implante LLMs em três cliques.
Implantar seus LLMs é tão fácil quanto clicar três vezes!
- Selecione o Modelo Desejado: Escolha entre uma variedade de modelos de linguagem de código aberto disponíveis no TrueFoundry. Sugerimos os melhores modelos para o seu caso de uso. (O benchmarking por tarefa estará disponível em breve!) Selecione o modelo que melhor se adapta ao seu problema ou caso de uso específico e clique no botão de implantação.
- Escolha os Recursos Apropriados: Confirme os recursos que deseja alocar ao modelo. O TrueFoundry oferece uma seleção curada de opções de hardware otimizadas para cada modelo para simplificar o processo de tomada de decisão que funciona bem com o modelo selecionado.
- Implante o Modelo: Depois de selecionar o modelo e o ambiente de implantação, basta clicar no botão “Enviar”. O TrueFoundry cuida das tarefas de bastidores envolvidas na configuração da infraestrutura, na configuração do modelo e na sua preparação para inferência.
🚀
Seu modelo foi implantado!
Iniciar Inferência com o endpoint da API do modelo. A TrueFoundry fornece a você a interface OpenAPI para testar seu modelo e o código de exemplo para chamar o modelo em suas aplicações.

Tutorial: Ajuste Fino de Grandes Modelos de Linguagem com TrueFoundry

A maioria das empresas desejaria usar modelos com ajuste fino para seu caso de uso específico. Para fazer o ajuste fino de um modelo com TrueFoundry:
- Selecione o Modelo Desejado: Escolha o modelo que deseja usar no catálogo. Depois de selecionar o modelo, clique no botão "Ajustar" para iniciar o processo.
- Escolha os Recursos Apropriados: Nós pré-configuramos os recursos sugeridos para a tarefa de ajuste fino. Os usuários podem alterá-los se anteciparem uma carga maior devido a alterações nas configurações.
- Implante o Trabalho de Ajuste Fino: Após selecionar o modelo e os recursos desejados, clique no botão "Submit". A TrueFoundry cuida das tarefas de bastidores envolvidas na configuração da infraestrutura e na configuração do trabalho de treinamento. O trabalho de ajuste fino começará a ser executado, utilizando os recursos de hardware especificados.
🚀
O modelo começou a fazer o ajuste fino!
Você pode monitorar o ajuste fino à medida que ele avança. Na aba de execuções de trabalho, você pode visualizar todas as informações relevantes associadas ao trabalho de treinamento, como métricas de perda, curvas de treinamento e resultados de avaliação. Isso permite que você acompanhe o processo de ajuste fino e tome decisões informadas com base no desempenho do trabalho.
O que vem a seguir?
Este é apenas o começo da nossa jornada com Modelos de Linguagem Grandes (LLMs) e IA Generativa. Estamos planejando construir muito mais nos próximos dias e manteremos vocês informados!
Converse conosco
Ainda estamos aprendendo sobre este assunto, assim como todos. Caso você esteja buscando aplicar Modelos de Linguagem Grandes na sua organização, adoraríamos conversar e trocar ideias.
Tome um ☕️ conosco
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI

















.webp)






.webp)

.webp)
.webp)





.png)



