Llama 2 LLM: Implante e Otimize na sua nuvem

Published: May 21, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

O momento ChatGPT do mundo open source chegou – a Meta lançou o seu mais recente conjunto de grandes modelos de linguagem de código aberto, chamados Llama 2 - uma coleção de modelos de texto generativos pré-treinados e ajustados, com escala de 7 bilhões a 70 bilhões de parâmetros.

Curiosidades e Mnemônicos sobre o Llama 2

O Llama 2 é treinado com base em dados online publicamente disponíveis, com aproximadamente 2 trilhões de tokens. Isso é mais de 300 vezes a Wikipédia inglesa inteira.
O Llama 2 foi treinado com 1 milhão de anotações humanas – compare com 15 mil conjuntos de dados rotulados para Dolly da Databricks.
O tempo de treinamento das variantes de 7B, 13B e 70B é relatado como 184 mil, 368 mil e 1,7 milhão de horas de GPU com A100-80GB. Isso, curiosamente, se aproxima de cerca de 1000 semanas de GPU para cada 1 bilhão de parâmetros. Ou seja, 70 semanas de treinamento se você estivesse usando 1000 GPUs em paralelo para o modelo de 70B.
O custo de GPU apenas para treinar esses modelos seria de aproximadamente $800 mil, $1,5 milhão e $8 milhões, respectivamente. Um total de $10 milhões em GPUs para a execução final! :)
Os dados de pré-treinamento são estáticos e atualizados até setembro de 2022, mas foram ajustados com os dados mais recentes até julho de 2023.
A janela de contexto é de 4k para as 3 variantes de 7B, 10B e 70B.

Por que você deveria se importar?

Bem, para começar, este está disponível para uso gratuito para fins de pesquisa e comerciais – o primeiro modelo do seu tipo com qualidade semelhante ao ChatGPT, apoiado por uma grande empresa de tecnologia, e disponível para ser implantado e ajustado hoje. (A menos que você tenha mais de 700 milhões de usuários ativos mensais no mês calendário anterior, caso em que você precisa obter uma licença da Meta para usá-lo!)
As versões ajustadas, chamadas Llama-2-Chat, são otimizadas para casos de uso de diálogo. Os modelos Llama-2-Chat superam os modelos de chat de código aberto na maioria dos benchmarks e estão no mesmo nível de alguns modelos populares de código fechado, como ChatGPT e PaLM, nas avaliações humanas de utilidade e segurança.
Para todos aqueles que esperavam por aprovações legais e de conformidade para usar serviços comerciais de código fechado como o OpenAI, e que ficaram desapontados com a qualidade das respostas das gerações anteriores de LLMs de Código Aberto – vocês têm a sua resposta. Mais importante ainda, é um reforço de como os LLMs de Código Aberto vieram para ficar e continuarão a melhorar.

Benchmarks de Qualidade do Llama 2

O Llama 2 demonstra um desempenho notável em vários benchmarks de LLM. Aqui está uma comparação entre os modelos Llama e ChatGPT:

Llama-2-70b-chat-hf modelo se aproxima ou até supera o desempenho do GPT-3.5, o modelo original do ChatGPT, em vários benchmarks. Você pode encontrar mais detalhes aqui. Detalhes sobre os conjuntos de dados e tarefas na seção do apêndice.

Custo de usar o Llama 2 em uma tarefa de exemplo

Muitos que colocaram aplicações baseadas em OpenAI em produção estão preocupados com as contas e com a sustentabilidade da escalabilidade dessas aplicações. Fizemos uma comparação sobre o que é preciso para executar um Llama 2 e como ele se compara a alguns dos modelos OpenAI.

Tarefa de Exemplo: Digamos que quiséssemos pegar a Wikipédia em inglês (6M de artigos, 1000 tokens cada) e resumi-los pela metade do tamanho usando LLMs. Cálculos detalhados podem ser encontrados neste blog. Aqui estão alguns pontos interessantes sobre o custo desta tarefa com vários modelos aqui-

Fazer isso com GPT-4 custaria cerca de US$ 360 mil.
A mesma tarefa com a variante GPT-3 Davinci (175B parâmetros) custaria cerca de US$ 180 mil e, se você usasse uma variante ajustada do Davinci, isso seria >US$ 1 milhão.
Em vez disso, se você usasse o modelo Curie (~7B parâmetros), o custo seria de US$ 18 mil e o custo da versão ajustada seria de ~US$ 125 mil.
Compare isso com o modelo Llama 2 de tamanho equivalente (variante de 7B). Custaria ~US$ 2 mil e a versão ajustada custaria ~US$ 3 mil. Isso representa uma diferença de custo de cerca de 9x e 40x em modelos comparáveis entre as versões pré-treinadas e ajustadas, respectivamente.

Implementando o modelo Llama-2-13b-chat

O modelo está disponível para uso através de Microsoft Azure, AWS e Huggingface. Você também pode implantar modelos Llama-2 através do TrueFoundry com poucos passos.

É necessário ter acesso aos modelos Llama-2 no Huggingface para implantá-los no TrueFoundry. Encontre mais informações aqui. O catálogo de modelos TrueFoundry é atualizado com os melhores e mais recentes LLMs de código aberto. Com o catálogo de modelos, tudo vem pré-configurado para a implantação dos modelos, e você pode implantá-los em sua própria infraestrutura de nuvem com um único clique. Os modelos Llama-2 estarão disponíveis em breve no catálogo de modelos para implantação com um clique. Mas, enquanto isso, os usuários do TrueFoundry ainda podem implantar modelos Llama-2 conforme descrito abaixo.

Na página de implantações, clique em Nova Implantação e escolha Serviço.

2. Podemos usar a biblioteca Text Generation Interface do Huggingface para implantar este modelo. Escolha implantar a imagem text-generation-inference (ghcr.io/huggingface/text-generation-inference:0.9) e substituir o comando pelo comando para iniciar o modelo necessário (text-generation-launcher --model-id meta-llama/Llama-2-13b-chat-hf):

3. Agora vamos definir o endpoint do modelo. O modelo será servido na porta 80, então vamos expô-la:

4. Como os modelos Llama-2 estão disponíveis apenas através de contas aprovadas, precisamos definir a chave da API do Huggingface como uma variável de ambiente. A chave deve ser HUGGING_FACE_HUB_TOKEN.

Observe que na imagem, estamos usando indiretamente a chave da API do Huggingface ao criar um segredo no TrueFoundry. Você também pode colar o valor diretamente, mas não recomendamos isso.

5. Finalmente, precisamos alocar os recursos conforme exigido por este modelo. Optei por implantar a versão do modelo 13b-chat em um nó com uma A100 de 40GB. Você pode configurar outros valores da seguinte forma:

6. Clique em Enviar e seu modelo será implantado e estará disponível no endpoint que você definiu.

Realizar inferência usando o modelo implantado

Você pode chamar o generate endpoint para obter inferências usando o modelo que acabamos de implantar. Há também uma biblioteca Python text-generation que você pode usar com seu código Python para utilizar o modelo implantado.

Usando requisição HTTP:

Usando o Cliente Python:

Você pode encontrar mais informações sobre os clientes aqui.

TrueFoundry LLM Playground

O TrueFoundry LLM Playground pode ser usado para solicitar e comparar modelos que você implantou no TrueFoundry e outros modelos como o ChatGPT. Uma vez que o modelo Llama-2 esteja implantado, também podemos testá-lo através do TrueFoundry LLM Playground:

TrueFoundry's LLM Playground — LLM Playground da TrueFoundry

Converse conosco

Ainda estamos aprendendo sobre este tópico, como todos os outros. Caso você esteja tentando usar Modelos de Linguagem Grandes em sua organização, adoraríamos conversar e trocar ideias.

Tome um ☕️ conosco
‍
Apêndice: Detalhes sobre tarefas e métricas

MMLU significa Compreensão de Linguagem Multitarefa Multilíngue. É um benchmark que mede o desempenho de modelos de linguagem em uma variedade de tarefas, incluindo resposta a perguntas, inferência de linguagem natural e sumarização. A intuição por trás do MMLU é que os modelos de linguagem devem ser capazes de entender e processar informações de várias maneiras, e que devem ser capazes de fazer isso em vários idiomas.

TriviaQA é um conjunto de dados de perguntas e respostas sobre tópicos factuais. É usado para medir a capacidade dos modelos de linguagem de responder a perguntas que exigem conhecimento factual. A intuição por trás do TriviaQA é que os modelos de linguagem devem ser capazes de acessar e processar informações de fontes externas, como a Wikipédia, para responder a perguntas factuais.

Perguntas Naturais é um conjunto de dados de perguntas feitas por humanos sobre informações do mundo real. É usado para medir a capacidade dos modelos de linguagem de compreender e responder a perguntas em linguagem natural. A ideia por trás do Natural Questions é que os modelos de linguagem devem ser capazes de entender as nuances da linguagem humana e gerar respostas relevantes e informativas.

GSM8k é um conjunto de dados de 8.000 perguntas geradas a partir de consultas do Google Search. É usado para medir a capacidade dos modelos de linguagem de compreender e responder a perguntas semelhantes às que as pessoas fazem no Google Search. A ideia por trás do GSM8k é que os modelos de linguagem devem ser capazes de entender a intenção das consultas humanas e gerar respostas relevantes e informativas.

HumanEval é um parâmetro de avaliação que mede o desempenho de modelos de linguagem em uma variedade de tarefas, pedindo a humanos que avaliem as saídas dos modelos. A ideia por trás do HumanEval é que a avaliação humana é uma parte necessária da análise do desempenho dos modelos de linguagem, pois pode ajudar a identificar áreas onde os modelos ainda estão com dificuldades.

AGIEval é um parâmetro de avaliação que mede a capacidade dos modelos de linguagem de realizar tarefas tipicamente associadas à inteligência artificial geral. A ideia por trás do AGIEval é que os modelos de linguagem devem ser capazes de compreender e raciocinar sobre o mundo de uma forma semelhante à dos humanos.

BoolQ é um conjunto de dados de perguntas que exigem lógica booleana para serem respondidas. É usado para medir a capacidade dos modelos de linguagem de compreender e raciocinar com declarações lógicas. A ideia por trás do BoolQ é que os modelos de linguagem devem ser capazes de compreender o significado de declarações lógicas e gerar respostas consistentes com essas declarações.

HellaSwag é um conjunto de dados de perguntas escritas em um estilo "swag", que é um tipo de linguagem informal frequentemente usada nas redes sociais. É usado para medir a capacidade dos modelos de linguagem de compreender e gerar linguagem natural em uma variedade de estilos. A ideia por trás do HellaSwag é que os modelos de linguagem devem ser capazes de compreender e gerar linguagem natural que seja apropriada para o contexto em que está sendo usada.

OpenBookQA é um conjunto de dados de perguntas que podem ser respondidas consultando um grande corpus de texto. É usado para medir a capacidade dos modelos de linguagem de acessar e processar informações de fontes externas. A ideia por trás do OpenBookQA é que os modelos de linguagem devem ser capazes de acessar e processar informações de uma variedade de fontes para responder a perguntas.

QuAC é um conjunto de dados de perguntas feitas sobre conversas. É usado para medir a capacidade dos modelos de linguagem de compreender e seguir o contexto de uma conversa. A ideia por trás do QuAC é que os modelos de linguagem devem ser capazes de compreender o contexto de uma conversa e gerar respostas relevantes para a conversa.

Winogrande é um conjunto de dados de perguntas desafiadoras para os modelos de linguagem responderem. É usado para medir a capacidade dos modelos de linguagem de compreender e responder a perguntas complexas. A ideia por trás do Winogrande é que os modelos de linguagem devem ser capazes de compreender e responder a perguntas complexas que exigem uma compreensão profunda do mundo.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now