Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

A Carga de Trabalho de IA Está Inflando Sua Fatura da Nuvem?

By Shubham Rai

Updated: August 31, 2023

Acreditamos firmemente que toda empresa será uma empresa de Machine Learning (ML) nos próximos anos. À medida que as organizações adotam o ML, um dos desafios significativos que enfrentam é gerenciar os custos de nuvem associados. Executar cargas de trabalho de IA/ML na nuvem pode rapidamente se tornar caro, mas com planejamento e otimização cuidadosos, é possível reduzir esses custos significativamente.

Neste post do blog, exploraremos várias estratégias para ajudar você a otimizar sua infraestrutura de IA, reduzindo, em última instância, suas despesas de nuvem sem comprometer o desempenho ou a escalabilidade. Abaixo estão as categorias amplas a serem consideradas:

  1. Medir e Atribuir
  2. Reduza os custos de computação usando instâncias spot / reservadas
  3. Escolha a arquitetura de implantação correta
  4. Implemente o autoescalonamento
  5. Colocalização de computação e dados
  6. Adote notebooks hospedados com parada automática em vez de fornecer uma VM dedicada para cada desenvolvedor
  7. Use checkpointing sempre que possível para retomar trabalhos de treinamento de longa duração.
  8. Utilização eficiente de GPU

Medir e Atribuir

Após trabalhar com várias organizações e com base em nossa própria experiência anterior, grande parte do custo decorre apenas de erros humanos de esquecer de desligar VMs, serviços ou de um design de arquitetura incorreto que gera mais custos. Ter visibilidade total de quem possui o quê e qual custo é incorrido por equipe/projeto ajuda a identificar o desperdício de custos mais rapidamente e permite que todos sejam responsáveis por seus próprios projetos.

Você não pode melhorar o que não mede

O primeiro passo para otimizar a carga de trabalho de ML é começar a medir e contabilizar a atribuição. Abaixo estão algumas das iniciativas que você pode empreender:

  1. Rastreie os custos em cada microsserviço, projeto ou nível de equipe.
  2. Forneça visibilidade de custos a todos os desenvolvedores e garanta que eles tenham autonomia para entender e reduzir os custos.
  3. Configure alertas sobre custos na nuvem.
  4. Use ferramentas como Infracost.io para medir o custo da infraestrutura antes do provisionamento, se estiver usando Terraform.

Reduzir Custos de Computação

Cargas de trabalho de ML geram custos de computação enormes, principalmente porque exigem muitos recursos de computação – sejam requisitos de CPU elevados ou GPUs, ambos se revelam muito caros. Abaixo estão algumas das etapas que você pode seguir para reduzir o custo de computação:

  1. Destilação e Poda de Modelos para reduzir os requisitos de recursos do seu modelo
  2. Use instâncias Reservadas e de Spot para reduzir o custo. As instâncias Spot do EC2, de acordo com a Amazon, podem potencialmente economizar até 90% do que você gastaria em instâncias sob demanda.
  3. Escolha a configuração de recursos correta: Frequentemente, descobrimos que as equipes de ML superprovisionam os recursos para serviços de ML e trabalhos de treinamento. Isso pode significar escolher o tipo de instância errado se você estiver trabalhando com VMs, ou escolher os requisitos errados de CPU e memória. É importante ter visibilidade da CPU/memória solicitada e utilizada para poder ajustar os valores para um custo ideal.

👉

Instância Spot: Uma Instância Spot permite que você acesse e utilize capacidade EC2 não utilizada a uma taxa significativamente descontada.

Ao iniciar uma Instância Spot, você especifica um preço máximo que está disposto a pagar por hora. Se o preço Spot para o tipo de instância e Zona de Disponibilidade que você solicita for menor que o seu preço máximo, sua instância será iniciada. No entanto, se o preço Spot para esse tipo de instância e Zona de Disponibilidade aumentar acima do seu preço máximo, sua instância poderá ser encerrada com um aviso de dois minutos.

👉

Instância Reservada: Neste caso, você se compromete a usar uma certa quantidade de capacidade EC2 por um determinado período de tempo. Em troca, você recebe um desconto significativo sobre o preço sob demanda dessa capacidade.

Fizemos um estudo comparativo na região Leste dos EUA (N. Virginia) e descobrimos que:

  1. As instâncias Spot estavam disponíveis por uma taxa 44%-62% mais barata.
  2. Instâncias reservadas de 1 ano estão disponíveis para uma taxa 14% a 37% mais barata.
Preços de exemplo para N. Virgínia (1 de setembro de 2023)

Escolha a arquitetura de implantação ideal

Diferentes casos de uso em ML exigem arquiteturas distintas, e a escolha de um design inadequado pode resultar em enormes diferenças nos custos. Alguns dos casos de uso e erros mais comuns que observamos são:

  1. Inferência em Tempo Real: Neste caso, a latência de inferência do modelo é inferior a 1-2 segundos (muitas vezes na ordem de milissegundos) e o volume de tráfego é alto. O modelo deve ser implantado como uma API de autoescalonamento em tempo real e geralmente constatamos que requisições/segundo é uma métrica melhor para autoescalonamento do que CPU ou memória em muitos casos de uso de ML. Se o volume de tráfego for intermitente (como 2-3 horas por dia) e o modelo for pequeno, a implantação serverless (AWS Lambda) revela-se um modo de implantação mais econômico.
  2. Inferência Assíncrona: Neste caso, a lógica de processamento pode levar alguns segundos e uma fila precisa ser provisionada para maior confiabilidade – caso contrário, isso leva a falhas e perdas nos resultados de negócios. Para autoescalonamento, o tamanho da fila é uma boa métrica nestes casos de uso.
  3. Múltiplos modelos pequenos com tráfego intermitente: Este é um caso de uso comum em muitas empresas onde os modelos são específicos do cliente. Neste caso, há um grande número de modelos e cada um deles recebe um baixo volume de tráfego, e as expectativas de latência são bastante baixas. Neste caso, um contêiner hospeda múltiplos modelos, e os modelos são carregados e descarregados dinamicamente na memória conforme a necessidade. Existem desafios relacionados a quais modelos já estão carregados em quais pods e as requisições precisam ser roteadas de acordo.
  4. Processamento infrequente/tarefas cron intensivas em recursos: Este pode ser o caso de uso se os modelos forem treinados dinamicamente com base em algumas ações do usuário. Neste caso, a inferência assíncrona pode não funcionar, pois o trabalho de processamento pode levar minutos. Neste caso, o processamento deve ser enviado como tarefas para um orquestrador de fluxo de trabalho e as atualizações em tempo real da tarefa devem ser enviadas para uma fila de notificação.

Muitas vezes, modelar um dos casos de uso em uma arquitetura diferente pode levar à perda de confiabilidade, latência adicional ou grandes contas de nuvem.

Implementar Autoescalonamento

As pessoas assumem que o autoescalonamento é útil apenas quando há um alto volume de tráfego e as máquinas precisam ser escaladas para cima ou para baixo com base no tráfego de entrada. No entanto, também queremos estender o conceito de autoescalonamento para ambientes de desenvolvimento para economizar custos. Algumas áreas onde o autoescalonamento pode ajudar a economizar custos drasticamente são:

  1. Escale seus requisitos de computação automaticamente com base na demanda: Aproveite os recursos de autoescalonamento para ajustar dinamicamente o tamanho da sua infraestrutura com base nas demandas de carga de trabalho. Ao escalar automaticamente para cima ou para baixo, você pode otimizar a utilização de recursos e reduzir custos durante períodos de baixa atividade. Identifique limites e gatilhos de escalonamento apropriados com base nos seus padrões de carga de trabalho para garantir uma alocação ideal de recursos.
  2. Escale a infraestrutura para zero quando não estiver em uso (ex: instâncias de desenvolvimento à noite): Parte da infraestrutura em uma organização não é necessária quando não há usuários. Implementar um sistema de escalonamento da infraestrutura de computação para zero quando não for necessária pode gerar uma quantidade significativa de economia para uma organização.
  3. Solicite reserva de instâncias com seu provedor de nuvem: A contratação de instâncias reservadas com seu provedor de nuvem pode gerar bons descontos onde você tem um requisito de computação mais previsível.
  4. Garanta o uso de instâncias spot para cargas de trabalho sem estado: Aproveite as instâncias spot (AWS) ou VMs preemptivas (Google Cloud) para cargas de trabalho de ML tolerantes a falhas. Essas instâncias são significativamente mais baratas do que as instâncias sob demanda, permitindo que você economize custos ao licitar capacidade não utilizada. No entanto, esteja ciente da potencial terminação da instância e projete sua infraestrutura para lidar com interrupções de forma elegante. Para mostrar a diferença nos preços de instâncias sob demanda e spot, vamos comparar os preços de GPU T4 por mês na AWS e Azure.
g4dn.xlarge : $383 (Sob demanda) vs $115 (Spot)
NC4as T4 v3: $383 (Sob demanda) vs $49 (Spot)

Colocalização de computação e dados

É importante colocalizar os dados e a computação para que não incorramos em muitos custos de entrada/saída. Geralmente, os processos de treinamento envolvem o download dos dados para as máquinas onde o modelo está sendo treinado. Algumas coisas a serem observadas aqui para evitar custos inesperados são:

  1. Compartilhe dados entre vários cientistas de dados: É importante manter uma única cópia dos dados de treinamento de entrada que possa ser usada por diferentes cientistas de dados, em vez de fazer uma cópia para cada cientista de dados. Isso pode ser alcançado montando um volume somente leitura com os dados em todas as máquinas de treinamento.
  2. Exclua volumes não utilizados: Muitas vezes esquecemos de excluir os volumes que podemos ter criado, o que levará a volumes órfãos que ficam por aí gerando custos.

Desligamento automático de notebooks com base na inatividade

Muitas vezes, Cientistas de Dados iniciam uma VM, configuram o Jupyter Notebook lá, ou o usam via SSH no VSCode. Embora essa abordagem funcione, muitas vezes leva os desenvolvedores a esquecerem de desligar as VMs quando terminam o trabalho. Isso resulta em um grande desperdício de custos. Vale a pena investir em notebooks hospedados com desligamento automático assim que a equipe de DS crescer para mais de 5 membros.

Utilização Eficiente da GPU

As GPUs são amplamente utilizadas em ML, no entanto, em muito poucos casos, são usadas de forma eficiente. Este artigo esclarece muito bem como as GPUs são usadas atualmente e as ineficiências. Compartilhar a GPU entre cargas de trabalho e técnicas de agrupamento eficientes são essenciais para utilizar a GPU de forma eficaz.

Como a TrueFoundry pode ajudar a reduzir custos?

A TrueFoundry ajudou a economizar um mínimo de cerca de 40% nos custos de infraestrutura para todos os seus clientes.

Usamos Kubernetes

O Kubernetes ajuda a reduzir custos ao empacotar eficientemente as cargas de trabalho entre os nós e garantindo que o cluster esteja sendo usado de forma eficaz. Este é um ótimo artigo que esclarece melhor como o Kubernetes ajuda a economizar custos

Economize 60% nos Custos de Desenvolvimento com Autoescalonamento Baseado em Tempo

A TrueFoundry torna muito fácil desligar suas instâncias de desenvolvimento usando o recurso de autoescalonamento baseado em tempo. Os desenvolvedores trabalham principalmente cerca de 40 horas por semana, enquanto as máquinas funcionam quase 128 horas por semana. Se desligássemos as máquinas de forma eficaz, poderíamos economizar cerca de 60% do custo.

Desligamento automático de notebooks por inatividade

A Truefoundry permite que cientistas de dados configurem um período de tempo limite de inatividade em cada notebook, após o qual o notebook será desligado automaticamente.

Desligamento Automático de Notebooks

Isso ajuda a economizar muitos custos, especialmente se os notebooks estiverem rodando em GPUs.

Instâncias spot fáceis de usar

A Truefoundry facilita muito o uso de instâncias spot/sob demanda para desenvolvedores. Desenvolvedores e cientistas de dados conhecem suas aplicações melhor do que ninguém – por isso, deixamos que eles decidam a melhor opção para suas aplicações.

Também mostra as compensações de custo entre instâncias spot e sob demanda para que você faça a escolha certa de acordo com seu caso de uso.

Economia de Preço com Instâncias Spot

Cotas de recursos para equipes/desenvolvedores

A Truefoundry permite definir cotas de CPU, memória e GPU para diferentes equipes e desenvolvedores, o que permite aos líderes ter uma noção da alocação de custos entre as equipes e também evitar erros dos desenvolvedores, não permitindo que ultrapassem os limites alocados.

Insights relacionados à Otimização de Custos

A Truefoundry mostra automaticamente os recursos de CPU e memória recomendados para seu serviço, analisando o consumo do serviço nos últimos dias. Atualmente, ela recomenda as solicitações e limites sugeridos de CPU e memória – no entanto, também planejamos recomendar automaticamente a estratégia de autoescalonamento e a arquitetura correta no futuro.

Faça a Avaliação

Quer avaliar como otimizar o custo da carga de trabalho de IA? Criamos uma avaliação fácil de fazer em 5 minutos.

Prometemos compartilhar o relatório personalizado com você.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: A próxima fronteira no cenário de MLOps

August 27, 2025
|
5 min read

Gateways de IA: Do Pânico da Interrupção à Espinha Dorsal Empresarial

May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour