Executar grandes modelos de linguagem (LLMs) diretamente na sua própria máquina deixou de ser um privilégio de grandes corporações para se tornar uma realidade acessível a desenvolvedores e entusiastas de inteligência artificial. Rodar modelos como Command R (35B), Llama 3 (70B) ou Qwen 2 (72B) em um servidor local garante privacidade inabalável para dados confidenciais, latência de inferência reduzida e custo recorrente zero de APIs. No entanto, para tirar proveito prático de redes neurais com mais de 30 bilhões de parâmetros, montar um computador convencional não é suficiente: o hardware precisa ser projetado estrategicamente.

Ao contrário dos computadores tradicionais montados para jogos, onde a CPU e a taxa de quadros (FPS) da placa de vídeo ditam a prioridade, uma estação de trabalho para processamento de IA é desenhada em torno do barramento e da capacidade de memória de vídeo dedicada (VRAM). O maior obstáculo na execução local de inteligência artificial é a velocidade de transmissão de dados. Se os pesos do modelo excederem o tamanho físico da VRAM, o sistema operacional usará a memória RAM convencional, resultando em lentidões drásticas que reduzem a inferência a marcas sofríveis de 1 ou 2 tokens por segundo.

Neste guia técnico detalhado, analisaremos quais peças você precisa comprar para montar um pc para llm local focado em modelos grandes (acima de 30B e 70B), gastando o mínimo possível. Apresentamos duas configurações completas com preços de mercado reais, avaliamos a compatibilidade dos slots de barramento PCIe, o dimensionamento elétrico e a refrigeração física desses setups. Continue a leitura para entender como projetar sua workstation de IA ideal.

⚡ Resumo Rápido:

  • A Chave é a VRAM: Para rodar modelos acima de 30B (como 35B quantizados) com boa velocidade, você precisará de pelo menos 24GB de VRAM dedicada.
  • O Melhor Custo-Benefício: A GPU NVIDIA RTX 3090 24GB comprada no mercado de usados é a escolha campeã devido ao baixo custo em relação a placas novas da série 40.
  • Setup Single GPU: Indicado para modelos de 30B-35B inteiramente carregados na placa gráfica e modelos de 70B em modo híbrido CPU+GPU.
  • Setup Dual GPU: Duas RTX 3090 somam 48GB de VRAM, permitindo rodar o Llama 3 70B (Q4_K_M) a ótimas taxas de 15 a 20 tokens por segundo.
  • Atenção à Energia e Calor: Duas GPUs exigem fontes de 1300W+ de alta eficiência e o uso de risers ou frames abertos para evitar estrangulamento térmico.

Nossa Metodologia de Teste e Seleção de Componentes

Para estruturar este guia de hardware, nossa equipe aplicou critérios estritos de engenharia de computadores voltados especificamente a algoritmos de aprendizado profundo (Deep Learning). Avaliamos e validamos a compatibilidade de peças considerando os seguintes gargalos práticos:

  1. Alocação Total de Pesos em Memória Rápida: Medimos o tamanho ocupado em memória de arquivos de modelos quantizados em 4 bits (Q4_K_M GGUF), que representa o padrão ideal para o consumidor final por manter a inteligência com 75% menos tamanho.
  2. Largura de Banda PCIe (Bifurcação de Canais): Analisamos o impacto da velocidade do barramento PCIe (x4 vs x8 vs x16) durante a troca de ativações na inferência em setups multi-GPU.
  3. Spikes Transientes de Potência Elétrica: Dimensionamos fontes com circuitos de proteção robustos para suportar os surtos repentinos de energia comuns em placas de vídeo de alta gama sob estresse de IA.
  4. Engenharia Térmica de Chassi: Avaliamos o fluxo de ar para evitar a retenção de calor por placas de vídeo instaladas em slots adjacentes.

Declaração de Transparência: Este post apresenta especificações e compatibilidade de hardware comercializado no Brasil. Não possuímos parceria comercial com fabricantes de componentes e indicamos preços reais estimados com base em anúncios vigentes de varejistas de informática e marketplaces.

O Hardware Ideal para IA Local: Por que a VRAM dita as Regras?

Diferentemente de jogos que dependem de renderizações complexas frame a frame, os grandes modelos de linguagem exigem o processamento de bilhões de parâmetros matemáticos a cada token gerado. Placas de vídeo convencionais possuem memórias VRAM com larguras de banda de transferência absurdamente altas (de 500 a 1000 GB/s), enquanto a memória RAM comum do processador no sistema opera a taxas muito mais modestas (de 40 a 80 GB/s). Se o modelo quantizado for maior do que a VRAM disponível da placa física, o excesso é descarregado na RAM, gerando um gargalo no barramento da placa-mãe que destrói a fluidez da geração de texto.

Por essa razão, placas de vídeo da NVIDIA com ecossistema CUDA são a escolha preferencial. A ampla maioria das bibliotecas de inferência e repositórios hospedados no Hugging Face é otimizada nativamente para CUDA, garantindo instalação simples e aceleração de hardware automática em motores de execução amigáveis como o Ollama.

Para compreender como essas ferramentas locais se comportam e como gerenciar os modelos no seu computador após a montagem do PC, confira nosso comparativo prático das ferramentas de inferência como Ollama, LM Studio e Open WebUI.

Setup 1: PC de Entrada para IA Local (Single GPU – Foco em 30B-35B)

Este computador foi projetado para oferecer o menor custo de entrada na plataforma AM5 de memórias DDR5 rápidas. Ele utiliza uma única GPU RTX 3090 de 24GB (comprada no mercado de usados), ideal para carregar modelos de 30B-35B inteiramente na memória de vídeo, enquanto os 64GB de memória de sistema permitem rodar modelos maiores de 70B de forma híbrida e compartilhada.

ComponentePeça RecomendadaJustificativa de CompatibilidadePreço Médio
Placa de Vídeo (GPU)NVIDIA RTX 3090 24GB (Usada)24GB VRAM GDDR6X veloz e núcleos tensores dedicados para aceleração de IA.R$ 6.500
Processador (CPU)AMD Ryzen 5 7600 (AM5)Soquete AM5 estável, consome pouca energia (65W) e acompanha cooler Wraith Stealth.R$ 1.350
Placa-MãeMSI PRO B650M-A WiFiChipset B650 robusto, excelente dissipação térmica de VRM e WiFi integrado.R$ 1.100
Memória RAM64GB DDR5 (2x 32GB) 6000MHzVelocidade de transferência DDR5 para paginação híbrida e slots livres para futuros 128GB.R$ 1.550
Armazenamento (SSD)Kingston KC3000 2TB NVMeLeitura de 7.000 MB/s para carregamento de modelos de 40GB+ em segundos.R$ 950
Fonte de Alimentação (PSU)XPG Core Reactor 850W GoldFonte Tier A modular para absorver os picos transientes de potência da RTX 3090.R$ 700
GabineteMontech Air 903 MaxChassi de alta ventilação, com 4 ventoinhas de 140mm e espaço para placas grandes.R$ 450
Cooler de CPUDeepcool AG400 Air CoolerSubstituição silenciosa do cooler box para garantir baixa temperatura de CPU.R$ 130
VALOR TOTALConfiguração de entrada com GPU de 24GB VRAM dedicadaR$ 12.730

Se você deseja comparar essa configuração de PC com opções móveis mais compactas antes de investir na montagem, vale a pena dar uma olhada nas nossas análises de notebooks baratos para LLM local e seus respectivos limites de memória.

Setup 2: PC “Workstation Monstra” (Dual GPU – Foco em 70B)

Esta máquina foi dimensionada para carregar modelos de até **70B parâmetros** inteiramente na VRAM acelerada, somando 48GB de VRAM ativa. Ela exige componentes de suporte mais potentes: uma placa-mãe premium que suporta divisão PCIe direto do processador, fonte Platinum de altíssima amperagem e uma estrutura de montagem aberta para controle total de temperatura.

ComponentePeça RecomendadaJustificativa de CompatibilidadePreço Médio
Placas de Vídeo (GPUs)2x NVIDIA RTX 3090 24GB (Usadas)48GB de VRAM combinada para processar modelos de 70B em precisão Q4.R$ 13.000
Processador (CPU)AMD Ryzen 7 7700 (AM5)8 núcleos e 16 threads. Agiliza a distribuição de ativações (Prefill) entre as GPUs.R$ 1.950
Placa-MãeASUS ProArt X670E-Creator WiFiDuas linhas PCIe divididas em x8/x8 vindas diretamente da CPU sem gargalos de chipset.R$ 3.400
Memória RAM64GB DDR5 (2x 32GB) 6000MHzBarramento DDR5 rápido para garantir comunicação do sistema de IA.R$ 1.550
Armazenamento (SSD)Kingston KC3000 2TB NVMeRápida leitura de dados do SSD para preencher os buffers de VRAM das placas de vídeo.R$ 950
Fonte de Alimentação (PSU)XPG Cybercore 1300W PlatinumCertificação Platinum. Capacidade de entregar energia limpa e lidar com surtos de dual GPU.R$ 1.500
Gabinete / FrameSuporte Aberto Metálico (Rig)Evita superaquecimento das placas de 3 slots que sufocariam em gabinetes fechados.R$ 250
Cabos Extensores2x Riser PCIe 4.0 x16 LinkupPermite instalar as placas afastadas uma da outra fora dos slots físicos da placa-mãe.R$ 600
Cooler de CPUDeepcool AK620 Air CoolerTorre dupla de alto desempenho térmico para refrigerar o Ryzen 7 7700.R$ 380
VALOR TOTALConfiguração de alto nível (Workstation de IA local de 48GB VRAM)R$ 23.080

Caso tenha interesse em saber o que de fato você pode programar e construir na sua própria máquina após montá-la, consulte nosso guia sobre o que dá para fazer com um LLM local em termos de automações comerciais.

Compatibilidade e Engenharia Física: Risers e Energia

Montar uma máquina com múltiplas placas de vídeo requer cuidados de hardware específicos que não existem em PCs comuns de escritório. Deixar de planejar a alimentação ou o posicionamento das placas comprometerá a integridade do sistema:

1. Espaçamento Físico de Placas: A maioria das placas de vídeo RTX 3090 comercializadas possui de 2.7 a 3 slots de espessura de dissipadores de calor. Conectar ambas diretamente nos dois slots físicos da placa-mãe fará com que fiquem coladas. A placa superior sugará ar já aquecido pela placa inferior, sofrendo *thermal throttling* e derrubando a inferência de IA. O uso de **Riser PCIe 4.0 x16** flexíveis de alta blindagem permite fixar as placas verticalmente ou externamente em frames abertos (Rigs), sanando o problema.

2. Dimensionamento da Fonte (Picos Transientes): A arquitetura da RTX 3090 apresenta surtos de potência muito altos, exigindo componentes internos de fonte de extrema qualidade com proteções OCP (Overcurrent Protection). É altamente recomendável limitar o consumo de energia (Power Limit) de cada placa para **250W** via terminal linux com a ferramenta *nvidia-smi*. Isso reduz a temperatura em cerca de 30% e corta o consumo elétrico excessivo, com uma queda imperceptível de apenas 3% a 5% na velocidade de tokens por segundo na geração.

Para usuários avançados que querem aprender a extrair a máxima capacidade destas placas de vídeo para adaptar modelos aos seus próprios dados, confira nosso post detalhado de como fazer fine-tuning de modelos de IA em ambientes domésticos.

O que funciona de verdade e o que é perda de tempo

Ao investir em peças de workstation de IA local, siga estas diretrizes práticas baseadas em benchmarks da comunidade para não gastar dinheiro de forma inútil:

O que funciona de verdade:

  • GPU NVIDIA RTX 3090 Usada: É de longe o melhor custo-benefício de 24GB VRAM do mercado de IA local.
  • Gabinete Tipo Rig (Open Air): Montar as placas de vídeo de forma suspensa e arejada elimina totalmente problemas térmicos por uma fração do custo de gabinetes Full Tower.
  • Memórias DDR5 AM5: Plataformas DDR5 aumentam o barramento de transbordo caso você queira rodar modelos que excedam o limite físico de VRAM.
  • Cabos Risers PCIe 4.0 Blindados: Evitam a perda de pacotes e interferência eletromagnética na transmissão de dados.

O que é perda de tempo:

  • Comprar RTX 4090 Novas no Orçamento Apertado: O custo de uma RTX 4090 nova no Brasil compra quase o setup dual GPU completo com duas RTX 3090 usadas.
  • Ignorar a Qualidade da Fonte: Comprar fontes baratas sem certificação Tier A. A RTX 3090 desarmará o computador e poderá danificar componentes devido aos surtos de energia.
  • Rodar Modelos 70B FP16 Sem Quantização: Consomem mais de 140GB de VRAM e exigem setups industriais caríssimos. A quantização Q4 entrega a mesma utilidade por uma fração do hardware.

Erros comuns que impedem resultados

Abaixo estão os maiores equívocos metodológicos na montagem de máquinas focadas em computação acelerada por IA:

  1. Subestimar o calor gerado por Dual GPU RTX 3090: Duas placas de vídeo operando sob carga total de processamento dissipam juntas de 500W a 700W de calor. Deixá-las em gabinetes fechados comuns sem fluxo direcionado ou saídas de exaustão potentes reduzirá o desempenho térmico rapidamente.
  2. **Utilizar cabos extensores (Risers) de baixa qualidade (PCIe 3.0):** Risers baratos provocam perdas constantes de transmissão e forçam a placa-mãe a rebaixar as conexões de barramento de PCIe 4.0 para PCIe 3.0, o que reduz sensivelmente a taxa de carregamento de prompts e o rendimento geral.
  3. Ignorar as proteções elétricas da rede doméstica: Ligar um PC com consumo de carga constante de mais de 800W em tomadas simples ou extensões sem o devido dimensionamento elétrico pode provocar derretimento de conectores e fiação. Use fiação adequada com disjuntores compatíveis.

Perguntas Frequentes (FAQ)

Qual a diferença de velocidade em inferência de IA entre barramentos PCIe x4 e x8?

Em motores como o llama.cpp com divisão clássica de camadas (layer splitting), o impacto de tokens/s de inferência textual na velocidade gerada entre PCIe 4.0 x4 e x8 é de menos de 5%. O barramento PCIe maior impacta apenas na velocidade de carregamento inicial do modelo do SSD para as placas gráficas.

Por que o NVLink não é obrigatório para rodar modelos de 70B com duas placas de vídeo?

O llama.cpp faz a divisão horizontal das camadas (Split Layer), processando a maior parte de forma isolada na VRAM de cada placa gráfica. A comunicação entre os chips é leve na inferência sequencial, permitindo que a troca de ativações seja feita de forma satisfatória pelo barramento PCIe da placa-mãe sem a necessidade de pontes NVLink físicas.

Consigo rodar modelos com mais de 70B parâmetros em um setup de 48GB VRAM?

Sim, você consegue executar modelos de até 104B parâmetros de forma híbrida no Ollama ou LM Studio, configurando as ferramentas para carregar 40GB de camadas diretamente nas GPUs aceleradas e descarregando as camadas excedentes na RAM física do sistema (desde que tenha os 64GB de RAM DDR5 instalados).

Para receber as últimas notícias e conteúdos exclusivos, inscreva-se na newsletter.

Picture of Gilberto Sales

Gilberto Sales

Especialista em Marketing Digital e Tecnologia. Ajudo empresas a escalar vendas usando dados e automação.