A NVIDIA lançou o DGX Spark como "um supercomputador de IA na sua mesa": uma caixa dourada de US$ 4 mil (por volta de R$ 22 mil) com 128 GB de memória, capaz de carregar modelos de IA que não cabem em quase nenhum computador comum. Aí vieram os testes independentes e o resultado incomodou: em velocidade de resposta, a caixa da NVIDIA empata com um Mac mini que custa um terço do preço, perde para os Macs com chip M5 Max e apanha de uma placa de vídeo de videogame, a RTX 5090. Não é defeito de fabricação. É um número da ficha técnica que o marketing não destaca: a largura de banda da memória.
Este post explica, sem tecniquês, por que isso acontece, mostra os números dos testes públicos e tira a lição que importa para quem está pensando em ter IA rodando dentro da própria empresa: o hardware certo não é o da marca mais famosa nem o da memória maior. É o que foi dimensionado para o seu caso.
Memória grande diz o que cabe. Largura de banda diz o que anda.
Pense num armazém. O tamanho do armazém (a memória, medida em GB) define quanto estoque você consegue guardar. A largura da porta (a largura de banda, medida em GB por segundo) define quanto estoque entra e sai por minuto. Um armazém gigante com uma porta de garagem estreita guarda muita coisa e movimenta pouca.
Com IA é igual, com um detalhe que quase ninguém conta: quando uma IA escreve uma resposta, ela precisa reler o modelo inteiro da memória para cada palavra que gera. Não é uma leitura no começo e pronto. É o modelo inteiro, de novo, a cada palavra. Então a velocidade máxima de escrita é uma conta de padaria: largura de banda dividida pelo tamanho do modelo.
O DGX Spark move 273 GB por segundo. Um modelo de 70 bilhões de parâmetros, comprimido no formato que todo mundo usa, ocupa uns 40 GB. Divida um pelo outro: no melhor caso teórico, 7 palavras por segundo. Na prática, menos. Uma pessoa lê entre 4 e 5 palavras por segundo, ou seja, a máquina de US$ 4 mil entrega o texto quase na velocidade em que você lê. Para um chat de uma pessoa só, dá para conviver. Para uma operação com dezenas de atendimentos, análises de documentos e agentes trabalhando em lote, é fila na porta do armazém.
Os números, lado a lado
Largura de banda de memória de cada máquina, segundo as fichas técnicas oficiais:
- NVIDIA DGX Spark: 128 GB de memória, 273 GB/s, US$ 4 mil.
- Mac mini (chip M4 Pro): até 64 GB de memória, os mesmos 273 GB/s, por cerca de um terço do preço.
- MacBook Pro com chip M5 Max: 614 GB/s, mais que o dobro do Spark.
- RTX 5090 (placa de vídeo de videogame): 32 GB de memória, 1.792 GB/s, seis vezes e meia a banda do Spark.
E os testes práticos confirmam a conta. No benchmark público do llama.cpp (a ferramenta mais usada no mundo para rodar IA no próprio computador), o DGX Spark gera cerca de 35 palavras por segundo num modelo grande, de 120 bilhões de parâmetros. Uma GPU profissional da própria NVIDIA, com banda de memória alta, faz 180 palavras por segundo na mesma tarefa: cinco vezes mais rápido. E modelos médios, que cabem nos 32 GB da RTX 5090, rodam na placa de videogame várias vezes mais rápido do que no Spark, porque a banda dela é seis vezes maior.
Uma honestidade importante: o Spark não é lento em tudo. Ele lê a pergunta e os documentos de entrada muito rápido, porque isso depende do poder de cálculo, que ele tem de sobra. O gargalo aparece na hora de escrever a resposta, que é exatamente a parte que o usuário fica esperando na tela.
"Mas ele roda modelos que os outros não rodam"
Verdade. Os 128 GB de memória compartilhada carregam modelos que não cabem nem no Mac mini nem na RTX 5090. Esse é o argumento de venda inteiro. O problema é a palavra "roda". Carregar um modelo gigante e gerar 3 a 7 palavras por segundo é como contratar um consultor brilhante que dita o relatório a uma palavra por segundo: o conhecimento está lá, o resultado não chega em tempo útil.
Memória compartilhada grande sem largura de banda é o armazém gigante com porta estreita. Serve para guardar, não para operar. Por isso os testes independentes chegaram todos à mesma conclusão: o Spark é uma ótima máquina de laboratório para desenvolvedores do ecossistema NVIDIA testarem modelos grandes antes de mandar para o data center. Como máquina de produção, para sustentar o dia a dia de uma operação, o custo por velocidade não fecha.
A lição para quem quer IA dentro da empresa
Esse episódio ensina mais sobre compra de tecnologia do que sobre a NVIDIA. O erro que ele expõe é clássico: escolher hardware de IA pelo logotipo ou pelo número mais gordo do anúncio. A memória de 128 GB é o número de vitrine. A banda de 273 GB/s é o número que manda no dia a dia. Quem não sabe qual é qual paga R$ 22 mil por uma experiência mais lenta do que a de um Mac de entrada.
E essa decisão está chegando na mesa de cada vez mais empresas, porque rodar IA dentro de casa (o chamado on-premise) resolve dois problemas que a nuvem não resolve: os dados do negócio param de viajar para servidores de terceiros, e a conta mensal por uso vira um custo fixo e previsível. Já mostramos como ter IA sem vazar dados da empresa e por que isso importa.
Mas IA dentro de casa só compensa quando o dimensionamento é feito na ordem certa: primeiro a tarefa que precisa ser resolvida, depois o menor modelo que resolve essa tarefa com qualidade, depois quantas pessoas e processos vão usar ao mesmo tempo, e só no final a máquina que sustenta isso com folga. Às vezes a resposta é um Mac de mesa. Às vezes é uma placa de videogame num servidor simples. Às vezes é um servidor com GPUs profissionais. O que a resposta nunca é: "a caixa mais cara da marca mais famosa".
É exatamente esse dimensionamento que a Steply faz no diagnóstico de IA on-premise: a gente mede o seu caso, faz a conta de banda, modelo e uso simultâneo, e entrega a especificação da máquina certa antes de você gastar um real em hardware.
A caixa dourada da NVIDIA não é um produto ruim. É um produto de laboratório sendo vendido como solução de mesa, e quem compra sem fazer a conta descobre a diferença depois do boleto. Ficha técnica tem número de vitrine e número que manda. Saber separar os dois é a diferença entre investir em IA e colecionar equipamento.
