← Back to blog
steply / blog · rtx-spark-arquitetura-completa-blackwell-grace-mediatek.md
$ steply blog open rtx-spark-arquitetura-completa-blackwell-grace-mediatek
▸ loading article…
✓ ready

NVIDIA RTX Spark por dentro: arquitetura completa do chip Blackwell + Grace + MediaTek

bySteply9 min read

Já cobrimos o RTX Spark do ponto de vista de negócio aqui no blog: por que vai mudar como a empresa compra computador. Esse post é o complementar técnico denso. Arquitetura do SoC inteiro, peça por peça: GPU Blackwell, CPU Grace customizada com MediaTek, NVLink interno (NVLink C2C), memória unificada, processo TSMC 3nm, comparação com chips concorrentes (Apple Silicon, AMD Strix Halo, Intel Lunar Lake), workloads de IA local, e o que isso significa pra inferência on-device em escala. Sem deixar detalhe fora.

RTX Spark foi anunciado no GTC Taipei em 2026 como o primeiro 'PC reinventado em 40 anos'. Por trás do marketing, é um SoC unificado que junga três coisas que sempre andaram separadas no PC tradicional: GPU dedicada, CPU de servidor e gerenciamento de memória coerente. O resultado é o primeiro chip projetado de origem pra rodar agente de IA local com performance que antes só existia em data center. Vale entender por dentro.

1. Visão geral: o SoC inteiro

RTX Spark é um SoC (System on Chip) com cinco componentes principais integrados num único package:

  • GPU Blackwell: 6.144 Tensor Cores, 1 petaflop de performance em IA (FP4 sparse).
  • CPU Grace customizada: 20 cores ARM, projetada em parceria com MediaTek.
  • NVLink C2C: barramento chip-to-chip que conecta GPU e CPU em alta velocidade dentro do package.
  • Memória unificada: 128 GB compartilhados entre GPU e CPU, sem cópia.
  • Processo TSMC 3nm: 70 bilhões de transistores no SoC total.

A arquitetura é coerente: GPU e CPU enxergam o mesmo espaço de memória, com cache coherence em hardware. Não há 'transferência host-to-device' como em GPU dedicada tradicional. Essa diferença não é cosmética. Muda o modelo de programação inteiro pra workloads heterogêneos.

2. Blackwell GPU: o que tem dentro de 6144 Tensor Cores

Blackwell é a arquitetura GPU da NVIDIA, sucessora de Hopper (H100). A versão do Spark é a variante 'consumer-grade-but-not-really': mesma família arquitetural do B100/B200 de data center, dimensionada pra envelope térmico de PC.

Hierarquia de compute:

  • SM (Streaming Multiprocessor): bloco de compute base. Cada SM tem 4 sub-cores, cada sub-core tem 1 Tensor Core de 5ª geração.
  • 6.144 Tensor Cores implica ~1.536 sub-cores e ~384 SMs (depende da contagem exata por SM da variante Spark).
  • CUDA Cores: pra workloads não-tensor (gráficos tradicionais, compute geral). Estimado em 12k a 16k.
  • RT Cores de 4ª geração: ray tracing pra gráficos.

Tensor Cores de 5ª geração suportam:

  • FP4: 4 bits floating point. Formato novo do Blackwell, dobra throughput vs FP8. Usado em inferência LLM quantizada.
  • FP8 (E4M3, E5M2): 8 bits. Padrão atual de servir LLM em produção.
  • FP16/BF16: 16 bits. Treino e inferência sem quantização agressiva.
  • TF32, FP32, FP64: precisões altas pra HPC.
  • Sparsity 2:4: padrão estrutural de sparsity. Pesos em padrão '2 zeros a cada 4' dobram throughput. Suportado direto em hardware.

1 petaflop em FP4 com sparsity é o número de marketing. Sem sparsity, ~500 TFLOPs. Em FP8, ~250 TFLOPs. Em BF16 (sem quantização), ~125 TFLOPs. Cada redução de precisão dobra throughput. Esse é o eixo de design: priorizar formatos baixos pra maximizar throughput de inferência LLM, não treino.

3. Transformer Engine: a especialização que importa

Blackwell tem 2ª geração do Transformer Engine, módulo em hardware que automatiza decisões de precisão por layer. Detecta range dinâmico de tensores e escolhe FP8/FP4 onde dá, FP16 onde precisa. Sem intervenção do programador.

Combinado com FP4 nativo, o ganho prático é: inferência de Llama 70B (quantizado em FP4) em tempo real em chip de consumer-class. Antes do Blackwell, isso exigia A100 ou H100 de data center.

4. Grace CPU customizada: por que ARM e por que MediaTek

NVIDIA Grace é uma CPU ARM Neoverse projetada pra ser parceira de GPU em workloads de IA. A versão original do Grace (no GH200, GB200) tem 72 a 144 cores. A versão Spark é customizada: 20 cores ARM, projetada em parceria com a MediaTek.

Por que MediaTek: MediaTek é especialista em SoC mobile/embedded de alta eficiência energética. Tem expertise em integração de modem, ISP, design pra envelope térmico restrito de notebook/PC. NVIDIA traz arquitetura de compute, MediaTek traz domínio de SoC integrado de consumo. Casa-se.

Por que ARM, não x86:

  • ARM tem perf-per-watt superior pra workloads paralelos. PC com agente rodando 24/7 precisa disso.
  • Coerência com Grace de data center: software escrito pra Grace de servidor roda no Spark sem porting.
  • Licença ARM permite customização profunda (extensões, cache, interconnect). x86 é Intel/AMD, fechado.
  • Ecossistema de software ARM em Windows está maduro depois de anos de Qualcomm Snapdragon X, Apple Silicon prova de mercado, e Microsoft otimizando Windows nativo pra ARM64.

Trade-off: aplicações Windows x86 legadas rodam via emulação (Prism, no Windows 11 ARM). Performance de emulação está em ~80% do nativo em apps típicos, perfeitamente usável mas não ideal. Apps recompilados pra ARM64 nativo (cada vez mais comuns) rodam em performance plena.

5. NVLink C2C: o barramento que destrava memória unificada

NVLink Chip-to-Chip (C2C) é o interconnect entre Grace CPU e Blackwell GPU dentro do package. Características:

  • Bandwidth: ~900 GB/s bidirecional (versão Spark deve ser ~600-900 GB/s, dependendo do tier).
  • Latência: ordens de magnitude menor que PCIe Gen 5 (que faz ~64 GB/s no x16).
  • Coerência de cache: hardware mantém coerência entre cache de CPU e memória de GPU. Programa não precisa fazer flush manual.

Comparação com PCIe: PCIe Gen 5 x16 = 64 GB/s, sem coerência. Mover 10GB de dado da CPU pra GPU custa ~150ms via PCIe e ~11ms via NVLink C2C. Em loop de inferência iterativo, é a diferença entre viável e inviável.

6. Memória unificada: 128 GB para tudo

RTX Spark tem 128 GB de memória, compartilhada entre CPU e GPU. Tecnicamente provavelmente LPDDR5X (low-power DDR5 extended), padrão pra SoCs de alta eficiência.

Por que isso é grande: GPU dedicada de PC top tier tem 24 GB (RTX 4090) a 48 GB (RTX 6000 Ada). Modelos LLM grandes não cabem. Pra rodar Llama 70B em FP8 (~70 GB) você precisa de A100 80GB de data center ou duas GPUs com NVLink.

Com 128 GB unificados, Spark roda:

  • Llama 70B em FP8 (~70 GB) com folga.
  • Llama 405B quantizado em FP4 (~100 GB).
  • Dois modelos médios simultâneos (ex: 30B + 30B).
  • Modelo + KV cache grande pra contexto longo.

Bandwidth da memória é crítico pra inferência (LLM inference é bound em memória, não compute). LPDDR5X-9600 entrega ~150 GB/s por canal. Spark provavelmente com 4 a 8 canais, totalizando 600 GB/s a 1.2 TB/s. Comparar com:

  • RTX 4090: GDDR6X, ~1 TB/s. Mas só 24 GB.
  • Apple M4 Max: LPDDR5X, ~546 GB/s. Até 128 GB.
  • H100: HBM3, 3 TB/s. 80 GB.

Spark cai entre Apple Silicon e GPU dedicada. Não é H100. Mas é a primeira plataforma de consumo capaz de rodar modelos de 70B+ com latência decente.

7. TSMC 3nm e 70 bilhões de transistores

Processo TSMC N3 (3nm) é o mesmo do Apple M3/M4, Snapdragon 8 Gen 3, e Blackwell de data center. Diferença vs nó anterior (N5/4nm): ~30% melhor density, ~10-15% melhor perf-per-watt.

70 bilhões de transistores é da ordem do M4 Max (~62B) e bem acima do M3 Max (~40B). Distribuídos entre GPU (maioria), CPU (~20%), interconnect e memória controllers, cache, e blocos especializados (NVENC/NVDEC, ISP, displayport, networking).

Envelope térmico: estimado em 80-150W dependendo da variante (laptop vs desktop vs workstation). Comparado com:

  • RTX 4090 laptop: 175W só GPU + ~50W CPU = 225W.
  • Apple M4 Max: ~80W em load pesado.
  • H100 PCIe: 350W só GPU.

Spark é mais eficiente que solução discreta equivalente em PC, próximo de eficiência Apple, com performance de IA muito superior.

8. Workloads onde Spark brilha

O design favorece quatro categorias:

  • LLM inference local: modelos de 7B a 70B em tempo real. Caso de uso primário, anunciado pela NVIDIA. Usuários: agentes locais (Hermes, OpenShell), assistentes pessoais 24/7, aplicações com dado sensível que não pode sair da máquina.
  • Geração de imagem/vídeo: Stable Diffusion XL em segundos, Flux em poucos segundos, vídeo curto via modelos como Wan, CogVideoX em minutos.
  • RAG local sobre dataset privado: indexar 100k a 1M docs com embedding model local, busca semântica + LLM, tudo na máquina.
  • Fine-tuning leve: LoRA/QLoRA de modelos 7B a 13B é viável local. Fine-tuning completo de modelo grande continua sendo trabalho de data center.

Onde Spark NÃO brilha (e não foi projetado pra):

  • Treino de modelo grande do zero (precisa de cluster).
  • Gaming top-tier comparado com RTX 4090/5090 dedicada (Blackwell Spark é tier consumer-AI, não tier gaming-enthusiast).
  • HPC tradicional (FP64) em escala (data center é melhor uso de dinheiro).

9. A linha de três produtos: laptop, desktop, workstation

NVIDIA anunciou três form factors com mesmo chip-base.

RTX Spark laptop: envelope ~80-100W, performance otimizada pra bateria. Variantes de fabricantes (Acer, ASUS, Dell, HP, Lenovo, MSI). Primeiro produto consumer-AI sério em laptop.

RTX Spark desktop: envelope ~120-150W, performance plena. Pra agente rodando 24/7 sem dependência de bateria, central de IA do escritório.

DGX Station: maior variante, 768 GB de memória, 20 petaflops, 8 TB/s de bandwidth. Pra desenvolvedor de LLM, fine-tuning de modelo grande, deploy de modelo trilhão-de-parâmetros local. É outra liga, mas roda Windows e a mesma stack do Spark menor.

10. Comparação direta com concorrentes

ChipNPU/GPU AI TOPSRAM máxBandwidthProcesso
RTX Spark~1000 (FP4 sparse)128 GB~600 GB/s a 1.2 TB/sTSMC 3nm
Apple M4 Max~38 (NPU) + GPU128 GB546 GB/sTSMC 3nm
AMD Strix Halo (Ryzen AI Max)~50 (NPU)128 GB~256 GB/sTSMC 4nm
Intel Lunar Lake~48 (NPU)32 GB~136 GB/sTSMC N3B
Qualcomm Snapdragon X Elite~45 (NPU)64 GB~136 GB/sTSMC 4nm

Spark é tier acima em quase todas dimensões pra workload AI. A comparação justa é com Apple Silicon (que tem ecossistema próprio e não roda Windows nativo). Spark tem mais throughput AI, Apple tem mais densidade de ecossistema dev de IA local hoje (MLX, llama.cpp Metal). Empate técnico, vencedor por contexto de uso.

vs Strix Halo da AMD: AMD tem 128 GB também e roda x86 nativo (compatibilidade total Windows). Spark vence em throughput AI por 10x ou mais, AMD vence em compatibilidade de software legado. Mercados parcialmente sobrepostos.

11. Software stack: 100% CUDA local

O ponto que diferencia Spark de qualquer Apple/AMD/Qualcomm: roda toda a stack CUDA. PyTorch, JAX, TensorRT, Triton, cuDNN, NCCL, todas as bibliotecas que existem pra GPU NVIDIA rodam exatamente igual. Modelo treinado em H100 de data center carrega no Spark sem mudar linha de código (módulo memória disponível).

Pra desenvolvedor de IA, isso é decisivo. Não tem alternativa real. Apple tem MLX (próprio, ecossistema pequeno). AMD tem ROCm (existe, mas suporte irregular). NVIDIA é o standard de fato.

Adicional: o software de cada partner anunciado (Adobe Photoshop e Premiere 2x mais rápido, Blackmagic DaVinci Resolve, Cadence design tools, milhares de outros) está sendo recompilado pra rodar nativo no Spark com aceleração CUDA.

12. O que isso muda na arquitetura de aplicação de IA

Spark inaugura padrão de arquitetura nova pra app de IA: execução local-first com cloud-burst opcional. Padrões emergentes:

  • Agente roda local 95% do tempo. Quando precisa de modelo maior, faz request pra cloud. Custo médio cai dramaticamente.
  • RAG local sobre dados sensíveis. Embedding model local, vector DB local, LLM local. Dado nunca sai.
  • Apps de criação (design, vídeo, áudio) com inferência inline em latência interativa.
  • Fine-tuning iterativo local pra personalização por usuário, sem mandar dado pessoal pra cloud.

É a aposta da NVIDIA: nem todo workload precisa ir pra data center, e se inferência cabe local, vai pra local. Custa zero por token, latência mínima, privacidade default. Cloud continua relevante pra modelos frontier, treino, e burst de capacidade, mas vira camada complementar, não única.

13. O reframe técnico

RTX Spark não é 'um PC mais rápido'. É a primeira plataforma desktop-class engineered ground-up pra agente de IA local persistente. Arquiteturalmente é o caminho onde o mercado vai convergir: SoC unificado, memória compartilhada coerente, throughput de IA em precisões baixas como métrica primária, eficiência energética como restrição central.

Apple já anda nessa direção há quatro gerações de Silicon. AMD seguiu com Strix Halo. Intel está atrás mas chegando com Panther Lake. Spark é a entrada da NVIDIA, com vantagem assimétrica do ecossistema CUDA e arquitetura GPU dedicada de origem.

Se você desenha software de IA, o cálculo de target hardware muda. Não é mais 'cloud ou nada'. É 'cloud, local com Spark/Apple/AMD, edge, ou combinação'. Cada um com tradeoff de custo, latência, privacidade e capabilities. Quem entender o gradiente arquitetural completo desenha melhor. Quem não entender vai continuar pagando 100% cloud quando 30% local resolveria.