Nemotron 3 Ultra: O Motor de IA Aberto que a NVIDIA Construiu para Pensar – 4nerd

Há uma frase que Jensen Huang repetiu em diversas variações ao longo de sua carreira, mas que nunca soou tão concreta quanto nesta semana em Taipei: "Construímos o computador que roda agentes." O RTX Spark é a prova de hardware. O Nemotron 3 Ultra é a prova de software. E a história de como a NVIDIA chegou até este modelo — passando por anos de experimentos, iterações arquiteturais e apostas filosóficas sobre o futuro da IA aberta — é tão importante quanto os benchmarks que foram exibidos no palco.

Este artigo conta essa história. Examina o que o Nemotron 3 Ultra é capaz de fazer, como ele se tornou possível, e o que acontece quando você instala esse modelo em uma máquina com 128 GB de memória unificada, 1 petaflop de computação de IA e acesso direto aos seus arquivos, calendário e fluxos de trabalho — tudo sem enviar um único token para a nuvem.

"Open innovation is the foundation of AI progress. Com Nemotron, estamos transformando IA avançada em uma plataforma aberta que dá aos desenvolvedores a transparência e a eficiência necessárias para construir sistemas agênticos em escala."

— Jensen Huang, fundador e CEO da NVIDIA

De 8 Bilhões a 550 Bilhões: A Jornada do Nemotron

A família Nemotron não nasceu como uma aposta em modelos de fronteira. Nasceu como uma ferramenta de produtividade empresarial, no momento em que a NVIDIA percebeu que dominar o hardware de IA sem ter voz no ecossistema de modelos era uma posição vulnerável.

Novembro de 2023 — Nemotron-3 8B: O primeiro modelo da marca era pequeno por qualquer padrão atual: apenas 8 bilhões de parâmetros, lançado para desenvolvimento de chatbots empresariais dentro do framework NeMo da NVIDIA. Não era um modelo de fronteira. Era uma declaração de intenção.

Fevereiro–Junho de 2024 — Nemotron-4: O relatório técnico do Nemotron-4 15B apresentou um modelo multilíngue treinado em 8 trilhões de tokens. Em junho, a família 340B chegou com foco em geração de dados sintéticos e ajuste de instrução. Foi nessa fase que a empresa aprendeu a construir pipelines de treinamento em escala — a infraestrutura que seria essencial para o que viria depois.

Janeiro de 2025 (CES 2025) — Llama Nemotron: A NVIDIA anunciou modelos de raciocínio construídos sobre a arquitetura Llama da Meta, com pós-treinamento proprietário focado em planejamento e cadeia de pensamento. Foi a primeira vez que a empresa demonstrou que podia pegar uma base aberta de terceiros e transformá-la em algo competitivo com modelos fechados de fronteira.

Dezembro de 2025 — Nemotron 3 Nano: Ruptura arquitetural decisiva. A família adotou uma arquitetura híbrida Mamba-Transformer com mixture-of-experts (MoE) latente — combinando o processamento eficiente de sequências longas do Mamba com a potência de raciocínio dos transformers, ativando apenas uma fração dos parâmetros por token. Resultado: 4× mais throughput, janela de contexto de 1 milhão de tokens e 60% de redução nos tokens de raciocínio. Era pequeno, mas foi a prova de conceito arquitetural para tudo que veio depois.

Março de 2026 — Nemotron 3 Super: Com 120B de parâmetros totais e 12B ativos, o Super foi projetado para resolver o "thinking tax" — o custo computacional de usar modelos de raciocínio pesado para cada subtarefa de um sistema multiagente. Em sistemas com vários agentes colaborando, cada rodada de raciocínio gera até 15 vezes mais tokens do que uma conversa simples, causando explosão de contexto e desvio de objetivo. No benchmark PinchBench, o Super marcou 85,6%, tornando-se o melhor modelo aberto de sua categoria.

Junho de 2026 (Computex/GTC Taipei) — Nemotron 3 Ultra: Com 550B de parâmetros totais e 55B ativos por token, o Ultra é o motor de raciocínio de alto nível da família. Disponível a partir de 4 de junho de 2026 no Hugging Face e no NVIDIA NIM. Pesos, dados de treinamento e receitas publicados abertamente.

O Que o Nemotron 3 Ultra É Capaz de Fazer

550B parâmetros totais — 55B ativos por token via MoE

1M tokens de contexto — indexar um repositório inteiro sem perder o fio

300+ tokens por segundo — 5× mais rápido que o GLM

48 Intelligence Index — nº 1 entre open-weights americanos

Números de parâmetros são abstratos. O que importa é o que o modelo faz — e para quais tarefas ele foi especificamente projetado.

Especificação	Valor
Parâmetros totais	~550 bilhões
Parâmetros ativos por token	~55 bilhões (MoE)
Arquitetura	Híbrida Mamba-Transformer + MoE Latente
Formato de treinamento	NVFP4 (4 bits) em Blackwell
Janela de contexto	1 milhão de tokens
Throughput	300+ tokens/segundo
Velocidade vs. concorrentes	5× mais rápido que o GLM
Custo por tarefa agêntica	30% menor que alternativas
Intelligence Index (Artificial Analysis)	48 — nº 1 entre modelos open-weights dos EUA
Disponibilidade	Hugging Face + NVIDIA NIM (a partir de 4/6/2026)

O desempenho em velocidade e custo vem de duas escolhas arquiteturais. Primeiro, o formato NVFP4: ao usar precisão de 4 bits especificamente otimizada para o hardware Blackwell, o modelo cabe em menos memória e roda mais rápido sem perder acurácia significativa. Segundo, a arquitetura MoE latente: em vez de ativar todos os 550B de parâmetros para cada token, o modelo ativa apenas os 55B mais relevantes para aquela tarefa específica.

A janela de contexto de 1 milhão de tokens merece destaque especial. Para tarefas agênticas de longa duração — revisar um repositório inteiro de código, analisar um conjunto de documentos jurídicos, gerenciar um projeto de pesquisa em múltiplas etapas — a capacidade de manter contexto por períodos prolongados sem "perder o fio" é tão importante quanto a capacidade de raciocínio puro. O Nemotron 3 Ultra foi projetado para não esquecer.

No Intelligence Index da Artificial Analysis, o Nemotron 3 Ultra marca 48 — nº 1 entre os modelos open-weights americanos. Para referência: o Kimi K2.6 da Moonshot AI (lançado em abril de 2026) marca 54, e os modelos fechados de fronteira (Anthropic, Google e OpenAI) marcam 57. O gap encolheu de forma dramática em relação a qualquer geração anterior de modelos abertos americanos.

A Família Completa: Nano, Super e Ultra

O Nemotron 3 não é um único modelo — é uma arquitetura em três camadas, projetada para que diferentes tamanhos de modelos colaborem em sistemas multiagente, cada um com um papel distinto.

	Nano	Ultra	Super
Papel	Modelo base	Motor de raciocínio	Orquestrador multiagente
Parâmetros	30B total / 3B ativos	550B total / 55B ativos	120B total / 12B ativos
Caso de uso	Alta frequência, dispositivos com restrição de VRAM, assistentes	Raciocínio profundo, pesquisa científica, codificação complexa	Sistemas multiagente de baixa latência, desenvolvimento de software
Diferencial	4× mais throughput que Nemotron 2 Nano	Nº 1 open-weights EUA · 5× mais rápido · 30% mais barato	Resolve o "thinking tax" — 85,6% no PinchBench
Disponível	Agora	A partir de 4/6/2026	Desde março/26

A lógica da família é de roteamento inteligente: o sistema avalia a complexidade de cada tarefa e decide qual modelo ativar. Tarefas simples e frequentes — resumir um e-mail, responder uma pergunta direta, executar uma busca — vão para o Nano. Coordenação de múltiplos agentes vai para o Super. Raciocínio profundo, planejamento de longo horizonte ou análise de documentos extensos vai para o Ultra. O resultado é um sistema que mantém custo baixo nas tarefas rotineiras e reserva a capacidade máxima para quando ela realmente faz diferença.

A Sinergia com o RTX Spark

A história da indústria de tecnologia está repleta de hardware poderoso esperando por software à altura, e de software ambicioso limitado por hardware insuficiente. O que a NVIDIA está tentando fazer com o Nemotron 3 Ultra e o RTX Spark é diferente: construir os dois lados da equação simultaneamente, com integração que vai além da compatibilidade técnica e chega a uma codependência deliberada.

Memória: O RTX Spark foi projetado com 128 GB de memória unificada precisamente porque modelos da escala do Nemotron 3 Super (120B) precisam desse espaço para rodar localmente sem swap. Com o Ultra em FP4, a versão quantizada cabe inteiramente em memória. Nenhum modelo dessa escala pode rodar em uma RTX 5090 convencional, que tem apenas 32 GB de VRAM.

Precisão: O Nemotron 3 Ultra usa o formato NVFP4 — desenvolvido pela NVIDIA especificamente para a arquitetura Blackwell. O modelo não apenas roda na GPU do RTX Spark: ele foi treinado para ser executado nessa GPU. A aceleração não é uma adaptação posterior, é uma co-otimização desde a fase de treinamento.

Contexto local: A janela de 1 milhão de tokens é especialmente valiosa em um ambiente local. Um agente rodando no RTX Spark pode indexar documentos pessoais, histórico de projetos e arquivos locais e mantê-los em contexto por horas de trabalho autônomo — sem os limites de custo que tornam esse tipo de operação proibitivo em APIs pagas por token.

Custo zero por token: Um agente executando 300 tokens por segundo durante 8 horas de trabalho gera aproximadamente 8,6 milhões de tokens. Em APIs pagas, isso custaria centenas de dólares por dia. Localmente, o custo marginal é zero. Para equipes pequenas, pesquisadores independentes ou pequenos negócios, essa mudança de modelo econômico pode ser mais transformadora do que qualquer benchmark.

Privacidade real: Com o modelo rodando localmente e os pesos instalados na máquina, não há chamada de API, não há log externo, não há tráfego de rede durante inferência. Para profissionais de saúde, jurídicos ou financeiros, essa combinação — modelo aberto + hardware local + runtime com política de acesso — é a única forma viável de usar IA de fronteira com dados confidenciais.

Ecossistema amplo: O Nemotron 3 Ultra pode ser implantado via NVIDIA NIM, vLLM, SGLang, Ollama ou llama.cpp. O RTX Spark tem CUDA nativo. Qualquer desenvolvedor que já trabalha com o ecossistema de modelos abertos pode rodar o Ultra no Spark sem reaprender ferramentas ou reescrever pipelines.

Dois Ângulos: O Que Esperar e o Que Questionar

A Favor: A IA de Fronteira Finalmente Pertence a Quem a Usa

Durante os últimos três anos, o acesso a inteligência artificial de ponta funcionou como uma concessão: você recebia o produto, mas os dados eram deles. Cada prompt enviado a GPT-4, a Claude, a Gemini, ia para servidores que registravam e potencialmente usavam esse conteúdo para fins que o usuário nunca viu. O Nemotron 3 Ultra muda essa dinâmica de forma estrutural, não cosmética.

Com pesos abertos, dados de treinamento publicados e receitas de replicação disponíveis, qualquer desenvolvedor pode auditar, modificar, ajustar e implantar o modelo dentro de sua própria infraestrutura. Em setores como saúde, direito, defesa e pesquisa científica, isso é a condição mínima para que a IA seja legalmente utilizável em cenários sensíveis. A LGPD e a GDPR dificultam ou proíbem o envio de certos tipos de dados para processamento externo. Um modelo local e auditável resolve esse problema de raiz.

O histórico da IA aberta, desde o Llama da Meta até o Mistral, mostra que comunidades de desenvolvedores tendem a iterar mais rápido do que qualquer laboratório único. O Nemotron 3 Ultra, com 50 milhões de downloads acumulados pela família nos 12 meses anteriores ao lançamento, já tem essa comunidade ativa.

Contra: Open Weights Não São Open Source — E a Diferença Importa

Há um equívoco que a NVIDIA cultiva ativamente: a equiparação entre "pesos abertos" e "código aberto". Os dois não são a mesma coisa. O Nemotron 3 Ultra é publicado sob a NVIDIA Open Model License — mais permissiva que licenças fechadas, mas mais restritiva que Apache 2.0 ou MIT. Há restrições sobre redistribuição e modificação que não aparecem em nenhum keynote.

A dependência de hardware é o segundo problema. O Nemotron 3 Ultra foi treinado no formato NVFP4, otimizado para a arquitetura Blackwell e implantado via NVIDIA NIM em infraestrutura CUDA. Você pode tecnicamente rodar o modelo em hardware de terceiros — mas a performance demonstrada nos benchmarks é a performance em hardware NVIDIA. Um modelo "aberto" que só performa bem no hardware do mesmo fabricante que o criou não é tão livre quanto parece. É uma estratégia de amarração diferente da API proprietária, mas é uma estratégia de amarração.

Há também a questão do gap com a China. O Nemotron 3 Ultra marca 48 no Intelligence Index — e a narrativa da NVIDIA apresenta isso como uma vitória. Mas o Kimi K2.6 da Moonshot AI, lançado dois meses antes, marca 54. O Ultra é o melhor modelo open-weights americano — e ainda assim fica 6 pontos abaixo do melhor modelo aberto chinês.

Por fim, há o risco que nenhuma empresa menciona nos keynotes: um modelo de 550 bilhões de parâmetros, aberto, capaz de planejamento autônomo de longo horizonte, rodando localmente sem nenhum sistema de monitoramento externo, é também um modelo que pode ser usado para fins que os criadores nunca pretenderam. A ausência de uma camada de observabilidade centralizada — que é exatamente o que torna o modelo atraente para privacidade legítima — é a mesma ausência que torna mais difícil detectar usos maliciosos.

O Que Essa Combinação Significa para o Futuro

Olhando para o conjunto — a trajetória de três anos do Nemotron, o RTX Spark como hardware de destino, a família de três camadas com roteamento inteligente e a abertura dos pesos e dados de treinamento — o que está sendo construído não é apenas um modelo de linguagem melhor. É uma infraestrutura para que a IA agêntica opere fora da nuvem, com qualidade de fronteira, custo próximo de zero por uso e controle total nas mãos de quem opera.

Os últimos quatro anos de IA foram definidos pela centralização: modelos grandes rodando em data centers enormes, acessados via API, com cada interação passando por servidores de terceiros. O que a NVIDIA está construindo é a descentralização dessa inteligência. Não porque seja tecnicamente impossível mantê-la centralizada, mas porque existe uma demanda crescente e legítima por IA que não depende de conectividade, não tem custo variável e não exige que você confie os seus dados a um terceiro.

O Nemotron 4 já está em desenvolvimento — Jensen Huang o confirmou no palco em Taipei. Se a tendência continuar, a pergunta relevante em três anos não será "qual modelo eu uso?" — será "quem controla o modelo que eu uso?". E a resposta para essa pergunta, mais do que qualquer benchmark, vai determinar se esta era da IA foi boa para a humanidade.

"A IA é geradora de lucro. A IA é geradora de PIB. E o computador mais avançado do mundo será aquele que consegue rodar agentes — localmente, com privacidade, sem depender da nuvem."

— Jensen Huang, GTC Taipei 2026

Leia também: NVIDIA RTX Spark — o hardware projetado para rodar este modelo, o Surface Laptop Ultra da Computex 2026 e os repositórios GitHub para produtividade (com o Ollama, para rodar modelos locais como este).

Informações baseadas nos anúncios oficiais da NVIDIA no GTC Taipei 2026 (1º de junho de 2026). Especificações e preços sujeitos a alteração.