Nemotron 3 Ultra: O Motor de IA Aberto que a NVIDIA Construiu para Pensar
Há uma frase que Jensen Huang repetiu em diversas variações ao longo de sua carreira, mas que nunca soou tão concreta quanto nesta semana em Taipei: "Construímos o computador que roda agentes." O RTX Spark é a prova de hardware. O Nemotron 3 Ultra é a prova de software. E a história de como a NVIDIA chegou até este modelo — passando por anos de experimentos, iterações arquiteturais e apostas filosóficas sobre o futuro da IA aberta — é tão importante quanto os benchmarks que foram exibidos no palco.
Este artigo conta essa história. Examina o que o Nemotron 3 Ultra é capaz de fazer, como ele se tornou possível, e o que acontece quando você instala esse modelo em uma máquina com 128 GB de memória unificada, 1 petaflop de computação de IA e acesso direto aos seus arquivos, calendário e fluxos de trabalho — tudo sem enviar um único token para a nuvem.
"Open innovation is the foundation of AI progress. Com Nemotron, estamos transformando IA avançada em uma plataforma aberta que dá aos desenvolvedores a transparência e a eficiência necessárias para construir sistemas agênticos em escala."
— Jensen Huang, fundador e CEO da NVIDIA
De 8 Bilhões a 550 Bilhões: A Jornada do Nemotron
A família Nemotron não nasceu como uma aposta em modelos de fronteira. Nasceu como uma ferramenta de produtividade empresarial, no momento em que a NVIDIA percebeu que dominar o hardware de IA sem ter voz no ecossistema de modelos era uma posição vulnerável.
Novembro de 2023 — Nemotron-3 8B: O primeiro modelo da marca era pequeno por qualquer padrão atual: apenas 8 bilhões de parâmetros, lançado para desenvolvimento de chatbots empresariais dentro do framework NeMo da NVIDIA. Não era um modelo de fronteira. Era uma declaração de intenção.
Fevereiro–Junho de 2024 — Nemotron-4: O relatório técnico do Nemotron-4 15B apresentou um modelo multilíngue treinado em 8 trilhões de tokens. Em junho, a família 340B chegou com foco em geração de dados sintéticos e ajuste de instrução. Foi nessa fase que a empresa aprendeu a construir pipelines de treinamento em escala — a infraestrutura que seria essencial para o que viria depois.
Janeiro de 2025 (CES 2025) — Llama Nemotron: A NVIDIA anunciou modelos de raciocínio construídos sobre a arquitetura Llama da Meta, com pós-treinamento proprietário focado em planejamento e cadeia de pensamento. Foi a primeira vez que a empresa demonstrou que podia pegar uma base aberta de terceiros e transformá-la em algo competitivo com modelos fechados de fronteira.
Dezembro de 2025 — Nemotron 3 Nano: Ruptura arquitetural decisiva. A família adotou uma arquitetura híbrida Mamba-Transformer com mixture-of-experts (MoE) latente — combinando o processamento eficiente de sequências longas do Mamba com a potência de raciocínio dos transformers, ativando apenas uma fração dos parâmetros por token. Resultado: 4× mais throughput, janela de contexto de 1 milhão de tokens e 60% de redução nos tokens de raciocínio. Era pequeno, mas foi a prova de conceito arquitetural para tudo que veio depois.
Março de 2026 — Nemotron 3 Super: Com 120B de parâmetros totais e 12B ativos, o Super foi projetado para resolver o "thinking tax" — o custo computacional de usar modelos de raciocínio pesado para cada subtarefa de um sistema multiagente. Em sistemas com vários agentes colaborando, cada rodada de raciocínio gera até 15 vezes mais tokens do que uma conversa simples, causando explosão de contexto e desvio de objetivo. No benchmark PinchBench, o Super marcou 85,6%, tornando-se o melhor modelo aberto de sua categoria.
Junho de 2026 (Computex/GTC Taipei) — Nemotron 3 Ultra: Com 550B de parâmetros totais e 55B ativos por token, o Ultra é o motor de raciocínio de alto nível da família. Disponível a partir de 4 de junho de 2026 no Hugging Face e no NVIDIA NIM. Pesos, dados de treinamento e receitas publicados abertamente.
O Que o Nemotron 3 Ultra É Capaz de Fazer
Números de parâmetros são abstratos. O que importa é o que o modelo faz — e para quais tarefas ele foi especificamente projetado.
| Especificação | Valor |
|---|---|
| Parâmetros totais | ~550 bilhões |
| Parâmetros ativos por token | ~55 bilhões (MoE) |
| Arquitetura | Híbrida Mamba-Transformer + MoE Latente |
| Formato de treinamento | NVFP4 (4 bits) em Blackwell |
| Janela de contexto | 1 milhão de tokens |
| Throughput | 300+ tokens/segundo |
| Velocidade vs. concorrentes | 5× mais rápido que o GLM |
| Custo por tarefa agêntica | 30% menor que alternativas |
| Intelligence Index (Artificial Analysis) | 48 — nº 1 entre modelos open-weights dos EUA |
| Disponibilidade | Hugging Face + NVIDIA NIM (a partir de 4/6/2026) |
O desempenho em velocidade e custo vem de duas escolhas arquiteturais. Primeiro, o formato NVFP4: ao usar precisão de 4 bits especificamente otimizada para o hardware Blackwell, o modelo cabe em menos memória e roda mais rápido sem perder acurácia significativa. Segundo, a arquitetura MoE latente: em vez de ativar todos os 550B de parâmetros para cada token, o modelo ativa apenas os 55B mais relevantes para aquela tarefa específica.
A janela de contexto de 1 milhão de tokens merece destaque especial. Para tarefas agênticas de longa duração — revisar um repositório inteiro de código, analisar um conjunto de documentos jurídicos, gerenciar um projeto de pesquisa em múltiplas etapas — a capacidade de manter contexto por períodos prolongados sem "perder o fio" é tão importante quanto a capacidade de raciocínio puro. O Nemotron 3 Ultra foi projetado para não esquecer.
No Intelligence Index da Artificial Analysis, o Nemotron 3 Ultra marca 48 — nº 1 entre os modelos open-weights americanos. Para referência: o Kimi K2.6 da Moonshot AI (lançado em abril de 2026) marca 54, e os modelos fechados de fronteira (Anthropic, Google e OpenAI) marcam 57. O gap encolheu de forma dramática em relação a qualquer geração anterior de modelos abertos americanos.
A Família Completa: Nano, Super e Ultra
O Nemotron 3 não é um único modelo — é uma arquitetura em três camadas, projetada para que diferentes tamanhos de modelos colaborem em sistemas multiagente, cada um com um papel distinto.
| Nano | Ultra | Super | |
|---|---|---|---|
| Papel | Modelo base | Motor de raciocínio | Orquestrador multiagente |
| Parâmetros | 30B total / 3B ativos | 550B total / 55B ativos | 120B total / 12B ativos |
| Caso de uso | Alta frequência, dispositivos com restrição de VRAM, assistentes | Raciocínio profundo, pesquisa científica, codificação complexa | Sistemas multiagente de baixa latência, desenvolvimento de software |
| Diferencial | 4× mais throughput que Nemotron 2 Nano | Nº 1 open-weights EUA · 5× mais rápido · 30% mais barato | Resolve o "thinking tax" — 85,6% no PinchBench |
| Disponível | Agora | A partir de 4/6/2026 | Desde março/26 |
A lógica da família é de roteamento inteligente: o sistema avalia a complexidade de cada tarefa e decide qual modelo ativar. Tarefas simples e frequentes — resumir um e-mail, responder uma pergunta direta, executar uma busca — vão para o Nano. Coordenação de múltiplos agentes vai para o Super. Raciocínio profundo, planejamento de longo horizonte ou análise de documentos extensos vai para o Ultra. O resultado é um sistema que mantém custo baixo nas tarefas rotineiras e reserva a capacidade máxima para quando ela realmente faz diferença.
A Sinergia com o RTX Spark
A história da indústria de tecnologia está repleta de hardware poderoso esperando por software à altura, e de software ambicioso limitado por hardware insuficiente. O que a NVIDIA está tentando fazer com o Nemotron 3 Ultra e o RTX Spark é diferente: construir os dois lados da equação simultaneamente, com integração que vai além da compatibilidade técnica e chega a uma codependência deliberada.
Memória: O RTX Spark foi projetado com 128 GB de memória unificada precisamente porque modelos da escala do Nemotron 3 Super (120B) precisam desse espaço para rodar localmente sem swap. Com o Ultra em FP4, a versão quantizada cabe inteiramente em memória. Nenhum modelo dessa escala pode rodar em uma RTX 5090 convencional, que tem apenas 32 GB de VRAM.
Precisão: O Nemotron 3 Ultra usa o formato NVFP4 — desenvolvido pela NVIDIA especificamente para a arquitetura Blackwell. O modelo não apenas roda na GPU do RTX Spark: ele foi treinado para ser executado nessa GPU. A aceleração não é uma adaptação posterior, é uma co-otimização desde a fase de treinamento.
Contexto local: A janela de 1 milhão de tokens é especialmente valiosa em um ambiente local. Um agente rodando no RTX Spark pode indexar documentos pessoais, histórico de projetos e arquivos locais e mantê-los em contexto por horas de trabalho autônomo — sem os limites de custo que tornam esse tipo de operação proibitivo em APIs pagas por token.
Custo zero por token: Um agente executando 300 tokens por segundo durante 8 horas de trabalho gera aproximadamente 8,6 milhões de tokens. Em APIs pagas, isso custaria centenas de dólares por dia. Localmente, o custo marginal é zero. Para equipes pequenas, pesquisadores independentes ou pequenos negócios, essa mudança de modelo econômico pode ser mais transformadora do que qualquer benchmark.
Privacidade real: Com o modelo rodando localmente e os pesos instalados na máquina, não há chamada de API, não há log externo, não há tráfego de rede durante inferência. Para profissionais de saúde, jurídicos ou financeiros, essa combinação — modelo aberto + hardware local + runtime com política de acesso — é a única forma viável de usar IA de fronteira com dados confidenciais.
Ecossistema amplo: O Nemotron 3 Ultra pode ser implantado via NVIDIA NIM, vLLM, SGLang, Ollama ou llama.cpp. O RTX Spark tem CUDA nativo. Qualquer desenvolvedor que já trabalha com o ecossistema de modelos abertos pode rodar o Ultra no Spark sem reaprender ferramentas ou reescrever pipelines.
Dois Ângulos: O Que Esperar e o Que Questionar
A Favor: A IA de Fronteira Finalmente Pertence a Quem a Usa
Durante os últimos três anos, o acesso a inteligência artificial de ponta funcionou como uma concessão: você recebia o produto, mas os dados eram deles. Cada prompt enviado a GPT-4, a Claude, a Gemini, ia para servidores que registravam e potencialmente usavam esse conteúdo para fins que o usuário nunca viu. O Nemotron 3 Ultra muda essa dinâmica de forma estrutural, não cosmética.
Com pesos abertos, dados de treinamento publicados e receitas de replicação disponíveis, qualquer desenvolvedor pode auditar, modificar, ajustar e implantar o modelo dentro de sua própria infraestrutura. Em setores como saúde, direito, defesa e pesquisa científica, isso é a condição mínima para que a IA seja legalmente utilizável em cenários sensíveis. A LGPD e a GDPR dificultam ou proíbem o envio de certos tipos de dados para processamento externo. Um modelo local e auditável resolve esse problema de raiz.
O histórico da IA aberta, desde o Llama da Meta até o Mistral, mostra que comunidades de desenvolvedores tendem a iterar mais rápido do que qualquer laboratório único. O Nemotron 3 Ultra, com 50 milhões de downloads acumulados pela família nos 12 meses anteriores ao lançamento, já tem essa comunidade ativa.
Contra: Open Weights Não São Open Source — E a Diferença Importa
Há um equívoco que a NVIDIA cultiva ativamente: a equiparação entre "pesos abertos" e "código aberto". Os dois não são a mesma coisa. O Nemotron 3 Ultra é publicado sob a NVIDIA Open Model License — mais permissiva que licenças fechadas, mas mais restritiva que Apache 2.0 ou MIT. Há restrições sobre redistribuição e modificação que não aparecem em nenhum keynote.
A dependência de hardware é o segundo problema. O Nemotron 3 Ultra foi treinado no formato NVFP4, otimizado para a arquitetura Blackwell e implantado via NVIDIA NIM em infraestrutura CUDA. Você pode tecnicamente rodar o modelo em hardware de terceiros — mas a performance demonstrada nos benchmarks é a performance em hardware NVIDIA. Um modelo "aberto" que só performa bem no hardware do mesmo fabricante que o criou não é tão livre quanto parece. É uma estratégia de amarração diferente da API proprietária, mas é uma estratégia de amarração.
Há também a questão do gap com a China. O Nemotron 3 Ultra marca 48 no Intelligence Index — e a narrativa da NVIDIA apresenta isso como uma vitória. Mas o Kimi K2.6 da Moonshot AI, lançado dois meses antes, marca 54. O Ultra é o melhor modelo open-weights americano — e ainda assim fica 6 pontos abaixo do melhor modelo aberto chinês.
Por fim, há o risco que nenhuma empresa menciona nos keynotes: um modelo de 550 bilhões de parâmetros, aberto, capaz de planejamento autônomo de longo horizonte, rodando localmente sem nenhum sistema de monitoramento externo, é também um modelo que pode ser usado para fins que os criadores nunca pretenderam. A ausência de uma camada de observabilidade centralizada — que é exatamente o que torna o modelo atraente para privacidade legítima — é a mesma ausência que torna mais difícil detectar usos maliciosos.
O Que Essa Combinação Significa para o Futuro
Olhando para o conjunto — a trajetória de três anos do Nemotron, o RTX Spark como hardware de destino, a família de três camadas com roteamento inteligente e a abertura dos pesos e dados de treinamento — o que está sendo construído não é apenas um modelo de linguagem melhor. É uma infraestrutura para que a IA agêntica opere fora da nuvem, com qualidade de fronteira, custo próximo de zero por uso e controle total nas mãos de quem opera.
Os últimos quatro anos de IA foram definidos pela centralização: modelos grandes rodando em data centers enormes, acessados via API, com cada interação passando por servidores de terceiros. O que a NVIDIA está construindo é a descentralização dessa inteligência. Não porque seja tecnicamente impossível mantê-la centralizada, mas porque existe uma demanda crescente e legítima por IA que não depende de conectividade, não tem custo variável e não exige que você confie os seus dados a um terceiro.
O Nemotron 4 já está em desenvolvimento — Jensen Huang o confirmou no palco em Taipei. Se a tendência continuar, a pergunta relevante em três anos não será "qual modelo eu uso?" — será "quem controla o modelo que eu uso?". E a resposta para essa pergunta, mais do que qualquer benchmark, vai determinar se esta era da IA foi boa para a humanidade.
"A IA é geradora de lucro. A IA é geradora de PIB. E o computador mais avançado do mundo será aquele que consegue rodar agentes — localmente, com privacidade, sem depender da nuvem."
— Jensen Huang, GTC Taipei 2026
Veja também: NVIDIA RTX Spark — o hardware projetado para rodar este modelo.
Perguntas Frequentes sobre o Nemotron 3 Ultra
O que é o Nemotron 3 Ultra?
O Nemotron 3 Ultra é um modelo de inteligência artificial desenvolvido pela NVIDIA com 550 bilhões de parâmetros totais e 55 bilhões ativos por token (arquitetura MoE). É o modelo open-weights mais capaz dos Estados Unidos segundo o Intelligence Index da Artificial Analysis, com janela de contexto de 1 milhão de tokens e velocidade superior a 300 tokens por segundo.
O Nemotron 3 Ultra é gratuito?
Sim. Os pesos do modelo são disponibilizados gratuitamente no Hugging Face e via NVIDIA NIM a partir de 4 de junho de 2026, sob a NVIDIA Open Model License. Para uso pessoal, acadêmico e comercial dentro dos termos da licença, é gratuito — sem custo por token, sem assinatura.
Como baixar o Nemotron 3 Ultra?
Pelo Hugging Face (busque por nvidia/nemotron-3-ultra) ou via NVIDIA NIM como microserviço. Também é compatível com Ollama, llama.cpp, vLLM e SGLang para quem prefere frameworks já conhecidos.
O Nemotron 3 Ultra roda em qualquer computador?
Não. Com 550 bilhões de parâmetros, o modelo exige hardware com muita memória. Na versão quantizada em NVFP4, o ideal é um sistema com pelo menos 64–128 GB de VRAM ou memória unificada — como o NVIDIA RTX Spark. Em GPUs convencionais como a RTX 4090 (24 GB de VRAM) não é possível rodar o modelo completo localmente. Para quem não tem esse hardware, o acesso via API na nuvem é a alternativa.
Qual é o melhor modelo de IA aberto em 2026?
Entre os modelos open-weights americanos, o Nemotron 3 Ultra lidera com 48 pontos no Intelligence Index da Artificial Analysis. O modelo aberto mais capaz globalmente é o Kimi K2.6 da Moonshot AI (China), com 54 pontos. Os modelos fechados de fronteira — Anthropic, OpenAI e Google — marcam 57. O gap em relação à fronteira fechada encolheu para apenas 9 pontos.
O Nemotron 3 Ultra funciona sem internet?
Sim, desde que você tenha o hardware adequado. Rodando localmente via RTX Spark com os pesos instalados na máquina, o modelo opera completamente offline — sem chamadas de API, sem logs externos e sem custo por token. Essa é a principal vantagem para profissionais de saúde, direito e finanças que lidam com dados protegidos pela LGPD.
Informações baseadas nos anúncios oficiais da NVIDIA no GTC Taipei 2026 (1º de junho de 2026). Especificações e preços sujeitos a alteração.