NVIDIA发布大规模开源模型、数据和工具集合,加速AI开发

    /
    6 分钟阅读
    Ing. Patrik Kelemen
    NVIDIA发布大规模开源模型、数据和工具集合,加速AI开发

    NVIDIA刚刚发布了历史上最大规模的开源AI版本之一。涵盖语音、机器人、自动驾驶、医疗等领域的新模型。

    Namiru AI

    AI客户支持 为您的网站

    粘贴您的URL。30秒内获得支持代理。

    在CES 2026上,NVIDIA宣布了迄今为止可能最重要的开源AI发布。该公司推出了涵盖从语音识别到药物发现等各个领域的新模型、数据集和工具。

    规模令人瞩目:

    • 10万亿语言训练token
    • 50万机器人轨迹
    • 45.5万蛋白质结构
    • 100TB车辆传感器数据

    包括博世、Salesforce、Uber、Palantir和CrowdStrike在内的大型企业已经在这些技术之上进行构建。


    Nemotron RAG: 更智能的文档搜索

    image

    嵌入模型: Llama-Nemotron-Embed-VL-1B-V2 (17亿参数) 重排序模型: Llama-Nemotron-Rerank-VL-1B-V2 (17亿参数) 同时提供: 80亿参数纯文本嵌入模型 上下文长度: 最多8,192个token 许可证: 允许商业使用

    在文档中查找信息是知识工作者每天面临的挑战。Nemotron RAG为文档搜索带来多模态智能,处理文本和图像,在26种语言中提供精确的多语言洞察。

    工作原理

    Nemotron RAG管道结合了三个组件:

    1. 嵌入模型: 将文档转换为向量表示,用于存储和检索
    2. 重排序模型: 使用交叉注意力将候选结果重新排序为最终顺序
    3. 推理模型: 基于检索到的上下文生成准确的回答

    真实案例: IT帮助台代理

    NVIDIA展示了这些模型如何在IT帮助台代理中协同工作:

    • Nemotron Nano 9B V2: 用于生成回答的主要推理模型
    • Llama 3.2 EmbedQA 1B V2: 将文档转换为向量嵌入
    • Llama 3.2 RerankQA 1B V2: 按相关性重新排序检索到的文档

    这些模型共同使代理能够通过利用语言生成、文档检索和重排序功能来准确回答用户查询

    谁在使用

    Cadence对逻辑设计资产进行建模,如微架构文档、约束和验证材料。工程师可以提出类似*"我想扩展中断控制器以支持低功耗状态,请告诉我哪些规格部分需要修改"*的问题,并立即找到相关需求。

    IBM正在试验这些模型,以改进技术文档中的搜索和推理。


    Nemotron Speech: 前所未有地与设备对话

    模型: Nemotron-Speech-Streaming-En-0.6B 参数: 6亿 架构: Cache-aware FastConformer编码器 + RNN-T解码器 延迟: 低于100ms的流式处理 许可证: 允许商业使用

    Nemotron Speech提供实时语音识别,速度比同类模型快10倍,并在当前ASR排行榜上名列前茅。

    image

    关键特性

    • Cache-aware流式架构: 仅处理新的音频片段,同时重用缓存的编码器上下文
    • 运行时可配置的延迟模式: 80ms、160ms、560ms或1.12s的片段,无需重新训练
    • 原生标点和大写支持
    • 基于285,000小时NVIDIA Granary数据集音频数据训练

    谁在使用

    博世已经在使用Nemotron Speech,让驾驶员通过语音命令与车辆互动。ServiceNow使用Nemotron数据集训练其Apriel模型系列,实现高性价比的多模态性能。

    预计这项技术将在2026年全年出现在智能家居设备、客户服务系统和无障碍工具中。


    Clara: 更快的药物发现和更好的医疗保健

    image

    La-Proteina: 原子级蛋白质设计 ReaSyn v2: 药物合成可行性 KERMT: 计算安全测试 RNAPro: RNA 3D形状预测 数据集: 455,000个合成蛋白质结构

    NVIDIA的新Clara AI模型旨在弥合数字发现与现实医学之间的差距。虽然您不会直接与这些模型交互,但它们可能会显著影响您的医疗保健。

    模型概览

    模型功能影响
    La-Proteina设计大型、原子级精确的蛋白质研究以前无法治疗的疾病
    ReaSyn v2将合成可行性纳入发现过程防止在不切实际的化合物上浪费研究
    KERMT预测药物与人体的相互作用在昂贵的临床试验之前发现问题
    RNAPro预测RNA 3D形状实现个性化的基于RNA的治疗

    总结: 治疗方案可以更快、更低成本地到达患者手中。


    Alpamayo: 让自动驾驶汽车更智能

    image

    模型: Alpamayo-R1-10B 参数: 100亿(82亿Cosmos Reason主干 + 23亿动作专家) 训练数据: 来自80,000小时多摄像头驾驶的10亿+图像 数据集: 来自25个国家的1,700+小时驾驶数据 许可证: 非商业(研究)

    NVIDIA的新Alpamayo系列将加速实现真正自动驾驶车辆的进程。这是业界首个用于自动驾驶的开放推理VLA模型

    关键创新: 思维链推理

    与仅检测物体和规划路径的传统AV系统不同,Alpamayo使用思维链推理。它可以:

    • 处理来自多个摄像头的视频输入
    • 生成驾驶轨迹
    • 解释每个决策背后的逻辑

    示例输出: "向左偏移,以增加与侵入车道的施工锥之间的间距"

    包含内容

    • Alpamayo 1: Hugging Face上的100亿推理VLA模型
    • AlpaSim: 开源端到端仿真框架
    • Physical AI Open Datasets: 1,700+小时,涵盖来自25个国家和2,500+城市的罕见边缘案例

    谁在使用

    Lucid Motors、JLR、Uber和Berkeley DeepDrive正在使用Alpamayo开发基于推理的AV堆栈,实现L4级自动驾驶。


    Cosmos: 教机器人理解物理世界

    image

    Cosmos Reason 2: 20亿和80亿参数版本 上下文窗口: 256K token(比v1大16倍) 架构: 基于Qwen3-VL 许可证: 允许商业使用(NVIDIA开放模型许可证)

    在Hugging Face上,机器人技术已成为增长最快的领域,NVIDIA的模型在下载量上领先。

    Cosmos模型系列

    模型参数功能
    Cosmos Reason 22B / 8B用于机器人和AI代理的物理AI推理VLM
    Cosmos Transfer 2.5-视频到世界的风格转换
    Cosmos Predict 2.52B / 14B以视频形式预测未来状态

    Cosmos Reason 2的关键特性

    • 增强的时空理解,具有时间戳精度
    • 2D/3D点定位和边界框坐标
    • 轨迹数据输出,用于机器人控制
    • OCR支持,用于读取环境中的文本
    • 思维链推理,使用<think>标签

    Isaac GR00T N1.6: 人形机器人基础模型

    参数: 30亿 基础VLM: Cosmos-Reason-2B变体 架构: 带32层扩散变压器的VLA

    GR00T N1.6是一个开放的视觉-语言-动作模型,专为人形机器人设计。它实现全身控制,并使用Cosmos Reason获得更好的上下文理解。

    谁在使用

    • Franka Robotics、Humanoid和NEURA Robotics - 模拟、训练和验证机器人行为
    • Salesforce、Hitachi、Uber和VAST Data - 交通监控和工作效率
    • Milestone - 公共安全视觉AI代理

    Nemotron Safety: 构建可信赖的AI

    image

    内容安全: Llama-3.1-Nemotron-Safety-Guard-8B-v3 PII检测: Nemotron-PII(基于GLiNER) 许可证: 允许商业使用

    对于部署AI的企业,Nemotron Safety包括内容安全模型和高精度PII检测

    组件

    • 内容安全模型: 扩展的多语言支持,具有文化细微差别
    • PII检测: 在个人敏感数据泄露之前检测到它们
    • 主题控制: 管理AI可以讨论的主题

    谁在使用

    • CrowdStrike、Cohesity和Fortinet: 加强AI应用安全
    • CodeRabbit: 以更快的速度和更高的准确性驱动AI代码审查
    • Palantir: 集成到Ontology框架中,用于专业化AI代理

    这对所有人意味着什么

    所有模型和数据现已在GitHub和Hugging Face上提供,也可作为NVIDIA NIM微服务进行可扩展部署。

    开放数据摘要

    数据集规模内容
    语言token10万亿多语言推理、编码、安全
    机器人轨迹50万机器人运动和操作
    蛋白质结构45.5万用于生物医学AI的合成结构
    车辆传感器数据100 TB多种驾驶条件
    驾驶视频1,700+小时来自25个国家的罕见边缘案例

    入门链接


    对于普通用户来说,这次发布意味着更好的语音助手、更智能的文档搜索、更快的药物开发、更安全的自动驾驶汽车和更强大的机器人。这些技术将在2026年全年渗透到消费产品中。

    NVIDIA押注通过赋能整个AI生态系统来销售更多GPU。从已经采用这些技术的公司来看,这个赌注正在获得回报。

    Namiru.ai - 为您的网站提供即插即用的AI聊天。

    Patrik Kelemen
    Author
    Ing. Patrik Kelemen
    Founder of Namiru.aiSlovakia, EU

    Senior software engineer with 10+ years of experience, specializing in AI chat widgets and automation. Building Namiru.ai to help businesses leverage AI without complexity.

    AI AgentsAngularReactNodeJSAWSAzure
    您喜欢这篇文章吗?

    看看AI能为您的 网站

    粘贴您的URL,观看AI代理在几秒钟内启动。

    您的客户获得即时回答。您获得潜在客户、分析和宝贵时间。

    无需信用卡

    Namiru.ai

    AI chat for your website