Nvidia放大招：打造能“连续决策”的大脑

世界新闻网 2025-08-12 16:18

　　辉达（Nvidia）强攻机器人放大绝，8月12日宣布推出最新涵盖多达70亿参数的推理视觉语言模型，主打“要让机器人更像人类”，透过结合视觉感测应用，让机器人基于既有知识与概念，学会“连续决策”，并在理解后采取行动，堪称可打造机器人的推理大脑。

　　业界认为，这是辉达引领全球机器人发展跨出更重要的一步，也意味AI算力应用再创颠峰，对致力于开发机器人的鸿海、广达等大型集团是一大助力，同时也将加速AI伺服器建置需求。

　　辉达在昨天绘图芯片业年度盛会“SIGGRAPH 2025”上，发表推理视觉语言模型“Cosmos Reason”。

　　辉达说明，“Cosmos Reason”是一款专为物理AI应用与机器人设计的70亿参数“推理”视觉语言模型，具备超强大功能，并加入让机器人具备与人一样的“推理”能力，透过先验知识、物理理解和常识，让机器人与视觉AI代理像人类一样分析情境、判断下一步行动。

　　辉达表示，机器人规划与推理技术如机器人视觉语言行动（VLA）模型的大脑，让模型可深思熟虑、有条不紊地做出决策。“Cosmos Reason”可让机器人解读环境、在收到复杂的指令后，将指令分解为各种工作，即使在不熟悉的环境，也能运用常识执行这些工作。

　　辉达强调，“Cosmos Reason”是适用实体AI与机器人的全新开放式、可完全客制化。谈到“Cosmos Reason”和既有视觉语言模型（VLM）的差异，辉达说明，自OpenAI推出CLIP模型以来，视觉语言模型（VLM）已广泛应用于物件与模式识别等电脑视觉任务，但仍难以处理多步骤任务、含糊情境或全新经验，“Cosmos Reason”可突破上述限制，这种能力对于需要连续决策的场景，如机器人任务规划或自驾车路径预测，尤其关键。

　　“Cosmos Reason”可用于资料管理与标注、机器人规划与推理，以及影片分析AI代理，让系统在面对复杂指令时，能拆解成可执行的步骤并作出符合常识的判断，即使处于陌生环境也能正确行动。

Nvidia放大招：打造能“连续决策”的大脑

　　示意图。（AI生成）

实用资讯