
刚刚过去的GTC Taipei上,备受关注的钦州pvc管道管件胶,莫过于Cosmos 3。
这是个开源的物理AI全模态模型。老黄表示,Cosmos 3在世界生成这项上,在Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench四个开源榜单上均列。
前三个bench都业界比较眼熟的,而R-bench——我特意查了查,这个让Cosmos 3霸榜的榜单,竟出自支北大团队。
这篇工作已被ICML 2026接收,名字叫《Rethinking Video Generation Model for the Embodied World》,来自北京大学、字节跳动Seed等机构的研究团队。
他们提出了面向具身世界的生成评测与数据基础设施:R-Bench+RoVid-X。
值得注意的是,在作者列表里,字节Seedance 2.0的预训练负责人曾妍,也赫然在列。
R-Bench:门给机器人生成请的“考官”
Cosmos 3是英伟达这次GTC Taipei的主角之。
按老黄的说法,它是全球个开源的物理AI全模态模型,基于种mixture-of-transformers架构,能在个模型里同时理解和生成文本、图像、、环境声音,乃至机器人的动作。
Nano和Super两个尺寸,都已经挂上了Hugging Face。
换句话说,Cosmos 3要做的不是“拍出好看的”,而是给机器人、自动驾驶这些要在真实世界里干活的系统,生成“物理上说得通”的数据。
但问题它就来了。
个模型生成的机器人,到底是不是“物理上说得通”,该用什么来衡量?
过去年,生成的故事几乎都绕着同个问题展开:谁能拍得清晰、稳定、有电影感。
但在机器人场景里,画质好看是回事,能不能用又是另回事。
如果个模型能生成逼真的机械臂,却让夹爪穿过物体;能让机器人看起来“动起来”,却法完成抓取、放置、转身、协作等任务,那么它距离Physical AI需要的“世界模型”,仍然隔着条鸿沟。
R-Bench的核心出发点,就是把生成模型从“视觉生成器”放到“物理世界模拟器”的语境下重新评估。
它不只看画面是否逼真,而是系统衡量模型是否能生成符具身任务逻辑和物理约束的。
具体而言,R-Bench是个以机器人为中心的生成评测基准,包含650个图像-文本评测样本,从5类任务能力和4类机器人形态两个维度构建。
在任务维度上,R-Bench覆盖操作执行、空间关系、多主体协作、长时规划和视觉理;在机器人形态维度上,覆盖单臂、双臂、四足和人形机器人。
这样的设计让R-Bench不再只问“像不像”,而是进步追问:
机器人有没有真正接触到目标物体?
任务关键步骤是否完整出现?
多个物体或多个主体之间的关系是否理?
机器人形态在运动过程中是否保持稳定?
长时序动作是否符任务逻辑?钦州pvc管道管件胶
因此,R-Bench不只是个排行榜,可以作为机器人生成数据的“物理质量过滤器”:
它能够评估生成是否满足接触关系、动作顺序、形态稳定和任务完成度等物理约束,从而帮助筛选出符物理规律、可用于具身智能训练的数据。
为了捕捉这些问题,R-Bench设计了套可复现的自动化评测指标体系,能够识别机器人形态畸变、物体属漂移、部件漂浮或穿模、接触抓取、凭空出现物体、关键动作缺失等常见失败模式。
值得注意的是,R-Bench的自动分,和人工评测的Spearman相关系数达到0.96。
这意味着它不只是个自动跑分工具,在很大程度上对齐了人类对“物理不理”“任务完没完成”的判断。
榜单上还能看到什么?
在新R-Bench Leaderboard中,Cosmos 3系列已经成为开源社区亮眼的模型之。
Cosmos3-Nano以0.584的综得分位列RBench开源模型,Cosmos3-Super紧随其后,拿到0.581。
放到整个榜单里看,这传递出两个信号。
是以物理AI为目标训练的世界模型,已经开始在机器人图像到生成上展现竞争。
相比传统通用模型,它的优势不只在画质,在于接近具身智能需要的物理模拟与动作延展能力。
二是闭源商业模型综能力仍然先,但开源正在快速追赶。
对研究社区来说,这种“开源能”的信号,比单个模型强重要。
而比排名有价值的,保温护角专用胶是RBench照出来的几处共短板:
精细操作还是老大难。移动、转身这类大幅动作模型已经做得不错,但抓、捏、拧、插、放置这些对接触建模要求的动作,容易出错。
长时规划仍是弱项。看起来连贯,不代表任务逻辑正确,模型可能动作流畅却漏掉关键步骤,或者把顺序搞反。
通用知识和机器人数据没“上”。纯通用有丰富的世界知识但缺机器人交互,纯机器人数据又往往规模有限、形态单。
从这个角度看,R-Bench像面镜子,把模型在物理世界里的真实软肋照了出来。
RoVid-X:400万条机器人,开源了
发现了问题,下步就是喂数据。这正是RoVid-X要解决的事。
团队已经在Hugging Face上开源了RoVid-X的重要子集(300万条机器人),上线后热度攀升很快——它在Datasets Trending 的Video模态大规模数据集中排名,在全部6.5万多个Video模态数据集的整体Trending里也位列九。
这反映了RoVid-X作为面向机器人视觉/理解的大规模数据资源,在开源社区中的快速影响力。
数据集的完整版规模达到400万条机器人片段、1300+细粒度技能、1万+小时内容,分辨率720P,并附带RGB、度、光流等多模态物理标注。
和通用互联网不同,RoVid-X要让模型接触的是接近真实的机器人交互过程:物体怎么被抓取、机械臂怎么接近目标、任务怎么被分解、动作和环境怎么共同形成物理约束。
这种数据对于世界模型尤其关键。因为物理理解不是简单靠提示词补出来的,而需要模型在大量交互数据中学习接触、顺序、力学关系和结构稳定。
实验结果也显示,引入RoVid-X数据后,模型在具身任务中的表现能够获得稳定提升。
例如在Wan系列模型上,经过RoVid-X微调后,模型在操作执行、长时规划和空间理解等维度均有明显。
这说明质量、结构化的机器人数据,确实能够提升生成模型面向具身场景的可执行与稳定。
这项工作的意义,不只在于多了个benchmark和个dataset,而是把生成放进了物理AI的语境里重新审视。
过去生成多服务于内容创作:广告、短片、特。往后,它可能成为机器人训练、仿真环境构建和具身智能数据闭环的基础设施。
当模型开始理解接触、顺序、结构稳定和动作后果,“生成段看起来理的”就在向“可用于物理世界演的世界模拟引擎”靠近。
R-Bench和RoVid-X是在这个转向中补上两块关键拼图:个回答“如何评估”,个回答“如何训练”。
随着Cosmos 3等Physical AI世界模型进入R-Bench榜单并取得开源,具身生成的竞争也正在从单纯比拼视觉果,转向接近真实世界的物理理解和任务执行能力。
对于开源社区而言,这或许是个重要的信号:Physical AI的进展,不只属于闭源模型和商业系统,也可以建立在开放评测、开放数据和开放模型共同演化的基础之上。
按团队的规划,下步还会去做从生成反可执行动作的Inverse Dynamics Model,进步通生成、策略学习和真机部署之间的闭环。
生成模型的下站,或许真的不只是拍电影,而是模拟、理解,并参与真实的物理世界。
团队背景
这支团队叫DAGroup,来自北京大学,负责人是周大权。
周大权的履历,恰好踩在这次工作的题眼上。
他从2022年就开始做生成,是早批入场的人之——
代表作MagicVideo是业界早的隐空间扩散模型之,后来还有MagicVideo-V2、StoryDiffusion、Magic-Me等系列工作。
在腾讯混元模型HunyuanVideo中,他带了模型预训练与扩散法设计团队。
早之前,他在模型与硬件率向也颇有积累,Coordinate Attention曾被列为CVPR 2020具影响力论文2名。
如今回到北大做助理教授,他把研究重心放到了机器人、AIGC和VLA上。
他自述,自己的研究始终带着条“用少的力和内存,跑强的法”的主线。
除R-Bench/RoVid-X外,DAGroup还在进HumanNet、StableVLA等多个具身与世界模型向的开源项目。
论文地址:https://arxiv.org/abs/2601.15282
Project Page:https://dagroup-pku.github.io/ReVidgen.github.io/
GitHub地址:https://github.com/DAGroup-PKU/HumanNet
R-Bench Leaderboard:https://huggingface.co/spaces/DAGroup-PKU/Leaderboard
RoVid-X Dataset:https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶
奥力斯 pvc管道管件胶批发 联系人:王经理 手机:15226765735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定钦州pvc管道管件胶,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
