每经记者|李卓 每经编辑|余婷婷
◼︎行业属性:大模型、具身智能
◼︎估值/融资轮次:未公开披露
◼︎核心竞争力:人类“第一视角”数据
◼︎未来关键词:通用性、物理智能
如果总分10分,2025年中国的具身智能“通用性”能够打几分?
“说得难听一点,其实我觉得应该是零分。”陈凯几乎没有迟疑,给出了这个回答。
“有这么夸张吗?”《每日经济新闻》记者追问。
“客观来看,目前整体水平在1分左右。”陈凯沉思了几秒后补充道。
作为一名“走出实验室”的科学家,陈凯2025年的最新身份是深度机智(北京)科技有限公司(以下简称深度机智)创始人。在此之前,他在人工智能领域深耕十五年,在国际上率先将人工智能模型分布式训练规模扩展至百卡以上,相关成果发表于Nature子刊、TASLP、NeurIPS、ICLR等国际顶级会议和期刊。
陈凯还身兼北京中关村学院导师、中关村人工智能研究院研究员、具身智能方向负责人,肩负博士生的培养职责。他与公司CEO(首席执行官)都出自中科大少年班,身上有着新一代原生AI(人工智能)创业者的天然淳朴及学术气质。这种专业沉淀下,他的回答显然绝非戏谑之言。
因为看到了具身智能通用性的难题,陈凯的创业致力以人类“第一视角”数据提升基座模型的物理智能水平。换言之,他们要做具身智能的“大脑”。然而,当陈凯团队第一次提出“从人类第一视角视频数据构建通用具身智能基座模型”时,迎接他们的不是掌声,而是质疑。
2026开年,AI赛道再次迎来资本与技术的双重爆发。陈凯团队究竟能否凭借“第一视角”解锁物理智能的通用性密码?作为创业公司又将如何接受市场的考验?对此,陈凯接受了《每日经济新闻》“对话未来商业”栏目专访。
对话未来商业|深度机智创始人陈凯:用人类“第一视角”重构具身智能“大脑”
从不被认可到巨头印证:特斯拉与Figure的“神同步”
“当时在和一些学者、相关投资人探讨时,他们其实对于这条路径都不认可。”陈凯回忆起当初的状况印象深刻。他的创业想法诞生于2024年底,那时,国内大量公司仍聚焦机器人“本体”研发;而外界可感知的现象级事件则爆发于2025年春晚,宇树科技的通用人形机器人H1以“扭秧歌”的形式惊艳亮相,掀起了具身智能热潮。
但真正发挥作用的关键是“大脑”能力,彼时美国已有多家“大脑”公司崛起,国内却相对薄弱。也正是那时候,陈凯意识到具身智能领域存在巨大机会与挑战。
深度机智于2025年5月注册。这支平均年龄30岁的创业团队,博士占比超过60%,他们选择了一条与OpenAI、DeepMind截然不同的技术路径:不依赖昂贵的动作捕捉设备,不用仿真环境预训练,而是直接采集人类在真实场景中的“第一视角”数据。
“当时的投资人们认为,没有精准标注、精准捕捉,缺乏感知力和触觉的数据,没有太大价值。”陈凯坦言。事实上,这种质疑也源于传统AI研究的思维定式:强化学习依赖仿真环境,计算机视觉需要精准标注,而具身智能领域普遍采用动作捕捉设备采集数据。
但陈凯坚信:人类第一视角数据蕴含着人看出去的整个物理世界的深层规律,这些规律无法用文字精准描述,也没有办法用规则去把它穷尽;但是它的数据形式就在那,需要把这样的数据压缩到大模型里面,让大模型获得对物理世界的理解。
转折点出现在2025年5月。陈凯自述,特斯拉当时突然宣布了一条技术路线,会逐渐减少遥操数据(一般指通过远程操控方式产生、传输或处理的数据)和动捕数据的使用,将大量转向从人类的第一视角视频学习。
几个月后,2025年9月,美国估值最高的具身智能初创公司Figure AI发布了一个全尺寸的人形机器人快递分拣以及把衣服放进洗衣机的视频,其流畅程度让陈凯推断,他们应该是直接采用了人的数据去学习。“因为那种细微的动作表现太像人。”陈凯直言,Figure官宣融资的同时,还宣布了和一家商业地产公司的合作,就是要进入真实的场景里面采集人的数据。
更直接的验证来自同为AI机器人初创公司Generalist AI。这家公司在2025年10月发布的GEN-0具身智能模型,就是基于超过27万小时的真实物理世界操作数据的预训练,初步验证了Scaling Law(规模化法则,是大模型领域的一个经验公式),这一度被业界解读为智能机器人迎来了“ChatGPT时刻”。
而在陈凯看来,Generalist的数据虽然不是真人用手直接操作的第一视角,但也是人操控“假爪”在真实世界中进行采集的。和遥操作、动作捕捉以及仿真已完全不同,其已经是在验证真实物理世界数据的重要性。
2025年12月,美国具身智能明星创业公司Physical Intelligence公布了一项研究结论——基于大量的机器人数据模型加上人的数据,能大幅提升模型的通用性,这再次让陈凯感到振奋。
“Physical公司的结论其实验证了我们的假设”,陈凯分析道,Physical论述了人类在真实场景里的交互数据,是连接语言模型和物理智能的关键,验证了人类第一视角多模态数据的有效性。也就是说,看人干活儿,机器人真的能学会。而这一结论,与陈凯团队的研究发现不谋而合。
从0到1:“百万小时”数据攻坚,练好“内功”机器人就能“开窍”
虽然陈凯的技术路线在创业之初并没有被认可,但随着时间推移,这条技术路线一直在被验证,也成为了陈凯当前最大的“创业心流”。
从大众视角来看,2025年的中国具身智能发展飞快,无论是在酷炫演唱会上的跳舞表演,还是各大AI展馆里叠衣服等炫技,这些通过大量人造数据训练出来的机器人运动轨迹,在陈凯看来仍然属于“死记硬背”,环境一变可能直接失效。
第三视角 图片来源:深度机智
第一视角 图片来源:深度机智
而通过“第一视角”的人类数据,则可以大幅提高模型对于物理世界的理解,进而提升模型的物理智能水平,提高机器人执行任务的成功率。
第一视角采集手部建模 图片来源:深度机智
记者了解到,深度机智从数据源头进行优化,直接采集人类第一视角下的手部操作数据。这类数据天然包含人类在真实环境中的操作直觉,例如握取不同材质物品的力度控制、物品滑落时的即时调整,适配机器人“感知—动作”映射需求,避免了机械操作数据与人类交互习惯的适配成本。
陈凯告诉记者,公司目前每天的数据采集规模已超过1000小时,但每沉淀1万小时的数据,往往需要2至3周,因为中间还需要一些数据清洗。按照公司的计划,2026年上半年将冲刺“百万小时”的数据量级。
那么,“百万小时”意味着什么?
“意味着我们可以基于人类数据,真正验证具身智能是否存在Scaling Law”。陈凯表示,尽管对于Scaling Law已经非常有信心,但现在要做的是把这个正确的曲线真正画出来,为未来算力、数据和模型的规模投入做明确的指引。而如果百万小时数据得到验证,具身智能的“通用性”也能够随之达到5至6分(总分10分)。
“做基座模型、提升物理智能就是‘练内功’的过程。这个内功练好,机器人就能‘开窍’。”陈凯进一步比喻。
“武侠小说中郭靖练功之初师从‘江南七怪’,七位师傅各有招数要教给他,会导致习得的招式多而杂,很难深入参透某一个功夫。最终还是道长马钰教他先练气、打坐,先把内功练好。之后,那些招数自然而然就学会了。”“但是我感觉非常多的人其实不理解这个逻辑。”陈凯补充道。
那么,如果把“内功”分为十个等级,第一视角数据采集的“百万小时”规模又可以练到几级?
“三、四级吧。”陈凯坦言,如果要练到十级,则需要1000万小时以上的数据规模。并且,单靠数据还远远不够,因为就数据驱动模型训练而言,见多才能识广。“大语言模型明显就是‘读万卷书’得到的那么强的能力。现在的具身智能要做好,就要‘行万里路’。”
技术路径收敛:加速、规模与希望并存
谈及当前的技术差距,陈凯直言,一年过去了,中国和美国在这一领域的差距不是在缩小而是在扩大。
“一个核心原因就是具身智能的技术路线没有收敛。许多公司采取了比较保守的策略,没有大力搞研发,因此没有突破也就是在意料之中。”陈凯表示。
不过,身为创业者,陈凯如今再接触投资人时明显感觉到他们对这条技术路径的认知已经清晰了许多,因为投资人的知识迭代速度很快,学习能力也非常强。
“市场上的资金量是足够支持(具身智能‘大脑’)这个赛道发展的。核心并不是盲目‘烧钱’,而是要在正确的路径上烧足够多的钱。”陈凯如是说。
对于2026年的行业发展,陈凯认为大家会变得更加乐观,因为技术路径正在收敛,至少数据路线上基本上要形成共识了。他也相信,不管是国家还是资本,投入都会进一步加大,整个行业都会快速进步。
“届时,我最希望看到的就是中美之间的差距持续缩小,甚至有机会实现反超。”陈凯指出,当前,中国的人类第一视角数据采集成本比美国要低很多,这是中国的创业优势;而且相较于遥操作、动作捕捉,第一视角数据采集的成本同样更低,无论是数据的多样性、数据规模还是路径上,都更具优势。
如果要为2026年具身智能发展提炼关键词,陈凯认为,第一个关键词是“加速”,整个行业的进步会加速;第二个关键词则是“规模”,包括数据和模型规模的扩大,并且规模定律(Scaling Law)可能会被验证。
“第三个关键词,我觉得是‘希望’吧。这个领域最初大家确实有非常多的争议,许多投资人也会比较犹豫。一些人在下场之前可能也有一些恐惧,但是现在整个行业的发展让我们看到了非常大的希望。”陈凯说。
“零分”并非嘲讽,是一剂清醒剂。2026年,这条曾被冷落的赛道上,已经聚集起躬身入局的“陈凯们”。他们相信,物理智能的突破,终将通向智能与实体交融的深远未来。