您当前位置: 首页>国防动员>新域新质

具身智能机器人——当AI拥有了“身体”之后

2025-08-01 09:08 信息来源:
字号: 默认 超大
打印


7月26日,2025世界人工智能大会在上海举行。图为展览现场参观者与具身智能机器人互动。新华社发


7月9日,四川绵阳某工厂车间。一款名为“远征A2-W”的机器人正在流畅地搬运周转箱。它们灵活穿梭于货架间,稳当地将散落各处的周转箱搬运到指定位置。

更令人惊叹的是,当移动叉车突然驶过,或是工人临时走近作业区,他们还能灵巧避让。整个搬运过程中,机器人的动作自然顺畅,仿佛真的“看”懂了周围的工作环境,也“想”明白了怎么执行每个搬运步骤。

这种能让机器感知环境、理解任务并自主动作的能力,就是具身智能(Embodied AI)。如今,方兴未艾的具身智能机器人,正逐渐让机器从冰冷的程序执行者,蜕变成能在真实世界自主行动的“智能伙伴”。

能“看”能“想”能“动”

对于具身智能机器人的概念,大众或许仍感陌生。不妨设想一下这样一个场景——

你给家里的机器人下达指令:“把茶几上的空水杯拿到厨房去。”如果机器人只能沿着预设的路线移动,茶几被挪动了一点或者地上多了一个玩具,它就会迷路或者被玩具绊倒,就不能算是具身智能机器人。

面对同样的情况,具身智能机器人的反应是这样的——

它先用“眼睛”看,通过摄像头或其他“感官”扫描整个客厅,认出茶几,找到空水杯,还能定位厨房的位置。

再用“脑子”想,结合“拿”“空水杯”“厨房”的指令,它理解总结出“这是一个移动物体的任务”,随后进一步“思考”:如何抓握水杯才最稳当安全?如何规划避开地上物品的路线?甚至进行初步“推理”:主人让我把空水杯拿到厨房,很可能是要清洗,那么最好放到水槽旁。

最后“身体”动,它的机械臂会稳稳地抓起水杯,然后沿着规划的路线走向厨房,准确把杯子放好。

这个“感知—思考—行动”过程的闭环,正是具身智能机器人的核心功能:它将人工智能的“智慧”与机器实体的“动作”深度融合,实现信息世界和物理世界的互联。

支撑这一功能的,是众多智能技术的协同发展:让机器能看、听、触的多模态感知技术,理解重力、摩擦力等物理规律的世界模型技术,在动态环境中快速响应的实时决策与推理技术,以及让机器人既能认路又能灵巧操作的自主导航和精细控制技术等。

此外,还有将上述技术组合在一起的“快慢搭配”智能系统架构。

以“擦黑板”为例。“慢系统”如同深谋远虑的军师,负责拆解复杂命令:找到抹布,走到黑板前,规划擦拭的动作顺序。

“快系统”则像一名身手矫健的运动员,一旦“慢系统”定下大方向,“快系统”就能根据实时看到的黑板情况(哪里脏、哪里湿),精细地调整机械臂的微小动作和力度,确保擦得干净又不会划伤黑板。

这种“深谋远虑”加“眼疾手快”的组合,本质上是对人类大脑的慢速推理(前额叶皮层)和快速直觉(基底神经节)两种处理机制的模仿,让机器人在面对动态环境时更加游刃有余。

具身智能的精髓,还在于“做中学”。这就像一个蹒跚学步的孩子,跌倒了无数次才学会平衡。人类智力的增长依赖于身体与环境的互动,具身智能机器人同样需要在真实或模拟的世界里反复“练习”。

谷歌公司人工智能研究实验室DeepMind的Genie模型、英伟达公司的Issac Sim平台,以及我国人形机器人创新中心今年3月发布的“格物”平台,就是供具身智能机器人训练学习的“虚拟世界”。以倒水训练为例,在这个高保真模拟环境中,机器人可以反复观看人类操作视频,并进行成千上万次的模拟练习,不断调整抓壶力度、倒水角度和移动速度。

最终,当它在现实世界拿起水壶时,就能像经验丰富的服务员一样,把水一滴不洒地倒入杯中。这种模拟训练大幅降低了试错成本,加快了机器人习得技能的速度,是具身智能机器人走向实用化的关键一环。

从“笨拙”走向“灵巧”

事实上,具身智能机器人的发展过程是从笨拙走向灵巧的进化史,其核心是解决“机器如何理解物理世界”的终极难题。

1950年,人工智能之父艾伦·图灵在其论文《计算机器与智能》中首次提出关于具身智能的设想——真正的智能需要拥有物理实体,通过与世界的互动来学习和进化。

70多年后的今天,这一理念正通过具身智能机器人技术变为现实,将机器人从“执行工具”升级为“认知主体”。

其实,真正意义上关于具身智能技术的探索时间并不算长。

2018年,谷歌开始训练机器人学习抓取积木,但成功率不足30%,机械臂常把方块撞飞。

2022年,谷歌公司研发的RT-1模型与之前相比,有了明显的进步。机器人能理解诸如“把可乐放进冰箱”的多步骤指令,不过,当时的机器人如同需要手把手教的婴儿,想学会一个动作,需要为其反复演示上千次。

时间来到2024至2025年,具身智能机器人的发展迎来爆发期。例如,中国智平方公司推出RoboMamba模型,将机器人学习新动作的效率提升了数倍。以前研发人员需要大量演示才能让机械臂学会抓取新物体,现在只需微调参数就能使其快速掌握这项技能。

同期,开源社区也有了更大突破。美国斯坦福大学、加州大学伯克利分校、谷歌公司等联合推出OpenVLA模型,以不到主流模型七分之一的参数实现了更优性能。这意味着普通的研究者甚至学生,用消费级的显卡即可训练开发机器人算法,这极大促进了具身智能机器人的创新与普及。

今年,具身智能机器人迎来了“走出实验室”的关键节点:2月,武汉光谷“天问”机器人进入咖啡店“实习”,甚至可以制作咖啡拉花;而在美国,护士机器人Moxi已经在各地医院完成超过100万次医药配送;5月,美国特斯拉公司Optimus机器人开始在自有工厂“打工”,执行电池分装任务;7月,中国铁路设计集团研发的四足机器人,实现了对数据中心机房设备的高效自主巡检。

近日,两家具身智能机器人4S店分别落户北京和杭州。用户可以在店内体验、选购适合自身需求的“钢铁伙伴”,享受后续技能定制、软件更新和硬件维护服务。

从工厂车间里精准搬运的机械臂,到机房里自主巡检的机器狗,具身智能机器人正慢慢融入人类生产生活的多个方面。可以说,具身智能机器人不仅是机械躯体的进化,更是智能认知能力在物理世界的延伸。

化身人类“钢铁伙伴”

具身智能机器人正悄然卸下神秘面纱,化身我们身边的“钢铁伙伴”。工厂轰鸣的车间、温馨的居家角落、危机四伏的救援现场,甚至未来的无人战场,都将是它们可以大展拳脚的地方。

——工厂里的“超级工人”。训练后的机器人熟练度高,不会疲劳,未来可以替代人类从事繁重重复的搬运、组装等工作。

据统计,工厂车间里的“远征A2-W”机器人将搬运效率提升近30%,失误率却降至0.1%以下。这标志着具身智能机器人正开始成为切实提高生产力的“超级工人”。

——家庭中的“贴心帮手”。“奶奶,您该吃药了。”在深圳一家养老院,一台服务机器人来到老人身边,一边温和地发出语音提醒,一边稳稳地递上水杯和药盒。

虽然目前这些机器“保姆”还很稚嫩,但随着具身智能技术的升级,它们未来将学会整理房间、取送物品、陪伴聊天,甚至搀扶老人上下楼,并在紧急情况下自主呼叫医护人员。

——危险地带的“无畏先锋”。例如,杭州某公司推出的山猫M20轮足机器人,能轻松应对坎坷山路、泥泞湿地和废墟障碍,适应-20℃至55℃的环境。这类机器人可以替代人类完成很多高危作业,成为沙漠油田、戈壁电站、火灾现场等极端环境中的冲锋勇士。

展望明天,未来机器人的形态可能像瑞士军刀一样,能进行多功能灵活组合。例如,根据任务需要,给强大的智能“大脑”配上不同的“身体”部件:需要精细操作,就配上灵巧的“手臂”;需要和人类自然互动,就配上类人的形态;需要征服野外崎岖地形,就配上多足或轮腿结合的“脚”……

具身智能机器人的“头脑”也会越来越聪明。它们会感知到更多的环境因素,理解更多的物理规律和人类常识,完成更加复杂的任务,甚至能预测接下来会发生什么,需要怎么行动来提供帮助,与人类的互动也会更加自然顺畅。

更重要的是,技术的开放共享和高效的虚拟训练,将大幅降低其开发和训练成本。专家预测,在不远的将来,一些实用的家庭服务机器人价格或将大大降低,从而走进千家万户。

我们正见证一个人机关系重构的时代,具身智能机器人不会取代人类,而是拓展人类的能力边界——工人将从危险枯燥的流水线解放,士兵不再需要亲入雷区,老人可获得24小时照护……

具身智能技术的终极目标并非创造“替代人类的机器”,而是建立人机共生的新生态。当机器人能理解“请小心拿放,这是爷爷最爱的茶杯”背后的情感价值,能在火灾现场自主判断“优先抢救儿童卧室”的道德选择,技术才真正拥有了温度与智慧。