🔬 AI深度解析 DD30 — 具身智能产业全景:从大脑到身体的AI革命

预计时长:约25分钟


🎤 开场

大家好,欢迎回到AI深度解析!我是小敏。

今天聊一个让人兴奋又让人焦虑的话题——具身智能,或者说”Physical AI”。

过去几年,AI一直活在”数字世界”里——聊天、写代码、画图、生成视频,都是在屏幕上的事情。但现在,AI正在走出屏幕,进入物理世界。它不再只是一个”大脑”,而是开始拥有”身体”了。

特斯拉的Optimus、Figure的人形机器人、宇树科技的四足/人形机器人、软银的”Physical AI”战略……这个赛道在2025-2026年突然就炸了。资本疯狂涌入,估值飙升,所有人都在说”人形机器人是下一个万亿市场”。

但到底什么是具身智能?目前到了什么水平?什么时候人形机器人能真正有用?今天我们来做一个全面的产业分析。


📌 第一部分:什么是具身智能?

先把概念讲清楚。

具身智能(Embodied AI) = AI大脑 + 物理身体 + 环境交互能力。

换句话说,它不只是一个聪明的软件,而是一个能够感知物理世界(通过摄像头、传感器)、理解物理世界(通过大模型和推理能力)、并在物理世界中采取行动(通过机械臂、关节、轮子)的系统。

跟传统工业机器人的区别:

传统工业机器人(比如汽车工厂里的焊接机械臂)是”执行预编程动作”。你告诉它移动到坐标(x,y,z)、旋转30度、合上夹爪——它一丝不苟地执行。但它完全不理解自己在做什么,换一个场景就不行了。

具身智能机器人是”理解任务并自主规划”。你告诉它”把桌子上的杯子放到厨房柜子里”,它需要自己找到杯子、抓起来、走到厨房、打开柜子、放进去。中间可能遇到障碍物、杯子形状不同、柜子位置变了——它需要自己应对。

为什么现在才火起来?

两个关键突破:

第一,大模型提供了”通用大脑”。以前的机器人要为每个任务单独编程。现在有了大模型,机器人可以用自然语言接收指令、用视觉模型理解环境、用推理能力规划行动。这大大降低了开发门槛。

第二,硬件成本在下降。电机、传感器、电池等关键零部件的成本在过去5年下降了约40-60%。一个人形机器人的硬件BOM成本正在从几十万美元级别往几万美元级别靠拢。


📌 第二部分:关键玩家——全球图谱

Tesla Optimus(特斯拉擎天柱)

最受关注的人形机器人,没有之一。

最新进展: Optimus已经在特斯拉工厂内部做一些简单的物料搬运和分拣任务。马斯克声称2025年底会”小批量生产”,但具体数字一直没披露。

优势:

  • 特斯拉在电机、电池、AI芯片方面有深厚积累
  • 自有工厂提供了真实的测试场景
  • FSD(完全自动驾驶)积累的视觉AI能力可以迁移到机器人上
  • 马斯克的目标价格是”最终2万美元一台”

风险:

  • 马斯克的时间表出了名的不靠谱
  • 人形机器人跟造车是完全不同的工程挑战
  • 灵巧操作(用手抓取各种形状的物体)是Optimus目前最大的短板

Figure

硅谷最受关注的人形机器人创业公司。

融资情况: Figure在2024年获得了来自OpenAI、微软、英伟达、Jeff Bezos等的巨额投资,估值一度超过26亿美元。后续继续融资,资金充裕。

技术路线: Figure走的是”大模型驱动”路线。他们跟OpenAI深度合作,用多模态大模型做机器人的”大脑”。Figure 02 已经可以做一些相当流畅的双手操作任务。

商业化进展: 已经跟BMW等公司签了在工厂部署的协议。但目前还在试点阶段。

宇树科技(Unitree)

中国最出名的机器人公司之一。

产品线: 从四足机器人(Go系列、B系列)扩展到了人形机器人(H1、G1)。宇树的四足机器人在全球市场上销量不错,尤其是在科研和巡检场景。

核心优势:

  • 性价比极高。G1人形机器人的起价约9.9万元人民币,是市面上最便宜的人形机器人之一
  • 运动控制能力强,动作流畅
  • 开放SDK,对开发者友好

局限:

  • 智能化程度还不够,灵巧操作能力跟Figure差距明显
  • 品牌在海外的知名度还在建设中

Agility Robotics

做Digit机器人的公司,亚马逊是其重要客户。Digit已经在亚马逊仓库里做搬运测试。它不是人形的——没有头,上半身是两条手臂,下半身是鸟腿结构。这个设计是为了仓库搬运任务优化的。

其他值得关注的

中国阵营: 小米CyberOne、智元机器人(稚晖君创办)、傅利叶GR系列、小鹏铁(PengXiao)。中国在人形机器人领域的公司数量可能已经超过了全球其他地区的总和。

日韩阵营: 本田ASIMO(已退役但技术传承在)、现代/波士顿动力的Atlas。波士顿动力的Atlas在运动能力上仍然是全球最强的,但商业化一直是短板。


📌 第三部分:软银的”Physical AI”战略

软银创始人孙正义在2025年提出了”Physical AI”概念,把它定义为”AI的下一个十年”。

核心观点:

孙正义认为,现在的AI是”Digital AI”——只在数字世界里运行。下一步是”Physical AI”——AI进入物理世界,通过机器人的身体与现实环境交互。他预测到2035年,Physical AI将创造一个比Digital AI更大的市场。

软银的布局:

软银投资了多家机器人公司,并且在筹建大规模的机器人制造能力。软银还拥有Arm的控股权——Arm的芯片架构是大量机器人和IoT设备的核心。

行业影响:

孙正义的呼吁引发了一波投资热潮。2025年全球具身智能领域的投资超过了百亿美元级别。但也有人担心这是又一个”孙正义式泡沫”——还记得WeWork和众多Vision Fund失败的投资吗?


📌 第四部分:技术栈深度解析

具身智能的技术栈可以分成四层:

感知层

机器人怎么”看”和”感觉”世界。

  • 视觉: 多摄像头 + 深度传感器 + LiDAR。跟自动驾驶的感知系统很像。
  • 触觉: 手指和手掌上的触觉传感器。这是目前最薄弱的环节——人类手指有上万个触觉感受器,机器人的触觉精度差距还很大。
  • 力觉: 关节处的力矩传感器。用于控制力度,避免抓碎东西或伤到人。

认知层(大脑)

这是最近进步最快的部分。

Foundation Models for Robotics: Google的RT-2、OpenAI与Figure合作的视觉-语言-行动模型、英伟达的GR00T。这些模型可以直接从视觉观察和语言指令生成机器人的动作序列。

关键突破: 以前的机器人需要对每个任务做单独训练。现在,基于大模型的方法可以实现一定程度的”零样本泛化”——机器人没见过的物体和场景,也能做出合理的动作。虽然成功率还不够高,但方向是对的。

规划层

从高层目标分解成具体的动作序列。

比如”收拾桌子”这个任务,需要分解成:识别桌子上的物品 → 规划拾取顺序 → 抓取物品 → 找到存放位置 → 放置。每一步都需要实时规划和调整。

大模型在这一层的作用越来越大。用LLM做任务分解,用视觉模型做场景理解,用强化学习做底层动作优化——这是目前主流的技术栈。

执行层(身体)

电机、减速器、关节、末端执行器(手)。

灵巧手 是目前最大的硬件瓶颈。人手有27个自由度,市面上大多数机器人手只有12-16个自由度。而且精细操作(比如拧瓶盖、穿针引线、叠衣服)需要极高的控制精度和速度,目前还很难做到。


📌 第五部分:Sim-to-Real——虚拟训练到现实部署

这是具身智能领域最热门的技术方向之一。

核心思路: 在虚拟仿真环境中训练机器人,然后把学到的能力迁移到真实机器人上。

为什么需要仿真? 因为在真实世界中训练机器人太慢、太贵、太危险。一个机器人摔一跤可能修半天。但在仿真中,你可以同时运行几千个虚拟机器人,24小时不停训练,一天相当于真实世界的几年。

英伟达的角色: 英伟达的Isaac Sim/Isaac Lab是目前最受欢迎的机器人仿真平台。配合它们的GPU算力,可以做大规模的并行仿真训练。黄仁勋多次表示,具身智能是英伟达”下一个万亿美元机遇”。

核心挑战:Sim-to-Real Gap

仿真环境再逼真,跟真实世界还是有差距。光照、摩擦力、物体材质、传感器噪声……这些在仿真中很难完美模拟。一个在仿真中表现完美的动作,到了真实世界可能就失败了。

目前的应对策略包括:

  • 域随机化: 在仿真中随机变化光照、物理参数等,让模型学到更鲁棒的策略
  • Real-to-Sim-to-Real: 先用真实数据校准仿真环境,再在校准后的仿真中训练
  • 大规模数据: 用足够多的仿真数据来覆盖真实世界的变化范围

📌 第六部分:市场预测和商业化路径

市场规模预测:

各家机构的预测差异很大。保守估计到2030年人形机器人市场约300-500亿美元,乐观估计超过1000亿美元。但这些数字的不确定性非常大。

最先商业化的场景:

  1. 工厂/仓库物料搬运: 这是最确定的第一个大规模场景。任务相对简单、环境相对可控、ROI容易计算。
  2. 巡检和安防: 数据中心巡检、园区巡逻。已经有四足机器人在做了。
  3. 危险环境作业: 核电站检修、灾后搜救、高空作业。人不愿意去的地方让机器人去。

家庭场景什么时候能实现?

说实话,家庭场景是最难的。家庭环境的复杂度远超工厂——你家的布局、物品、习惯都是独特的。而且安全要求极高——家里有老人小孩,机器人出任何差错都不可接受。

我的判断:真正实用的家庭人形机器人至少还要8-10年。在此之前,更可能先出现”专用功能”的家庭机器人——比如做饭机器人、清洁机器人(比扫地机器人更高级的那种)、陪伴机器人。


📌 第七部分:挑战与风险

技术挑战:

  • 灵巧操作仍然是瓶颈
  • 电池续航限制了工作时间(目前大多数人形机器人只能连续工作2-4小时)
  • 在非结构化环境中的可靠性不足

经济挑战:

  • 成本需要降到足够低才能大规模部署
  • 维护和修理成本可能被低估
  • ROI周期可能比预期的长

社会挑战:

  • 就业影响——制造业和服务业的岗位会受到冲击
  • 安全标准——人形机器人在人类身边工作需要严格的安全认证
  • 伦理问题——机器人应该长得像人吗?”恐怖谷效应”怎么处理?

投资泡沫风险:

  • 目前的估值水平跟实际收入严重不匹配
  • 很多公司的demo看起来很炫但离产品化很远
  • 历史上机器人产业经历过多次”炒起来又冷下去”的周期

📌 第八部分:中国在具身智能中的位置

中国在这个赛道的表现值得单独说一下。

优势:

  • 制造业供应链完善,零部件成本低
  • 工程师红利,人才供给充足
  • 巨大的国内市场(制造业、物流、服务业)
  • 政策支持(多个城市出台了机器人产业扶持政策)

劣势:

  • 在基础软件(仿真平台、控制算法)上跟美国有差距
  • 核心零部件(高精度减速器、力矩传感器)部分依赖进口
  • 基础研究的原创性不足

发展趋势:

  • 中国可能率先实现人形机器人的大规模低成本制造
  • 但在”大脑”(AI模型和算法)方面,跟美国的差距需要时间追赶
  • 预计2026-2027年会有第一波”走出实验室进入工厂”的中国人形机器人

👋 结尾

好了,今天关于具身智能的全景分析就到这里。总结一下:具身智能是AI从数字世界走向物理世界的关键一步,技术进展很快,资本热情很高,但离真正实用还有不少距离。

如果你问我”什么时候能买到一个好用的人形机器人帮我做家务”——我的诚实回答是:至少还要等到2030年代初期。但在工厂和仓库里,你可能在未来两三年就会看到越来越多的机器人同事了。

我是小敏,咱们下期见!


AI深度解析播客 DD30 · 发布日期:2026年4月15日