Episode 20240376

人形≠通用≠落地:人形机器人的真问题| S9E15

00:00:00
/
01:02:17

May 15th, 2025

1 hr 2 mins 17 secs

Season 8

Your Host
Special Guests

About this Episode

它们会跳舞、跑马拉松、在工厂打螺丝……人形机器人正在从科幻走向现实。马斯克说 Optimus 是 Tesla 的未来,国内创业者与资本也纷纷跟进,具身智能进入技术竞速新阶段。
据统计,2025 年仅前两个月,中国人工智能领域的投资交易额就已经逼近 2024 年全年的总额,达到数百亿规模,全球范围内,谷歌、微软等科技巨头也在加速布局具身智能赛道。
但——人形真的有必要吗?VLA 模型真的能「端到端」控制机器动作?我们距离真正的落地应用还有多远?
本期《科技早知道》邀请峰瑞资本执行董事 刘鹏琦 与人大高瓴人工智能学院副教授 胡迪,与丁教和雅娴一起,聊聊这场尚未形成共识的技术狂奔。一起深入具身智能的关键分歧、成本难题与哲学困境。

关于 MiniMax Speech-02 模型
MiniMax 推出的全新升级的语⾳模型 Speech-02,通过⾜够泛化的模型能⼒,为用户提供超拟⼈、个性化、多样性的语⾳服务。
Speech-02 模型在错误率上⽐真⼈更低,在声音的相似度和表现力上都和真⼈⼀样。另外,用户还可以通过输入示范音频来定制属于自己的个性化声音,并且可以在不同语言之间无缝切换,真正做到了“任意音色、灵活控制”。
MiniMax Speech 也刚刚发布了技术报告,如果你对技术细节感兴趣,欢迎点击链接查看,想用 MiniMax Speech 来打造属于自己的声音,欢迎点击链接尝试:国内海外
Untitled

本期人物
丁教 Diane,「声动活泼」联合创始人、「科技早知道」主播
刘鹏琦,峰瑞资本 执行董事
胡迪,中国人民大学高瓴人工智能学院 副教授
Yaxian, 「科技早知道」节目监制

主要话题
[03:07] 人形机器人热潮从哪来?Optimus、马拉松赛事与特斯拉的野心
[08:36] 机器人一定要人形么?人形 vs 实用性的争议
[14:23] 通用机器人=终极目标?从泛化能力聊起
[24:30] 触觉感知、力反馈、可靠性,机器人上肢发展的现实瓶颈
[36:08] 大模型的路线之争:端到端(VLA )模型 vs 模块化控制路径
[47:03] 训练数据从哪来?仿真 vs 真机 vs 互联网模仿学习
[51:47] 人形机器人落地的不可能三角:成功率、通用性与成本如何取舍?
[59:12] 家庭机器人、可控核聚变、量子芯片,哪个会先实现?

幕后制作
监制:Yaxian
后期:Jack
运营:George
设计:饭团

延伸阅读
VLA模型
VLA 是视觉 - 语言 - 动作(Vision - Language - Action)大模型的简称,是一种先进的多模态机器学习模型。它能让机器人接收环境信息和语言指令,经理解、推理与决策后,转化为动作指令来控制机器人运动,以实现与物理世界的交互。

内容研究志愿者招募
Hi 你好呀,这里是「科技早知道」内容研究志愿者招募。如果你是前沿科技行业的从业者(包括但不限于半导体、先进制造、计算机、AI、生物医药、航空航天等等),欢迎加入我们分享你在行业内的一手观察和见解。
你将有机会参与到节目的制作当中,你的知识和见解也可能成为未来节目的一部分!
志愿者招募入口

加入声动活泼
声动活泼目前开放全职设计师、商业发展经理、商业内容策划、内容编辑实习生、早咖啡内容研究实习生、社群运营实习生等6个职位,详情点击招聘入口

商务合作
声动活泼商务合作咨询
Untitled

关于声动活泼
「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。
我们还有这些播客:声动早咖啡声东击西吃喝玩乐了不起反潮流俱乐部泡腾 VC商业WHY酱跳进兔子洞不止金钱
欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。
期待你给我们写邮件,邮箱地址是:[email protected]
声小音
欢迎扫码添加声小音,在节目之外和我们保持联系。