[译] MIT Russ Tedrake：机器人学终于坐上了火箭

本文翻译自 Automated Podcast 访谈 MIT’s Russ Tedrake Says Robotics Is Finally on a Rocket Ship，主持人为 Bryant Heater（A3 协会主编）。受访者 Russ Tedrake 为 MIT 教授、TRI（Toyota Research Institute）前成员、开源仿真与控制软件 Drake 的创建者，以及即将公布的新物理 AI 初创公司创始人。

Bryant Heater：你在底特律长大，父亲在通用汽车工作。某种意义上你一直在汽车制造和自动化环境中成长。

Russ Tedrake：是的。我父亲收藏古董车——我们有一辆 1921 年 Packard 旅行车和一辆 1948 年 Cadillac。我中学时在福特 Wayne 装配厂的一家分包商实习，做油漆车间的气流自动化控制。最难忘的经历是：有次我自认为聪明的代码在发生异常时关闭了所有风扇——结果是喷漆车间温度从约 81°F 升到了 82°F，也就是工会规定的工人可以离岗的温度阈值。我被狠狠骂了一顿。那一天我学到了关于在汽车工厂”停线”意味着什么的惨痛教训——那个夏天让我成长了很多。

Heater：你在密歇根大学（Go Blue！）时，机器人项目正处于变动期。你当时做的是视频游戏 AI。

Tedrake：那是我最接近机器人的途径了。我跟 John Laird 做视频游戏 AI，还在微软研究院度过了一个夏天做游戏 AI 研究。回头看，考虑到 NVIDIA 和仿真技术的发展，那其实是一条相当好的入门路径。

双足步行：被动物理学之美驱动

Heater：你是怎么进入双足机器人领域的？

Tedrake：我到 MIT 时，Gil Pratt 正在离开 Leg Lab。我得以在 NE43 地下室跟 Jerry Pratt、Dan Paluska 等人一起工作。那时 Pete Dilworth 造了 Trudy，那只恐龙机器人。对年轻的我来说，那就是”我这辈子想做的事”。我后来参与了 M2 和 Trudy 的工作，爱上了这个方向。

我的路径是被动动态步行（passive dynamic walkers）——那些受简单玩具启发、能沿着斜坡摇摆而下的步行器，它们展示了步行动力学本身的美感。Tad McGeer 和 Cornell 的 Andy Ruina 做了出色的工作：放在斜坡顶上轻轻一推，有些竟然展现出比驱动式机器人更接近人类的步态——但它们只能走下坡。

于是自然的里程碑就是：弄清楚如何添加一点点驱动——让物理学承担大部分工作，只给一丁点功率和控制让它四处走动。那就是我博士论文的主题。我在 2004 年就使用强化学习（reinforcement learning）来做这件事——早在它流行之前。我的小机器人在 20 分钟内学会了走路。思路是：如果你能让它在斜坡上移动，那么这些学习成果就可以迁移到其他场景。

你不断降低斜坡的坡度，机器人不断学习、不断学习，最后直接从斜坡末端走下来了。

仿真中的魔法：域随机化

Heater：作为深耕双足领域的人，你对人形机器人如此迅速地回暖感到惊讶吗？

Tedrake：这一直是梦想。让我震惊的是它变得如此一键式（turnkey）——这是一项成功。硬件的成本与能力甚至超出了我的梦想。

几件神奇的事情同时发生了：

域随机化（domain randomization）：如果你在仿真中对机器人模型进行适量的域随机化——让它走过楼梯、走过颠簸地形、走过少数几种不同场景——不知为何，这竟然足以让机器人在真实世界中几乎任何地形上行走。这完全出乎意料，没人预料到会这么容易。
仿真 + GPU 基础设施的惊人进步——现在是开源的，任何人都可以复制这套方法。
简单的策略梯度（policy gradient）强化学习配合神经网络作为参数化模型，效果比大多数人预期的好得多。

机器学习的经验性成功远远超越了我们的理论理解能力。

从工程师到行为科学家的转变

Tedrake：我感觉我们不得不从工程师——基于第一性原理设计一切——转变为更像是科学家，甚至像是行为科学家：我们在构建一些我们还不能完全理解的东西，然后必须去探测它，以搞清楚到底发生了什么。

这是一个令人着迷的转变。

Heater：这如何改变你的角色？

Tedrake：完全改变了。有一种世界观是”不需要理解，只需倒入更多的数据、更多的算力，按照配方来，结果会越来越好”。我认为你也得这样做——我也赞同这一点。但我也想去理解到底发生了什么，也许是出于我自己的心理健康，也许是因为这个领域可能会撞墙。如果那一天到来，更深的理解能帮助我们突破。

不过我还没看到规模化的极限——我们还有更多空间。

Heater：当你在教一门你还不能从根本上去理解的东西时，你怎么教学？

Tedrake：这很有趣。我们教生物学也是通过探测和实验——大量的经验性理解。所以也许我们得稍微改变教学方式。给人们实验让他们去探测。就像：这里有一套能让双足机器人学会行走的代码，去调它、搞清楚它为什么有效。或者你自己去构建一套——这正是现在最令人兴奋的地方。

我认为 2026 年做一个学生既令人激动又充满挑战。你几乎可以做任何事，整个世界在你指尖。但事情变化得如此之快——你怎么选择正确的问题？你如何滑向冰球要去的位置？

LBM、VLA 与数据叙事

Heater：解释一下 LBM（Large Behavior Model）和 VLA（Vision-Language-Action）的区别？

Tedrake：在我心目中，LBM 是任何将图像序列作为输入、输出动作的模型——一个总称。VLA 是 LBM 的一种特定架构选择：你在视觉-语言模型（VLM）的基础上做”向上训练”（uptraining），使其成为机器人模型。你也可以从视频 backbone 或世界模型 backbone 出发构建 LBM。所以 LBM 是从 LLM 到”大型行为模型”的自然延伸。

Heater：关于机器人学中数据匮乏的叙事——你怎么看？

Tedrake：我认为整个叙事漏掉了一个关键点。人们画出机器人数据集大小 vs. GPT/LLM 数据集大小的对比图。但这不是正确的思考框架。

我们在机器人学中所做的，是从一个已经很强的基础模型出发，向上训练成机器人模型。这些基础模型——比如最新的视频模型——已经蕴含了大量关于世界的常识。你不需要从头教一个机器人什么是常识。

如果你给我机器人在真实应用中的照片，输入最新的 Gemini 视频模型，并提示”生成一段我的机器人执行某个灵巧任务的视频”，它会做得相当好。这说明模型中已经有大量理解。

你需要的数据不是为了教机器人世界常识——而是搭建一座桥，将那种常识映射为机器人动作，即让模型多一个输出维度：机器人轨迹。这是一种完全不同的姿态。

我不会丢弃基础模型的价值——整个行业都在投入巨大资源编译海量数据集来构建这些携带世界知识的模型。我会从那里出发，然后思考你的数据课程（data curriculum）是如何搭建这座桥的。

部署与良性循环

Heater：当机器人真正进入真实世界时，边缘情况和长尾会带来又一个”意外时刻”吗？

Tedrake：这正是关键。我们在 LBM 论文中已经看到了开端——通过在其他任务上进行预训练，单个任务的鲁棒性发生了实质性的变化。这就是多任务预训练的魔力。

我认为该领域的下一个重要里程碑是将机器人部署到真实世界。很多人的叙事已经转向了部署。我们必须赢得这个机会。如果我们做到了，就会形成良性循环：更强的机器人 → 更多的机器人在现场 → 更多的数据 → 更强的机器人。

关于数据：我倾向于重新表述讨论框架。我们不是在跟语言模型比数据量——我们是从语言模型出发的。基础模型已经在互联网上训练好了，我们在其之上添加。这重新框定了你到底需要什么数据——你真正需要的是将机器人映射到你或你的客户最关心的任务上。

物理 AI 中的”共情”

Heater：你说你在花时间跟劳动经济学家交流，试图建立你的”共情肌肉”。以共情的方式做物理 AI 意味着什么？

Tedrake：看看我们已经看到的软件工程和平面设计领域的版本吧——已经是专家的人被云代码或 Photoshop 这样的工具超级赋能，新手则能”vibe code”几乎任何东西。

在物理世界中会是什么样子？我们将有大量以前很难自动化的任务，突然变得”几乎可以 vibe code”。顶尖的工匠可以使用超级工具更快速地完成宏伟的作品。

但关键是：对于一个通过劳动分配财富的社会，这如何改变文化？人们对自身价值感和目标感常常来自他们从事的工作。我们必须非常谨慎地思考这个问题——花时间帮助人们理解工具的能力，用最好的工具来增强他们最擅长的那部分。

我们必须为艺术家解决这个问题，为软件工程师解决这个问题，也必须为体力劳动者解决这个问题。我认为一家有思考的物理 AI 公司可以改变这个问题的走向。

我在丰田这些年的经历塑造了这种思考方式——增强而非替代人。我们思考工厂工作的未来，思考如何帮助人们更有尊严地就地老去（age in place）。终身雇佣在日本文化中有着深厚的传统。来自 TRI 的叙事是真实的：我们有真正的需求要去正确地做到这一点。

根本上不同的时刻

Heater：这次真的跟之前那些”看起来像”的时刻有根本性不同吗？

Tedrake：我认为是的。不可思议的事情不只是技术层面的。它带来了：

人才的涌入：来自其他学科的大量杰出人才正在进入机器人学/物理 AI 领域；
投资的涌入；
供应链的变化：中国在低成本制造这些高性能设备方面的进展令人惊叹；
世界需求：工作期望的变化、老龄化社会——太多因素汇聚在一起。

毫无疑问，我们正在”射月”。我们有逃逸速度（escape velocity）吗？我认为有。我宁愿在这艘火箭上。

但这不是必然的。它需要极其出色的执行力、一支极其强大的团队，以及不去追逐每一个闪亮玩意的专注力。你必须有一个好的商业计划，你必须做对很多事情才能让这一切运转。但组件技术、领域投资、进入该领域的人才——一切都已对齐，给了我们真正的机会。

Heater：你说你跑步或骑行通勤。你重视通勤时间？

Tedrake：这听起来很奇怪，但确实如此。那是我的减压时间、编译一天所发生的一切的时间、思考更全局性想法的时间。历史上有很多伟大的思想家长时间散步——梭罗每天走 4 小时的步，然后写作 4 小时。在整天回复邮件的世界里，很容易忘记关闭屏幕、走出去的价值。

你可以 vibe code，但有时候你得关掉它，走开。

原文：Automated Podcast — MIT’s Russ Tedrake Says Robotics Is Finally on a Rocket Ship
Russ Tedrake: MIT Profile | Drake