2025年12月8日,美国迈阿密的一场科技演示中,特斯拉人形机器人Optimus在递送一瓶水时动作过快,水瓶滑落,机器人随即向后摔倒。这一幕被现场镜头完整记录。更引人关注的是,它在倒地瞬间双手上抬,做出类似“摘下VR头显”的动作。视频迅速在网络发酵,质疑声四起:这台号称由AI自主驱动的机器人,是否其实一直由人在背后遥控?
特斯拉CEO马斯克曾多次强调,Optimus的演示完全依赖人工智能系统运行,而非远程操控。但此次摔倒时的“拟人化”反应,让公众对“自主AI”的真实性产生了动摇。一时间,“露馅”“穿帮”“人形木偶”等说法甚嚣尘上。然而,真相或许并不在“是AI还是遥控”的二元对立中,而藏于机器人训练技术的演进逻辑里。
特斯拉确实在早期广泛使用VR头显训练Optimus。员工佩戴VR设备,在虚拟环境中操控机器人完成拾物、行走等任务。这种“人机同步”方式,既能实时控制机器人,也能采集人类动作数据,为AI模型提供学习样本。这曾是机器人行业的通用做法,波士顿动力的Atlas也采用类似路径。但这一模式存在明显瓶颈:设备昂贵、操作者易晕眩、数据采集效率低。
到2025年中,特斯拉已悄然转变策略。VR头显不再用于实时操控,而是退化为一种“第一视角摄像机”。员工穿着装有多个摄像头的背包,以人类视角录制日常操作视频——擦桌子、拿杯子、整理工具。这些视频成为训练AI的核心素材。系统通过端到端神经网络,将视觉输入直接映射为关节动作输出,实现“看人做,自己学”。这与特斯拉自动驾驶FSD的技术架构一脉相承,目标是让机器人最终能通过观看YouTube视频学会新技能。
因此,当前Optimus的AI系统并非凭空生成行为,而是基于大量人类示范数据的深度模仿。它“看”得越多,“学”得越像。但这也意味着,其动作模式可能无意中复制了人类在特定情境下的习惯性反应。比如,VR训练时代,操作员在完成任务或系统中断时常会下意识摘下头显。这一行为可能已作为“任务结束”或“系统重置”的信号,被嵌入训练数据中。当机器人在摔倒这种异常状态下触发某种“终止程序”时,AI模型可能调用了这一动作模式,从而做出“摘头显”姿态。
这并非远程操控的证据,而更像是一种“数据残留”或“行为幻觉”——AI在缺乏明确应对策略时,调用了训练集中高频出现的关联动作。正如语言模型会生成看似合理实则虚构的“幻觉文本”,机器人也可能执行看似合理却与情境错配的“幻觉动作”。这种现象恰恰揭示了当前AI模仿学习的局限:它擅长复现模式,却难以真正理解行为背后的意图与物理逻辑。
此次摔倒本身,也暴露了人形机器人在动态交互中的技术短板。递送水瓶看似简单,实则涉及力控、平衡、环境感知与实时反馈的复杂协同。若机器人在演示中关闭了视觉系统(如2024年“蒙眼”测试所示),仅依赖本体传感器维持平衡,则在动作幅度过大或接触面打滑时,控制算法可能无法及时补偿,导致失稳。这并非个别失误,而是人形机器人从结构化环境走向真实世界的普遍挑战。
外界对“遥控”的猜测,反映了公众对AI进展的期待与疑虑。人们既希望看到机器人真正“自主”,又难以相信当前技术能实现如此复杂的拟人行为。特斯拉尚未对此事件作出官方技术说明,但其长期战略清晰:摆脱人工干预,构建可规模化学习的通用机器人系统。演示中的瑕疵,与其说是“露馅”,不如说是技术演进过程中的真实切片。
未来,Optimus的路仍长。它需要更鲁棒的控制算法、更丰富的非受控环境数据,以及对物理世界更深层的理解能力。特斯拉若想赢得信任,或许不应仅靠完美演示,而应更透明地展示其技术路径、失败案例与数据逻辑。毕竟,真正的智能不在于永不摔倒,而在于如何从跌倒中学会站得更稳。