李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令（2）

计算机视觉工坊 | 2023-07-11 20:44:23 阅读：286

发布文章

△ 将废纸放进蓝色托盘

以下分别是VoxPoser在真实和模拟环境中的表现（衡量指标为平均成功率）：

可以看到，无论是哪种环境哪种情况（有无干扰、指令是否可见），它都显著高于基于原语的基线任务。

最后，作者还惊喜地发现，VoxPoser产生了4个“涌现能力”：

（1）评估物理特性，比如给定两个质量未知的方块，让机器人使用工具进行物理实验，确定哪个块更重；

（2）行为常识推理，比如在摆餐具的任务中，告诉机器人“我是左撇子”，它就能通过上下文理解其含义；

（3）细粒度校正，比如执行“给茶壶盖上盖子”这种精度要求较高的任务时，我们可以向机器人发出“你偏离了1厘米”等精确指令来校正它的操作；

（4）基于视觉的多步操作，比如叫机器人将抽屉精准地打开成一半，由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务，但VoxPoser可以根据视觉反馈提出多步操作策略，即首先完全打开抽屉同时记录手柄位移，然后将其推回至中点就可以满足要求了。

李飞飞：计算机视觉的3颗北极星

大约一年前，李飞飞在美国文理学会会刊上撰文，指出计算机视觉发展的三个方向：

具身智能（Embodied AI）
视觉推理（Visual Reasoning）
场景理解（Scene Understanding）

李飞飞认为，具身智能不单指人形机器人，任何能在空间中移动的有形智能机器都是人工智能的一种形式。

正如ImageNet旨在表示广泛且多样化的现实世界图像一样，具身智能研究也需要解决复杂多样的人类任务，从叠衣服到探索新城市。

遵循指令执行这些任务需要视觉，但需要的不仅仅是视觉，也需要视觉推理理解场景中的三维关系。

最后机器还要做到理解场景中的人，包括人类意图和社会关系。比如看到一个人打开冰箱能判断出他饿了，或者看到一个小孩坐在大人腿上能判断出他们是亲子关系。

机器人结合大模型可能正是解决这些问题的一个途径。

除李飞飞外，参与本次研究的还有清华姚班校友吴佳俊，博士毕业于MIT，现为斯坦福大学助理教授。

论文一作Wenlong Huang现为斯坦福博士生，在谷歌实习期间参与了PaLM-E研究。

论文地址：
https://voxposer.github.io/voxposer.pdf
项目主页：
https://voxposer.github.io/
参考链接：
[1]https://twitter.com/wenlong_huang/status/1677375515811016704
[1]https://www.amacad.org/publication/searching-computer-vision-north-stars

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。