现代机器人知道如何感知环境并对语言做出反应,但它们不知道的东西往往比它们知道的东西更重要。教机器人寻求帮助是让它们更安全、更高效的
现代机器人知道如何感知环境并对语言做出反应,但它们不知道的东西往往比它们知道的东西更重要。教机器人寻求帮助是让它们更安全、更高效的关键。
普林斯顿大学和谷歌的工程师想出了一种新方法,可以教机器人在不知道的时候知道。该技术涉及量化人类语言的模糊性,并利用该测量结果告诉机器人何时询问进一步的方向。让机器人从只有一个碗的桌子上拿起一个碗是相当清楚的。但是,当桌子上有五个碗时,告诉机器人拿起一个碗会产生更高程度的不确定性,并触发机器人要求澄清。
由于任务通常比简单的“拿起一个碗”命令更复杂,因此工程师使用大型语言模型 (LLM)(ChatGPT 等工具背后的技术)来衡量复杂环境中的不确定性。普林斯顿大学机械与航空航天工程助理教授、概述新方法的研究的资深作者Anirudha Majumdar表示,法学硕士正在为机器人带来跟随人类语言的强大能力,但法学硕士的输出仍然常常不可靠。
“盲目遵循法学硕士制定的计划可能会导致机器人以不安全或不可信的方式行事,因此我们需要基于法学硕士的机器人在不知道的情况下知道,”Majumdar 说。
该系统还允许机器人的用户设置目标成功程度,该目标程度与特定的不确定性阈值相关,该阈值将导致机器人寻求帮助。例如,用户可以将手术机器人设置为比清洁客厅的机器人具有更低的容错能力。
“我们希望机器人能够请求足够的帮助,以便我们达到用户想要的成功水平。但与此同时,我们希望最大限度地减少机器人所需的帮助总量,”普林斯顿大学机械和航空航天工程研究生、该研究的主要作者艾伦·任 (Allen Ren)说。Ren因其 11 月 8 日在亚特兰大机器人学习会议上的演讲而获得了最佳学生论文奖。与解决此问题的其他方法相比,新方法具有较高的准确性,同时减少了机器人所需的帮助量。
研究人员在纽约市和加利福尼亚州山景城的谷歌工厂的模拟机械臂和两种机器人上测试了他们的方法,任正非在那里担任学生研究实习生。一组硬件实验使用桌面机械臂,其任务是将一组玩具食品分为两个不同的类别;左右臂的设置增加了一层额外的模糊性。
最复杂的实验涉及安装在轮式平台上的机械臂,并放置在配有微波炉和一套回收箱、堆肥箱和垃圾桶的办公室厨房中。在一个例子中,人类要求机器人“将碗放入微波炉中”,但柜台上有两个碗——一个是金属碗,一个是塑料碗。
机器人基于 LLM 的规划器会根据该指令生成四种可能的操作,例如多项选择答案,并且每个选项都分配有一个概率。研究人员使用一种称为保形预测的统计方法和用户指定的保证成功率,设计了他们的算法,以在选项满足特定概率阈值时触发人类帮助请求。在这种情况下,最上面的两个选项——将塑料碗放入微波炉或将金属碗放入微波炉——满足这个阈值,机器人会询问人类将哪个碗放入微波炉。
在另一个例子中,一个人告诉机器人,“有一个苹果和一块脏海绵......它已经腐烂了。你能处理掉它吗?” 这不会触发机器人提出问题,因为“将苹果放入堆肥中”这一动作比任何其他选项都有更高的正确概率。
该研究的资深作者 Anirudha Majumdar 表示,“使用保形预测技术,以比以前的方法更严格的方式量化语言模型的不确定性,使我们能够取得更高的成功”,同时最大限度地减少触发帮助的频率,普林斯顿大学机械与航空航天工程助理教授。
机器人的物理限制常常为设计人员提供抽象系统无法提供的见解。谷歌 DeepMind 的研究科学家、合著者安迪·曾(Andy Zeng)表示,大型语言模型“可能会在对话中摆脱困境,但它们无法跳过重力” 。“我总是热衷于首先看看我们能在机器人上做什么,因为它常常揭示构建通用智能机器背后的核心挑战。”
Majumdar 表示,在 Zeng 在普林斯顿机器人研讨会系列中发表演讲后,Ren 和 Majumdar 开始与 Zeng 合作。曾获得计算机科学博士学位。2019 年来自普林斯顿大学的博士论文概述了谷歌在将法学硕士用于机器人技术方面所做的努力,并提出了一些公开的挑战。任正非对校准机器人应寻求的帮助水平问题的热情导致了他的实习和新方法的创建。
Majumdar 表示,“我们很高兴能够利用谷歌在访问大型语言模型和不同硬件平台方面的规模”。
Ren 现在正在将这项工作扩展到机器人的主动感知问题:例如,当机器人本身位于房屋的不同部分时,机器人可能需要使用预测来确定房屋内电视、桌子或椅子的位置。房子。任说,这需要一个基于结合视觉和语言信息的模型的规划器,这在估计不确定性和确定何时触发帮助方面带来了一系列新的挑战。
声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们