Hi!请登陆

斯坦福AI实验室:“感觉”如此不同,如何融合?用多模态学习

2021-2-23 39 2/23

声音、气味、味道、触觉和视觉,这是人类用来感知和理解世界的五种感觉。在感知世界时,我们能够无缝地将这些不同的感觉结合在一起。例如,观看电影时,人脑可以毫不费力地对视觉和听觉信息进行持续处理。

作为机器人专家,我们对研究人类如何将触觉和视觉结合在一起特别感兴趣。在执行需要与环境接触的操作任务时,例如拧紧瓶盖或将美元钞票插入自动售货机,人类视觉和触摸尤其重要。

以拧紧瓶盖为例,我们的眼睛能够通过观察瓶盖的颜色、边缘和和当时所处的状态,推断出“拧紧瓶盖”相关的信息。

同时,我们的触觉会反馈瓶盖的材质,压力和力道,比如施加于水瓶的压力和握紧瓶盖的滑度。

此外,人类可以使用一种或两种类型的感官来推断相同类型的信息:我们的触觉感官还可以提供姿势和几何信息,而视觉感官可以预测何时与环境接触。

人类使用视觉和触觉来推断与任务相关的信息和动作,以进行接触丰富的任务。

也就是说,不同类型的任务都具有一定的任务相关的多模态特征。

从原始的观察输入中学习特征也被称为表示学习。原始观察输入中的代表性一类是RGB图像和现代机器人上常见的传感器的力/扭矩数据。

事实上,一种将视觉与触觉完美结合的表达方式是人们更想学习的。

假设,如果我们能够学习一个能够捕捉到任务相关特征的表征,我们就可以将同样的表征用于类似的丰富任务。

我们如何将它们融合在一起?

其实,人是多模式学习的总和,所以有专家说,多模态学习(Multimodal Representation)才是人工智能真正的发展方向。单模态的表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表示学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。

我们可以利用深度神经网络从高维原始传感器数据中学习特征,训练创造一个融合RGB图像、力传感器读数(从手腕力/力矩传感器)和机器人状态(机器人手腕的位置和速度的挂钩连接)的特征向量。

因为我们的传感器数据有不同的特征,使用不同的网络结构来编码每种模式,所以每个编码器产生一个特征向量。如果想要一个确定性的表示,我们可以通过将它们连接在一起,将它们组合成一个向量。

如果我们用概率表示,每个特征向量实际上有一个均值向量和方差向量(假设高斯分布)。我们可以结合不同的形态分布使用专家的想法的产物分布的密度乘以加权均值与方差,得到的组合向量就是我们的多模表示。

我们希望机器人能够直接从自身与环境的交互中学习策略,所以转向了深度强化学习(RL)算法,该算法使代理能够从试错法和奖励功能中学习。

深度强化学习在玩视频游戏,机械手抓握和解决魔方等方面都进步很大。多模态技术给机器人增加了感知融合的能力。可以通过视觉与语音等多模态信息融合、作为彼此信息的互补,通过特征表示学习协同特征表达,是提高智能机器人交互能力自然度。

总之,利用模态之间的互补性,对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合,实现处理信息能力的提升。

目前来看,最有前途的应用方向是视觉语言任务中的通用表示预训练、具有视觉内容的多模态自然语言处理,以及视频语言跨模态任务的预训练。在快手、抖音、优酷、爱奇艺等APP内都有n多场景等待“开采”。

相关推荐