来源:IBC 2021 主讲人:Yuta Hagio (NHK, Japan) 内容整理:王炅昊 讲者设计了一个机器人电视伴侣,它能够识别电视内容以及人类观众信息,并根据信息与观众们进行多种形式的互动,增加人们对电视内容和社交的双重体验感。
目录
- 背景
- 电视的角色
- 和社交机器人一起看电视
- 硬件设置
- 姿势
- 发起谈话
- 提问&对话
- 技术
- 电视节目关键词提取
- 话语生成
- 对话
- 实验
背景
电视的角色
讲者认为,电视的角色不仅在于提供观众以必要的信息/娱乐,同时还给了观众们一个互相交流和分享情感的机会。随后,讲者用联合国调查的数据说明,近年来看电视时观众身边有同伴的机会正在逐渐减少。自此,作者提出他们机器人电视伴侣的构想。
和社交机器人一起看电视
讲者团队设计了一个社交机器人,其构想如下图所示:
可以看出,该机器人根据电视内容提供的信息对其做出不同的反应,包括说话、动作等互动方式,增加看电视人之间的互动,提供一个轻松的看电视环境,并提高了人们对于电视内容的关注度,增强了人们对电视内容和社交的双重体验感。
随后,讲者展示了该系统的一个demo,可以看到该机器人会对电视内容进行针对性的提问,并做出一些动作。
硬件设置
系统的硬件设置如图所示。
由图可见,其总体包含3个主要部分。首先是机器人本体,他们使用了由Vstone公司生产的CommU机器人;其次是一个相机-麦克风阵列,它由4个相机和8个麦克风组成,用于采集观众、电视两个主要组分的视频和音频信息;最后还有一个LCD显示器,它可以显示该系统对语音信号识别的结果,给观众提供辅助信息。
随后,作者介绍了该机器人中实现的3个不同功能模块,分别是姿势、语音识别、提问&对话。
姿势
类似于人类,该机器人可以对电视内容做出反应以及和人类观众进行交谈。在看电视过程中,它可以对不同的电视内容做出相应的反应姿势。而在与人类交谈的同时,机器人将会做出十个预设动作之一(包括玩得开心、激动、尴尬、无聊等)表达与人类交谈时合适的情绪。值得一提的是,目前的预设动作的出现完全随机。
发起谈话
机器人的另一个功能是用谈话分享感受。如图所示:
根据电视中草莓三明治的视频内容,机器人发起了“草莓三明治看上去很好吃!”“我想吃一个大草莓”等对话内容,给本来了无生趣的看电视过程增加了一些趣味,给了人类观众交谈的话题和动力。
提问&对话
该机器人还有一个重要功能是提问&对话。机器人会首先通过相机阵列检测人类观众所在位置,随后转向人类观众的方向,针对电视内容提出一些与内容相关的问题。基于这些问题,它还会与人类观众进行进一步交流。
技术
电视节目关键词提取
讲者首先提到,该方法仅在日本电视节目上试用,但同时也可以被应用到不同的语言中。机器人首先提取音频、视频以及字幕中的关键词。字幕方面,他们将在一个有大约160000词的字典中查找这些关键词。这个字典是由过去十年的电视节目中出现过所有词组建的。
音视频方面的关键词提取如下图所示:
讲者使用了Fast-RCNN进行目标检测,将图像中主要的物体的包围框以及类别检测出来。除此之外,音频也被语音识别算法识别成为文本。以上两者同时提供了关键词信息。这些关键词信息随后被用于在字典中进行相应查找。
与此同时,为了解决目标检测出现不重要的信息(如上图中bucket,其实并不应该作为关键词),作者们对目标检测得到的显著性图(saliency map)进行了阈值设定,将显著性低的物体检测结果移除。
话语生成
为了从关键词生成话语,讲者们使用了神经网络word2vec将关键词转化为一个200维的向量。与此同时,作者还建立了一个情感表达字典,其中包含了“想去”“想吃”“想骑”等不同的情感表达,并且都被同样的神经网络变换到了同一个向量空间。算法可以根据输入的关键词与空间中不同情感表达的余弦距离,判断不同的情感表达中最合适的是哪一种,如下图所示。
随后,根据情感表达以及关键词,算法将会在过去7年的电视节目字幕所构建的模板句式中随机选取一个,并且组成最终的句子,如图所示:
对话
对话过程中,具体交谈的人类对象是随机选择的。该系统同时使用了一个对话引擎对人类用户的话进行回应,如图所示。
实验
作者的实验针对了16对受众(共32人)与机器人观看电视4小时,并用问卷的形式调查了他们的主观评价。该问卷主要提出了4个指标,结果如图所示:
最后附上演讲视频:
http://mpvideo.qpic.cn/0bc3jqaamaaa7aapzrbsffrfatgdazgaabqa.f10002.mp4?dis_k=59a79b273c2f33b281267ba36c7979d9&dis_t=1649675587&vid=wxv_2313844473543622657&format_id=10002&support_redirect=0&mmversion=false