大数据文摘出品
来源:itmedianews
编译:李欣月、刘俊寰
不知道有多少人和文摘菌一样,看漫画的时候会自动脑补角色的声音、把漫画在脑子里自动给变成动漫。
现在不用这么麻烦了,因为在去年11月,北京理工大学和阿联酋起源人工智能研究院、美国乔治梅森大学研究团队联合发布了新技术“漫画引导的语音合成”(Comic-Guided Speech Synthesis),该技术能将漫画中出现的人物台词变成富有感情的声音进行输出。
技术概要图:输入漫画书页面,通过分析合成声音
系统通过读入漫画页面,分析各个角色对话框内的内容,就能按照故事发展合成相应的声音。目前该实验已表明,系统可以针对不同类型的漫画进行语音合成。
要使系统实现这项功能,需要用到「视觉分析」和「语音合成」两项技术:
- 视觉分析:分析漫画书页面后,分离图版,对话框,文本等内容,将各要素按故事顺序重新排列归类。之后,将台词主要人物和对话框连线。接着,识别各角色的性别,年龄,台词内容和对应的感情,如幸福,悲伤,生气等;
- 语音合成:基于漫画虚拟分析,合成与各角色性别,年龄,感情匹配的声音。
两个流程:分析漫画书页面和语音合成
基于漫画要素分析,推测各角色的性别,年龄和感情
第一行:辨别喜怒哀乐等感情
第二行:将愤怒分为3个程度辨别
第三行:辨别害怕和悲伤,害怕和生气等不同感情的组合
利用这项技术,能使得语音漫画制作自动化、制作脱离书本说话的虚拟人物、生成可说话的3D头像和游戏角色的旁白等应用成为可能。
不仅如此,通过输出与漫画文字更生动和更容易接受和记忆的声音,该技术也可作为外语学习手段加以利用。
利用该技术的例子:左边是通过全息眼镜展示书本虚拟内容在说话,中间是自动插入游戏角色旁白,右边是3D头像说话
相关报道:
https://www.itmedia.co.jp/news/articles/2001/08/news038.html