贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲...
疫情期间发现一个有趣的现象,有一类短视频父母刷抖音的时候经常会看到,这类视频只有一个或多个简单的背景图片,配合一段文字录音,讲一段新闻、故事、或者鸡汤。我想可能是他们对纯文本或者纯语音的内容都不感兴趣,更容易接...
近日,科大讯飞公布业绩快报显示,2019年全年实现营业收入100.89亿元,同比增长27.43%;实现归母净利润7.88亿元,同比增长45.46%。但是,科大讯飞净利润依靠政府补贴“撑门面”的老问题依然存在,2019年这一比例高达50.3%。另一方...
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。 提供多种音色选择,支持自定义音量、语速,让发音更自然、更专业、更符合场景需求。语音合成广泛应用于语音导航、有声读物、机器人、语音...
今天是世界读书日,书作为千百年来人们传递信息的载体,已经变成一种书写文明的符号。在人类维系的各种关系中,人与信息的关系,可能是最繁杂和最奇妙的;而书象征着信息的实体化,让人类面对信息突然有了触感。...
只要有一篇现成的图文链接,AI就可以根据图文描述的主题,重新组织语言,自动搜寻素材,剪出一条短视频。
本文是对 ICLR 2020 论文《High Fidelity Speech Synthesis with Adversarial Networks》的解读,论文作者来自谷歌。
语音识别就是把语音变成文字的过程,相信大家在平时生活也已经用到过一些语音识别的场景,比如说语音输入法、地图产品的语音输入。近年来,随着互联网的发展,各种音频数据和文本数据得到不断积累和丰富,CPU、GPU硬件的发展,以...
在网络游戏中,无论是大逃杀、棋牌类、电子竞技类还是娱乐休闲类小游戏,玩家和玩家之间的互动和语音聊天都是一个必不可少的环节。作为一个通用的技术需求,如果由游戏厂商自己从零开始研发相应的音频技术,既不经济也不具备...
这个功能是在最百度语音合成的时候涉及到的,这个功能我也是第一次写,毕竟前端的东西不是很擅长。特此记录一下。