CosyVoice,这一由阿里通义实验室于七月初发布的开源语音合成大模型,展现了在自然语言合成领域的独特实力。它不仅支持包括中文、英文、日语、粤语和韩语在内的五种不同语言,更在多音色和丰富情感的语音生成方面设立了新的标杆。
CosyVoice令人称赞的一个特点是其对用户提供的短短3到10秒音频样本的精准复制能力。无论是复杂的语调还是微妙的情绪变化,这个系统都能够捕捉并在新生成的语音中再现。这不仅实现了精确的音色克隆,还突破性地实现了跨语言的语音复制能力。
此外,CosyVoice在模拟语音的情感表达和韵律方面的高级控制也不容小觑。它能够接受富文本或自然语言的指令,细致地调整合成语音的情感和调性,从而生产出既丰富又具有高度情感感染力的语音输出。这种前所未有的情绪控制机制,使得CosyVoice生成的声音不仅真实自然,而且情感丰满,为语音合成技术的应用开辟了新的可能性。
CVM配置
本文主要介绍如何在腾讯云CVM上搭建CosyVoice环境。我在腾讯云新加坡区域购买了两台CVM服务器,其中一台是带GPU的。配置分别如下:
安装步骤
安装环境和程序
代码语言:bash复制# 安装git-lfs
sudo apt-get install git-lfs
# 下载安装CosyVoice
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive
# 下载安装 Conda
wget https://repo.anaconda.com/archive/Anaconda3-2023.03-Linux-x86_64.sh
sh Anaconda3-2023.03-Linux-x86_64.sh
bash
# 安装Conda环境
conda create -n cosyvoice python=3.8
# 激活Conda环境
conda activate cosyvoice
# 安装pynini,有点慢,耐心等待
# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.
conda install -y -c conda-forge pynini==2.1.5
# 在海外服务器,可以直接使用pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
# 安装依赖
sudo apt-get install sox libsox-dev
下载模型
代码语言:bash复制# git模型下载,请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
代码语言:python代码运行次数:0复制# SDK模型下载
from modelscope import snapshot_download
# 我是使用这一句下载的CosyVoice-ttsfrd
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
启动程序
代码语言:bash复制cd CosyVoice
export PYTHONPATH=third_party/Matcha-TTS
python3 webui.py --port 8000 --model_dir pretrained_models/CosyVoice-300M
看到Running on local URL: http://0.0.0.0:8000,代表服务器启动成功。
在本地浏览器Chrome,输入 http://服务器公网IP地址:8000
生成效率
对于不含有GPU的服务器,生成一句话,大概需要400秒。而含有GPU的服务器,耗时能在1分钟以内。
GPU服务器的显存占用情况如下: