基于腾讯云CVM搭建CosyVoice环境

CosyVoice，这一由阿里通义实验室于七月初发布的开源语音合成大模型，展现了在自然语言合成领域的独特实力。它不仅支持包括中文、英文、日语、粤语和韩语在内的五种不同语言，更在多音色和丰富情感的语音生成方面设立了新的标杆。

CosyVoice令人称赞的一个特点是其对用户提供的短短3到10秒音频样本的精准复制能力。无论是复杂的语调还是微妙的情绪变化，这个系统都能够捕捉并在新生成的语音中再现。这不仅实现了精确的音色克隆，还突破性地实现了跨语言的语音复制能力。

此外，CosyVoice在模拟语音的情感表达和韵律方面的高级控制也不容小觑。它能够接受富文本或自然语言的指令，细致地调整合成语音的情感和调性，从而生产出既丰富又具有高度情感感染力的语音输出。这种前所未有的情绪控制机制，使得CosyVoice生成的声音不仅真实自然，而且情感丰满，为语音合成技术的应用开辟了新的可能性。

CVM配置

本文主要介绍如何在腾讯云CVM上搭建CosyVoice环境。我在腾讯云新加坡区域购买了两台CVM服务器，其中一台是带GPU的。配置分别如下：

安装步骤

安装环境和程序

代码语言：bash复制

# 安装git-lfs
sudo apt-get install git-lfs

# 下载安装CosyVoice
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git

cd CosyVoice

git submodule update --init --recursive

# 下载安装 Conda
wget https://repo.anaconda.com/archive/Anaconda3-2023.03-Linux-x86_64.sh

sh Anaconda3-2023.03-Linux-x86_64.sh

bash

# 安装Conda环境
conda create -n cosyvoice python=3.8

# 激活Conda环境
conda activate cosyvoice

# 安装pynini，有点慢，耐心等待
# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.
conda install -y -c conda-forge pynini==2.1.5

# 在海外服务器，可以直接使用pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# 安装依赖
sudo apt-get install sox libsox-dev

下载模型

代码语言：bash复制

# git模型下载，请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct

代码语言：python代码运行次数：0复制

# SDK模型下载
from modelscope import snapshot_download

# 我是使用这一句下载的CosyVoice-ttsfrd
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

启动程序

代码语言：bash复制

cd CosyVoice
export PYTHONPATH=third_party/Matcha-TTS

python3 webui.py --port 8000 --model_dir pretrained_models/CosyVoice-300M

看到Running on local URL: http://0.0.0.0:8000，代表服务器启动成功。

在本地浏览器Chrome，输入 http://服务器公网IP地址:8000

生成效率

对于不含有GPU的服务器，生成一句话，大概需要400秒。而含有GPU的服务器，耗时能在1分钟以内。

GPU服务器的显存占用情况如下：

云服务器CosyVoice TTS 语音合成

0 人点赞