CosyVoice2本地部署完全指南

一、配置要求

操作系统：Windows 10/11 | macOS 12+ | Linux (Ubuntu 20.04+)
Python 3.8+
CUDA 11.8+ (如需GPU加速)
存储空间：至少10GB可用空间
内存：推荐16GB+

二、依赖安装

1、CUDA 和 cuDNN 安装与配置

首先在cmd中输入 nvidia-smi ，右上角表示支持的最高版本的CUDA版本。

如果低于11，请更新显卡驱动程序。

随后前往CUDA官网下载CUDA工具：

随后运行安装程序即可，务必记住CUDA的安装路径，随后要用。

接着下载cuDNN：

前往cuDNN下载页面，注册NVIDIA账户，下载与你CUDA版本匹配的cuDNN

下载完成后解压下载的cuDNN压缩包，将里面的bin、include、lib文件夹复制到你的CUDA安装目录中。

需要新建 4个环境变量，分别是：
CUDA 版本根目录： C:\Program Files|NVIDIA GPU Computing Toolkit)CUDA|v11.8
版本下的 bin 目录： C:(Program Files\NVIDIA GPU Computing Toolkit)CUDAlv11.8)bin
版本下的 include 目录： C:\Program Files\NVIDIA GPU Computing Toolkit)CUDA|v11.8\include
版本下 lib 下的 x64 目录： C:\Program Files\NVIDIA GPU Computing Toolkit)CUDA|v11.8\lib)x64

在新建一个系统变量，变量名CUDNN，值为四个路径中间用";"分隔，如：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\bin;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\include;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\lib\x64

2、Git 安装与配置

前往Git官方下载地址下载安装即可，过程很简单，不做赘述。

3、Anaconda 安装

详情请看我之前的文章：Anaconda安装指南

4、克隆 CosyVoice 项目

首先新建一个存放此项目的目录如D:\CosyVoice

随后在这个目录中右键，在终端中打开，输入：

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive

5、依赖项安装

打开Anaconda Prompt，输入

conda create -n cosyvoice python=3.12
conda activate cosyvoice
//如果报错init问题:
conda init cmd.exe

以上代码创建了一个虚拟环境，随后安装依赖项：

在目录文件中找到requirements.txt文件，修改其中的

onnxruntime-gpu==1.18.0; sys_platform == 'linux
onnxruntime==1.18.0; sys_platform == 'darwin' or sys_platform == 'windows'

将其变更为：
onnxruntime-gpu==1.18.0

然后，安装cython和pynini:

先安装 Cython :

pip install cython -i https://pypi.tuna.tsinghua.edu.cn/simple

再安装 pynini :

conda install -y -c conda-forge pynini==2.1.5

最后，安装 requirements.txt 的依赖项：

pip install -r requirements.txt

如果下载的慢，你可以使用这两个镜像源：

//指令1：使用阿里云镜像：
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ -trusted-host=mirrors.aliyun.com
//指令2：使用清华镜像：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

最后验证pytorch是否安装成功：

python -c "import torch; print(torch.__version__)"

6、下载预训练模型

新建python文件，命名为，输入：

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

执行安装：

conda activate cosyvoice
pip install --upgrade modelscope
python download_models.py

三、启动CosyVoice

CosyVoice目前有 3 种模型，分别是：

1．内置音色模型
2．克隆音色+跨语种克隆模型
3．内置音色+语气微调模型

运行的 2 种方案：

1．命令行直接运行：
这个方案，就是在 cmd 中直接运行指令，内置音色模型

conda activate cosyvoice
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-sFT
start http://127.0.0.1:50000

b．克隆音色+跨语种克隆模型

conda activate cosyvoice
python webui.py --port 50001 --model_dir pretrained_models/CosyVoice-300M
start http://127.0.0.1:50001\

c．内置音色+语气微调模型

conda activate cosyvoice
python webui.py --port 50002 --model_dir pretrained_models/CosyVoice-300M-Instruct
start http://127.0.0.1:50002

四、整合包直接部署

如果你认为这些操作太麻烦了，可以看看B站up主 Love丶伊卡洛斯做的整合包:

【TTS】CosyVoice1+2 Win整合包，内置FastAPI Gradio WebUI，内置300M，0.5B模型【开源项目】