CosyVoice2本地部署完全指南

犀利的毛毛虫 发布于 2025-02-03 240 次阅读


一、配置要求

  • 操作系统:Windows 10/11 | macOS 12+ | Linux (Ubuntu 20.04+)
  • Python 3.8+
  • CUDA 11.8+ (如需GPU加速)
  • 存储空间:至少10GB可用空间
  • 内存:推荐16GB+

二、依赖安装

1、CUDA 和 cuDNN 安装与配置

首先在cmd中输入 nvidia-smi ,右上角表示支持的最高版本的CUDA版本。

如果低于11,请更新显卡驱动程序。

随后前往CUDA官网下载CUDA工具:

随后运行安装程序即可,务必记住CUDA的安装路径,随后要用。

接着下载cuDNN:

前往cuDNN下载页面,注册NVIDIA账户,下载与你CUDA版本匹配的cuDNN

下载完成后解压下载的cuDNN压缩包,将里面的bin、include、lib文件夹复制到你的CUDA安装目录中。

需要新建 4个环境变量,分别是:
CUDA 版本根目录: C:\Program Files|NVIDIA GPU Computing Toolkit)CUDA|v11.8
版本下的 bin 目录: C:(Program Files\NVIDIA GPU Computing Toolkit)CUDAlv11.8)bin
版本下的 include 目录: C:\Program Files\NVIDIA GPU Computing Toolkit)CUDA|v11.8\include
版本下 lib 下的 x64 目录: C:\Program Files\NVIDIA GPU Computing Toolkit)CUDA|v11.8\lib)x64

在新建一个系统变量,变量名CUDNN,值为四个路径中间用";"分隔,如:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\bin;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\include;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8\lib\x64

2、Git 安装与配置

前往Git官方下载地址下载安装即可,过程很简单,不做赘述。

3、Anaconda 安装

详情请看我之前的文章:Anaconda安装指南

4、克隆 CosyVoice 项目

首先新建一个存放此项目的目录如D:\CosyVoice

随后在这个目录中右键,在终端中打开,输入:

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive

5、依赖项安装

打开Anaconda Prompt,输入

conda create -n cosyvoice python=3.12
conda activate cosyvoice
//如果报错init问题:
conda init cmd.exe

以上代码创建了一个虚拟环境,随后安装依赖项:

在目录文件中找到requirements.txt文件,修改其中的

onnxruntime-gpu==1.18.0; sys_platform == 'linux
onnxruntime==1.18.0; sys_platform == 'darwin' or sys_platform == 'windows'
将其变更为:
onnxruntime-gpu==1.18.0

然后,安装cython和pynini:

先安装 Cython :

pip install cython -i https://pypi.tuna.tsinghua.edu.cn/simple

再安装 pynini :

conda install -y -c conda-forge pynini==2.1.5

最后,安装 requirements.txt 的依赖项:

pip install -r requirements.txt

如果下载的慢,你可以使用这两个镜像源:

//指令1:使用阿里云镜像:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ -trusted-host=mirrors.aliyun.com
//指令2:使用清华镜像:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

最后验证pytorch是否安装成功:

python -c "import torch; print(torch.__version__)"

6、下载预训练模型

新建python文件,命名为,输入:

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

执行安装:

conda activate cosyvoice
pip install --upgrade modelscope
python download_models.py

三、启动CosyVoice

CosyVoice目前有 3 种模型,分别是:

1.内置音色模型
2.克隆音色+跨语种克隆模型
3.内置音色+语气微调模型

运行的 2 种方案:

1.命令行直接运行:
这个方案,就是在 cmd 中直接运行指令,内置音色模型

conda activate cosyvoice
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-sFT
start http://127.0.0.1:50000

b.克隆音色+跨语种克隆模型

conda activate cosyvoice
python webui.py --port 50001 --model_dir pretrained_models/CosyVoice-300M
start http://127.0.0.1:50001\

c.内置音色+语气微调模型

conda activate cosyvoice
python webui.py --port 50002 --model_dir pretrained_models/CosyVoice-300M-Instruct
start http://127.0.0.1:50002

四、整合包直接部署

如果你认为这些操作太麻烦了,可以看看B站up主Love丶伊卡洛斯做的整合包:

【TTS】CosyVoice1+2 Win整合包,内置FastAPI Gradio WebUI,内置300M,0.5B模型【开源项目】

当月光在贝叶斯公式里坍缩,概率云盛开成玫瑰
最后更新于 2025-02-03