跳到主要内容

PaddleSpeech

docker run -it -p 8880-8889:8880-8889 --gpus all initialencounter/paddlespeech:ttsfinetune-latest /bin/bash

镜像集成了 jupyterlab，进入容器后，可通过以下命令开启服务。

jupyter lab --ip=0.0.0.0 --port=8880 --allow-root --notebook-dir=/home/aistudio

Finetune 教程

参考自【有手就行】使用自己的声音做语音合成

1.将你的语音文件放到 work/init 目录下

可通过 docker cp 或者 scp 将你的语音文件放到这个目录语音文件要求
2.开始训练
- 对于萌新
  
  直接运行python main.py
- 有一定深度学习经验的朋友
  
  可以编辑 main.py 里的代码根据自己的需要来微调模型

同时支持将微调后的模型部署为 FastAPI

修改 app.py 文件

cd /home/aistudio/initialencunter/PaddleSpeech

# 将 model 替换为你的exp_name
am_inference_dir = os.path.abspath("/home/aistudio/inferrence/init")
# 如果你的 exp_name 为 "demo"
# 则将代码修改为
am_inference_dir = os.path.abspath("/home/aistudio/inferrence/demo")

启动接口

python app.py

问题反馈

QQ 群：399899914
小伙伴如果遇到问题或者有新的想法，欢迎到这里反馈哦~

语音文件要求

对于语音合成任务，对数据是有一定要求的，尽可能上传干净的人声数据，比如像示例中的人声数据，在安静环境下录制，录制设备无论是手机，电脑，还是别的设备都可以，注意一定要控制噪音，或者提前使用音频剪辑软件进行降噪。（一定要是中文数据，这个项目目前只支持中文数据！！其它语言预标注环节会出错！）

1.音频不要太长，也不要太短，2s~10s 之间，音频太长会报错！
2.音频尽量是干净人声，不要有 BGM，不要有比较大的杂音，不要有一些奇奇怪怪的声效，比如回声等
3.声音的情绪尽量稳定,以说话的语料为主，不要是『嗯』『啊』『哈』之类的语气词
4.音频数量大于 5 条！！否则会报错！！关于录音工具的选择：你可以使用一些在线运行的录音工具或者【Adobe Audition】，【Cool Edit Pro】, 【Audacity】等录音软件录制音频，保存为 24000 采样率的 Wav 格式也可以通过手机录音后，使用格式工厂等格式转换软件，将手机录音转换成 Wav 格式后上传到这个项目中。