MockingBird

2022-03-07 15:44:28 语音 编辑:黎为乐

git项目地址 https://github.com/babysor/MockingBird/


示例数据集下载

aidatatang_200zh数据集格式:

-<自定义文件名>

    -aidatatang_200zh

        -corpus

            -train

                -<wav数据>

        -transcript

                -aidatatang_200_zh_transcript.txt


开始

  • 安装torch>1.7

  • 运行pip install -r requirements.txt以安装剩余的必要软件包。

  • 安装 webrtcvad pip install webrtcvad-wheels(如果需要)

准备模型

使用已有模型或者自己训练

合成器模型下载-->地址

使用您的数据集训练编码器(可选)

  • 使用音频和 mel 频谱图进行预处理: python encoder_preprocess.py <datasets_root>允许参数--dataset {dataset}支持您要预处理的数据集。仅使用这些数据集的训练集。可能的名称:librispeech_other、voxceleb1、voxceleb2。使用逗号分隔多个数据集。
  • 训练编码器:python encoder_train.py my_run <datasets_root>/SV2TTS/encoder

用你的数据集训练合成器

  • 下载数据集并解压缩:确保您可以访问文件夹中的所有 .wav
  • 使用音频和梅尔谱图进行预处理: python pre.py <datasets_root> 允许参数--dataset {dataset}支持 aidatang_200zh、magicdata、aishell3、data_aishell 等。如果不传递此参数,则默认数据集为 aidatang_200zh。
  • 训练合成器: python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer
    当您在训练文件夹synthesizer/saved_models/中看到注意力线显示和损失满足您的需求时,请转到下一步。

训练声码器(可选)

注意:声码器在效果上差别不大,所以你可能不需要训练一个新的
  • 预处理数据:python vocoder_preprocess.py <datasets_root> -m <synthesizer_model_path>
  • <datasets_root>替换为您的数据集根目录,<synthesizer_model_path>替换为您最好的 sythensizer 训练模型的目录,例如sythensizer\saved_mode\xxx

  • 训练 wavernn 声码器: python vocoder_train.py mandarin <datasets_root>

  • 训练 hifigan 声码器 python vocoder_train.py mandarin <datasets_root> hifigan


启动


3.1 使用网络服务器

然后您可以尝试运行:python web.py并在浏览器中打开它,默认为http://localhost:8080

3.2 使用工具箱

然后您可以尝试工具箱: python demo_toolbox.py -d <datasets_root>

©AHIEC人工智能工作室 2021

地址:安徽省合肥市包河区梁园路安徽工业经济职业技术学院现代科教中心101室

创作者信息:

皖ICP备20011723号-2