碧蓝档案吧 关注:423,586贴子:10,523,658

让你的学生开口说话!——GPTsovits文字转语音教程

取消只看楼主收藏回复

这个比较简单,我会尽量写详细一点,包括云端训练和本地推理教程


IP属地:四川1楼2024-08-12 14:27回复
    lz为什么推荐使用GPTsovits进行文字转语音?
    1.GPTsovits所需的训练集时长极短,仅需3到5分钟即可拥有较好的效果
    2.支持多种语言/方言,目前最新的GPTsovits本地整合包和云端镜像可以支持中日英粤韩五种语言的合成
    3.不会有口音,合成的语音效果更加自然
    4.推理门槛低,速度快,对硬件要求低
    5.模型训练快,成本低,云端训练模型成本一般而言可以控制在3元以内,一个小时左右即可出炉。如果你操作比较熟练的话,整套流程下来不会超过30分钟
    由于百度贴吧发语音太糊了,所以我在此就不作出模型试听了


    IP属地:四川4楼2024-08-12 14:38
    回复
      本文为GPT-sovits云端训练及本地推理教学
      您的电脑中需要以下内容:GPT-sovits整合包,格式工厂,阿里云盘
      如果您已经获取了您想要的模型,请看本文后半截的“本地推理教程”即可。


      IP属地:四川10楼2024-08-12 14:43
      回复
        请不要使用生成式AI合成任何与ZZ相关的内容
        笔者,项目贡献者和模型作者不对软件及其创作出作品具备任何控制力, 使用软件者、传播软件导出的声音者自负全责


        IP属地:四川14楼2024-08-12 14:48
        回复
          1.准备数据集:
          从wiki中提取音频
          a.在浏览器中输入kivo.wiki 进入
          b.在角色图鉴中下载语音,注意:过短的语音不要下载(例如角色受击语音),时长大于等于24秒的不要下载。
          c. 打开格式工厂,在格式工厂中选择“->WAV“,将在b步时下载的语音全部添加进去,在”输出配置“中采样率设置为44100Hz,音量为25%。点击“确定”返回首页,单击“开始”进行格式转化。
          d.新建文件夹(地址不限)并重命名为说话人名字,将转化好的音频剪切过来。
          e.压缩上述文件夹为zip格式,将其上传至阿里云盘(文件夹别删了,推理时要用)



          IP属地:四川15楼2024-08-12 14:54
          收起回复
            2.云端训练
            ①租卡
            a.浏览器输入www.autodl.com,回车。点击右上角“登陆”,微信登陆,扫码关注公众号,完成登陆/注册
            b.充值,一般3~5元就够了
            c.点击上方的“算力市场”,租一张卡,优先级为3090>4090D>4090>其他显存在24G及以上的显卡,都没有的话就再等等吧,一般而言晚上的卡会多一点。
            d.点击租卡,GPU数量选择1,镜像选择社区镜像,GPT-SoVITS语音合成官方镜像,镜像版本选最新的就行。等待开机。(本楼图片是我于5.5截的,最新镜像应该是8.7号更新的那个)


            IP属地:四川17楼2024-08-12 14:59
            收起回复
              ②打标
              a.点击“快捷工具”中的AutoPanel,点击公网网盘,独立访问密码随便设一个。手机端APP扫码登陆阿里云盘,将你的压缩包下载下来。

              单击下载
              b.点击JupyterLab进入如下网页,点击左上角文件夹图标以返回根目录。进入autodl-tmp文件夹即可找到你的压缩包。

              暗红色圈起来的这个

              下载下来的压缩包
              c.点击左上角蓝色框里的+号,在启动页一个终端,输入unzip[空格][文件名],按回车键执行该命令。执行完毕后关闭该终端。


              IP属地:四川20楼2024-08-12 15:14
              回复
                d.回到GPT-SoVITS文件夹中,点击右上角“+号”,在启动页新建一个终端(不要关闭这个终端!!!),输入指令
                按回车键执行。等待运行。之后点击下面这个链接以访问webUI。

                终端里下面的那个Running on public URL的链接
                e. 找到之前您解压的文件夹,右键选中,点击复制路径。将其粘贴到0c栏,并在前面加上一个/root/。若训练集为中文,ASR 模型选择达摩ASR,若训练集为英语/日语,ASR模型选择Faster Whisper,ASR 模型尺寸选择large-v3,ASR 语言设置en(对应英语)/ja(对应日语),点击开始离线ASR。该过程需要等待一段时间。在终端中可以看到已用时间和预计剩余时间,若预计时间太长,请点击终止ASR进程,并重新开始。


                IP属地:四川21楼2024-08-12 15:17
                回复

                  复制文件路径

                  标注

                  暗红色是已用时间,蓝色是预计剩余时间


                  IP属地:四川22楼2024-08-12 15:18
                  收起回复
                    ③校对标注(这个步骤比较耗时,可选)
                    a.在GPT-SoVITS/output/asr_opt中找到你的标注文件,双击打开它。

                    打开标注文件
                    b.对比标注文件中的文本和wiki上的语音文本,如果识别的标注文本有误,请复制对应的wiki语音文本覆盖过去。
                    c.关闭标注文件,保存修改


                    IP属地:四川41楼2024-08-13 15:35
                    回复
                      ④训练模型
                      a.点击最上方的1-GPTSoVITS-TTS,模型/实验名输入你的说话人名字。
                      b.在终端中找到标注文件路径,将标注文件路径和之前您解压的训练集文件夹路径分别填入以下两行。点击最下方的开启一键三联。(现在镜像更新后好像是自动填入了)

                      填写说话人

                      点击一键三连


                      IP属地:四川42楼2024-08-13 15:36
                      回复
                        c.当一键三连进程输出信息为“一键三连进程结束”后,点击上方1B-微调训练。个人推荐的训练参数如图,如果数据集多,可以适当增加训练轮数,点击开启SoVITS训练,在SoVITS训练完后再开始GPT模型训练。

                        学习率最好在0.3至0.4之间


                        IP属地:四川43楼2024-08-13 15:39
                        回复
                          d.在两个模型都训练完后,点击上方的1C-推理,点击“是否开启TTS推理WebUI”。在终端中点击这个链接以打开推理webUI。在上方一栏可以切换模型。点击上传一段训练集中语气较为平淡,语速适中的3~10秒的语音。并填写参考文本和参考音频的语种。随便写一段话,点击合成语音即可。

                          点击下面这个链接进入推理webUI

                          推理界面
                          e.带上耳机,听一下合成出来的语音。在训练出的模型里挑出一个效果最佳的组合,在/GPT-SoVITS/GPT_weights_v2/中找到对应的GPT模型文件,右键选中,下载。在/GPT-SoVITS/SoVITS_weights_v2/中找到对应SoVITS模型文件,右键选中,下载。


                          IP属地:四川44楼2024-08-13 15:41
                          回复
                            至此云端训练结束
                            关机,结束计费


                            IP属地:四川45楼2024-08-13 15:42
                            回复
                              本地推理教程
                              a.将后缀为pth的文件放入整合包中的SoVITS_weights_v2文件夹,将后缀为ckpt的文件放入整合包中的GPT_weights_v2文件夹。
                              b. 打开浏览器,在整合包中双击”go-webui.bat”并等待启动


                              IP属地:四川46楼2024-08-13 15:44
                              收起回复