Chat with Wiki - 怎么文字转语音，用自己的音色

Answer

要实现文字转语音并使用自己的音色，以下是一些方法和相关信息：

ChatTTS 增强版整合包：当文本内容很多时，可以勾选文本切割来处理，默认五十字符切割，还能将音频片段合并为一整段音频。切割的音频片段也支持增强处理。保存后的音频文件结构清晰，包括合成的一整段音频、增强处理后的整段音频、切分的音频片段等。该版本增加了批量处理功能，可上传按句换行格式的 TXT 文本。音色固定，可通过点击随机按钮多尝试找到满意音色，并将设置和音色种子保存到配置文件方便下次使用。
ElevenLabs 工具：能全自动将视频翻译成 29 种语言，更能克隆原视频里的声音来配音。
GPT-SoVITS + Bert-VITS2：一开始可选不同音色，基于网络红人训练，音色与网络红人相像。若没有接近的音色，可自己训练，参考 WaytoAGI 的知识库：GPT-SoVITS 实现声音克隆。但实际使用中只改音色可能不够，如说话时的口头禅、重音、停顿等。

Content generated by AI large model, please carefully verify (powered by aily)

References

[ChatTTS声音增强版【本地端.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/CXeRb7tWdoWtsAxENksc9hWKnvh?allow_redirect=1)其次，当文本内容很多时,可以勾选文本切割来进行处理，默认为五十字符进行切割，还可以将音频片段合并为一整段音频，切割的音频片段也支持增强处理[ChatTTS念斗破-文本切割【本地端】.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/XNCpb4jK5oKWH7xFh10caVv6nKd?allow_redirect=1)保存后的音频文件结构相当清晰，concatenated Audio是合成的一整段音频，Enhanced Audio是增强处理后的整段音频Audio clip文件夹中是切分的音频片段。Enhanced开头的就是增强处理的音频片段，不带Enhanced就是生成的普通的音频片段。该个版本还增加了批量处理功能，勾选后可以上传一个TXT文本，TXT文本需要按照每句换行的格式。[ChatTTS念斗破-批量版【本地端】.wav](https://bytedance.feishu.cn/space/api/box/stream/download/all/HazTbEXHmopzo7x7iJDcSFQinih?allow_redirect=1)最后就是音色固定，前面提到这个项目不同的音频种子生成的人物说话音色会不一样。我们可以点击随机按钮，多尝试几次，找到自己满意的音色后，可以将设置和音色种子保存到配置文件中，方便下次使用。ChatTTS刚放出来的时候，我很惊讶于它的效果，

声音克隆合集

ElevenLabs推出一个全自动化的AI配音或视频翻译工具。你只需要上传视频或者粘贴视频链接，这个工具就能全自动的在几十秒到几分钟内将你的视频翻译成29种语言。更牛P的是直接克隆原视频里面的声音，来给你配音。群友瑞華测试：[2080_1706113804.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/HQ8sb2smBodPZpxOX2och4DmnIc?allow_redirect=1)[2081_1706113807.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/OVuvbds5XoxSjpx8lPmcUqtEnsg?allow_redirect=1)[2082_1706113840.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/VJzQbRRdZoOgSdx2eXicmfn8nHd?allow_redirect=1)[2083_1706113844.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/N2avbWxMZoVKxSxswcucQ27encf?allow_redirect=1)另外刚才有群友试了下豆包的音色模仿，读了大概20个字的句子，5s就可以生成非常像的音色，之后就可以用你自己的声音读生成的文字内容了。声音音色的模仿非常像了

Stuart：免费 AI 真人语音入门： GPT-SoVITS + Bert-VITS2

可变参数就是AIGC最有趣的地方，语音生成也一样：可变参数就是使用技巧。[heading3]更换音色?[content]一开始会感觉很简单，就只是字生成语音，能选的也就是不同的音色。音色因为基于网络红人训练，因此生成的语音音色会和对应的网络红人非常相像。只要选择和自己需要非常接近的音色即可。如果没有接近的音色，也可以自己训练一个，参考WaytoAGI的知识库：[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg?from=from_copylink)但是真正准备开始用就会发现，只改音色不够用了。?我们真正说话，或者配音的时候，通常是边思考边说话，因此经常带着一些口头禅，类似“嗯”，“啊”，甚至更离谱的“m3？” ?说话过程中有些重音，停顿和一句手写语句也不全相同。