Chat with Wiki - 有哪款工具可以进行多语种对话？或者实现中文转英文和英文语音

Answer

以下是一些可以进行多语种对话或实现中文转英文和英文语音的工具：

11labs：官网为 https://elevenlabs.io/ ，英文效果较好，但无法使用语速、情绪调节等控件，只能通过标点符号改变语音效果。
出门问问的魔音工坊：国内工具，可使用情绪调节控件。
Voice control for ChatGPT - Chrome 插件：用于和 ChatGPT 进行语音对话，支持多种语言，可当英语口语/听力老师使用。下载地址：https://chrome.google.com/webstore/detail/voice-control-for-chatgpt/eollffkcakegifhacjnlnegohfdlidhn?hl=zh-CN 。但该工具提供的 TTS 效果较生硬。
VALL-EX：一个开源的多语言文本到语音合成与语音克隆模型，支持多种语言（英语、中文和日语）和零样本语音克隆，具有语音情感控制和口音控制等高级功能。

Content generated by AI large model, please carefully verify (powered by aily)

References

前Sora时代我最想做的AI短片——使用Pika、Pixverse、Runway、SVD四大AI视频工具

[title]前Sora时代我最想做的AI短片——使用Pika、Pixverse、Runway、SVD四大AI视频工具这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里，声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文，但我英语比较拉垮，所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色，形成配音稿。接着使用AI声音软件11labs（官网：https://elevenlabs.io/）进行对白制作，11labs的英文效果比较好，但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。跟视频制作类似，需要不断地抽卡（反复生成），因为11labs无法使用语速、情绪调节等控件，我们只能通过标点符号去改变语音效果，比如使用，、……。！等等标点符号，有时会叠加不同标点符号，去试它的语音效果。同一句台词，大家可以听出不同标点和抽不同卡时，声音的情绪都不太一样，所以要在AI声音里调试到合适的声音，抽声音卡的难度其实并不亚于抽视频的难度……我们常常一句台词要生成十几二十段音频，才能找到稍微能听得过去的、自然的声音。国内的可以使用出门问问的魔音工坊。魔音工坊可以使用情绪调节控件，还比较友好，但具体的评测还得等我们有机会做中文短片再试试！第五步，剪辑上篇剪辑没有多说，这次我会多说一些。目前大部分AI短片的创作者用的都是剪映，我也是，因为短片1-3分钟，用剪映其实会比传统剪辑软件更方便一些。但更长的篇幅，比如可能到5-10分钟，或者10分钟以上，要更好的效果的话，还是避免不了可能要用PR/FCP/达芬奇等等传统剪辑软件。

AIGC落地应用大全，40+ 语言大模型案例推荐

推荐指数：????主要解决Chat GPT无法进行PDF的阅读、解析的问题。图片来源@知乎捡到一束光[heading4]Voice control for ChatGPT - Chrome插件[content]推荐指数：???用于和ChatGPT进行语音对话，支持多种语言，可以用来当英语口语/听力老师使用。在配置语种和语速后可以向GPT提出自己详细的学习要求，也可以让ChatGPT提供相应听力题目。回答错误，可以让ChatGPT提供解析。美中不足的是，目前该工具提供的TTS效果很生硬，期待改善。该项目获得了30w+的下载量。下载地址：[https://chrome.google.com/webstore/detail/voice-control-for-chatgpt/eollffkcakegifhacjnlnegohfdlidhn?hl=zh-CN](https://chrome.google.com/webstore/detail/voice-control-for-chatgpt/eollffkcakegifhacjnlnegohfdlidhn?hl=zh-CN)

Han：基于现有能力项目应用的思考

[title]Han：基于现有能力项目应用的思考|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间| |-|-|-|-|-|-|-|-|-|-|-|-|-|-| |VALL-EX：一个开源的多语言文本到语音合成与语音克隆模型。|这个和19年百度地图发布的语音定制功能使用的meitron模型很像。这个功能现在依然在百度地图提供的功能里，用户只需在百度地图App上录制20句话、20分钟左右即可生成个人完整语音包。|语音|该模型支持多种语言（英语、中文和日语）和零样本语音克隆，你只需要提供一个人短短几秒钟的录音（3-10秒），就能模仿出那个人的声音。此外，它还具有语音情感控制和口音控制等高级功能。 同时相对于其他模型，它更轻量、更快速... VALL-EX最初由微软发布。但并未发布任何代码或预训练模型。作者认识到了这项技术的潜力和价值，复现并训练了一个开源可用的VALL-E X模型。|VALL-E X模型具有以下显著的功能特点： 1.多语言TTS（文本到语音合成）:支持英语、中文和日语，能进行自然和富有表现力的语音合成。 2.零样本语音克隆