Chat with Wiki - 推荐一个大模型，可以实现特定人的声音，朗读文字

Answer

以下为您推荐可以实现特定人声音朗读文字的大模型及相关工具：

大模型方面：包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。
语音合成（TTS）工具：
- 微软的 edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。
- VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits 系列可以自己训练出想要的人声。
- so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的 AI 孙燕姿。
- Eleven Labs：https://elevenlabs.io/ ，ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件，使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化，并能够根据上下文调整表达方式。
- Speechify：https://speechify.com/ ，Speechify 是一款人工智能驱动的文本转语音工具，使用户能够将文本转换为音频文件。它可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用，可用于收听网页、文档、PDF 和有声读物。
- Azure AI Speech Studio：https://speech.microsoft.com/portal ，Microsoft Azure Speech Studio 是一套服务，它赋予应用程序能力，让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持 100 多种语言和方言的语音转文本和文本转语音功能。此外，它还提供了自定义的语音模型，这些模型能够适应特定领域的术语、背景噪声以及不同的口音。
- Voicemaker：https://voicemaker.in/ ，AI 工具可将文本转换为各种区域语言的语音，并允许您创建自定义语音模型。Voicemaker 易于使用，非常适合为视频制作画外音或帮助视障人士。

此外，上述算法开源的代码有很多，例如：

ASR 语音识别：
- openai 的 whisper:https://github.com/openai/whisper
- wenet:https://github.com/wenet-e2e/wenet
- speech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognition

除了算法，人物建模模型可以通过手动建模（音频驱动）或者 AIGC 的方式生成人物的动态效果（例如 wav2lip 模型）实现，这样就完成了一个最简单的数字人。但这种简单的构建方式还存在很多问题，例如如何生成指定人物的声音，TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作，数字人如何使用知识库，做出某个领域的专业性回答等。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多，这里列出一些仓库供大家参考：ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了，包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义，里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的AI孙燕姿。除了算法，人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现，这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？

问：推荐一下在线 TTS 工具

Text to Speech（TTS）是一种人机交互技术，它将文本转换为自然的语音输出。通过TTS技术，计算机可以通过模拟人类的语音来与用户进行交互，实现语音提示、语音导航、有声读物等功能。TTS技术在智能语音助手、语音识别、语音合成等领域广泛应用。在WaytoAGI的工具网站上有一系列推荐：https://www.waytoagi.com/sites/category/50以下是几个是编辑精选的工具：1.Eleven Labs：https://elevenlabs.io/ElevenLabs Prime Voice AI是一款功能强大且多功能的AI语音软件，使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化，并能够根据上下文调整表达方式。1.Speechify：https://speechify.com/Speechify是一款人工智能驱动的文本转语音工具，使用户能够将文本转换为音频文件。它可作为Chrome扩展、Mac应用程序、iOS和Android应用程序使用，可用于收听网页、文档、PDF和有声读物。1.Azure AI Speech Studio：https://speech.microsoft.com/portalMicrosoft Azure Speech Studio是一套服务，它赋予应用程序能力，让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持100多种语言和方言的语音转文本和文本转语音功能。此外，它还提供了自定义的语音模型，这些模型能够适应特定领域的术语、背景噪声以及不同的口音。1.Voicemaker：https://voicemaker.in/AI工具可将文本转换为各种区域语言的语音，并允许您创建自定义语音模型。Voicemaker易于使用，非常适合为视频制作画外音或帮助视障人士。内容由AI大模型生成，请仔细甄别。

从原理到应用一次讲清楚 Prompt

原创小宝聊AI小宝聊AI 2024-01-30 00:12发表于浙江小宝聊AI十年大厂架构师，专注于大模型技术和应用29篇原创内容公众号本文长度5000字阅读时长预计需要20分钟本文目录一、什么是Prompt二、用更加专业的方式定义Prompt三、用数学来理解Prompt四、NLP发展的四大范式五、为什么Prompt可以减少幻觉六、Open AI()提供的最佳实践七、可以直接使用Prompt的关键框架八、为什么使用框架的效果好[heading2]1、什么是Prompt[content]简单来说，其实是一套你和大模型交互的一种语言模板。通过这个模版，你可以输出你对于大模型响应的指令，用于大模型应该具体做什么指定，完成什么任务，如何处理具体的任务，并最终输出你期望的结果。虽然大模型具有基础的文字能力，能够理解你对于模型说的大部分话，但是为了达成大模型更好的回答效果，需要通过Prompt，来提升模型返回的准确性。如果说，过去的时代，人机交互的主要方式是通过代码，那么我认为在大模型时代，交互语言的主要方式其实是Prompt。[heading2]2、用更加专业的方式定义[content]Prompt大模型的本质是一个基于语言的概率模型，他返回他觉得概率最大的内容。如果是直接问大模型，没有提供Prompt，相当于大模型随机给出他的答案。有了Prompt，其实是给了一个模板，这个模板包括了对于模型的要求，输入和输出的限制，大模型在这个限制之下，去得到概率最大的答案。