以下是一些适合客户端使用的 ASR 模型:
1. Ollama:
支持多种大型语言模型,如通义千问、Llama 2、Mistral 和 Gemma 等,适用于不同应用场景。
易于使用,适用于 macOS、Windows 和 Linux 系统,同时支持 CPU 和 GPU。
提供模型库,用户可从中下载不同参数和大小的模型以满足不同需求和硬件条件,可通过 https://ollama.com/library 查找。
支持用户自定义模型,例如修改模型的温度参数来调整创造性和连贯性,或者设置特定的系统消息。
提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。
社区贡献丰富,包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。
2. FishAudio 的 Fish Agent:
集成了自动语音识别(ASR)和文本到语音(TTS)技术,无需传统的语义编码器/解码器,即可实现语音到语音的直接转换。
模型经过 700,000 小时的多语言音频内容训练,支持包括英语、中文在内的多种语言,能够精准捕捉和生成环境音频信息。文本方面由 Qwen2.53B 处理。
相关链接:
https://huggingface.co/fishaudio/fishagentv0.13b
https://github.com/fishaudio/fishspeech
3. Gemini:
Gemini Nano1 和 Gemini Pro 模型在各种 Benchmark 上的自动语音识别(ASR)任务中表现出色,如在 FLEURS、多语言 Librispeech 以及语音翻译任务 CoVoST 2 等测试集中。
相关链接:未提及。
2025-03-17