以下是关于 AI 音频的相关信息:
猫叔留言:AI资讯公众号:超时空视角猫叔个人公众号:AI替代人类小红书/抖音:EverAI B站:Ever AI酱(❤这里会有教程及AI工具界面操作)04月01日AI资讯【AI模型及应用】OpenAI:将会开源一个推理模型,ChatGPT即将推出推理强度控制选项,Gpt4o生图能力面向免费用户Gemini 2.5 Pro:免费使用,任何人都可以使用Canvas进行编码和创作【AI视频】Higgsfield:发布50多个电影级摄影机动作预设,提升动态镜头表现力。luma:为Ray 2引入摄像机运动概念,可基于预设镜头并组合编辑Remakes:支持基于用户上传图像直接编辑,并融合Remade视频特效,简化创意流程。Meta:宣布推出MoCha系统,实现电影级说话角色合成效果【AI 3D】HSMR:推出从单张图像重建人体3D骨骼和网格模型的系统krea:引入AI 3D生成能力,扩展其创意工具的功能范围。PGC:推出基于物理的单一姿势高斯布料模拟技术,提升数字服装的真实感。【AI音频】MiniMax Audio:发布全新Speech-02语音模型,提升语音合成质量。[heading3]
[coqui.ai](https://coqui.ai/)-为所有人提供开放的语音技术。[Voiseed](https://www.voiseed.com/)-基于AI的语音引擎能够模仿人类语音的情感和韵律。[Speechki](https://speechki.io/)-基于NLP的最先进文本和音频编辑平台,内置数百种AI声音。[MiSynth](https://www.misynth.io/)-使用突触技术和脑机接口将想象的声音转化为合成MIDI乐器的脑控仪器。[ElevenLabs](https://elevenlabs.io/)-为出版商和创作者开发最具吸引力的AI语音软件。[Wondercraft](https://www.wondercraft.ai/)-Wondercraft使用户能够使用文本转语音技术生成播客。[play.ht](https://play.ht/)-基于生成机器学习模型构建内容创作的未来。[Revocalize.ai](https://www.revocalize.ai/)-从网页仪表板或VST插件生成录音室质量的AI声音并训练AI语音模型。[morpheme.ai](https://www.ethovox.ai/)-我们的演员优先、数字双重声音由最新的AI技术驱动,确保它们高效、真实和符合伦理。
✦现阶段,视频模型公司逐渐分化到两个方向:面向C端的视频模板方向,核心是好玩和快速,如Pixverse、Pika等;面向B端的视频创作方向,核心是高质量和高可控性,例如Minimax、Runway等。4.音频✦AI音频也在去年跨越了真假难辨的临界点。所以,音频领域是继图像领域之后,第二条被资本看好的AI赛道。5.3D✦3D领域变化不多,暂时还停留在文字/图片生成3D模型的阶段。世界模型才刚刚起步。6.应用✦AI编程领域仍然在快速迭代和发展。随着模型能力越来越强和推理模型的加入,编程从半自动到全自动,应该只是时间问题了。✦Computer Agent正在缓慢发展中。OpenAI发布的Operator工具,实测效果不尽如人意,还没有迈过实用性门槛。✦Deep(Re)Search这个方向值得注意。自从去年12月Google Gemini推出这项功能后,OpenAI、Perplexity,Grok等都迅速跟进。Deep(Re)Search本质上是一个调研Agent,通过大量搜索和分析,花较长的时间来生成一个长篇报告,与传统AI搜索相比更像是一种「慢搜索」。现阶段最大的问题是模型幻觉,特别是隐藏在一篇长文中的细节纰漏,因此实际使用还需要谨慎。7.新闻✦中美欧各有「星际之门」计划,2025年都将加大投入,支持AI基础建设和科学研究。✦越来越多的厂商接入R1,拥抱开源。