Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

Riffusion

Answer

Riffusion 是一个令人瞩目的 AI 音乐产品。它具有深度和现实主义,其新更新在输出中添加了抒情的声音。

在相关技术实施过程中,经历了多个阶段,例如使用 Python 在 Raspberry Pi 上测试 Musicgen API,在 Raspberry Pi 上使用时间编码的 LP 记录测试 Xwax DVS 包,使用键盘矩阵库对按钮输入进行原型设计等。

此外,Riffusion 还推出了 FUZZ 这一全新音乐生成模型,基于扩散模型,支持永久免费开放(只要服务器能撑住)。FUZZ 通过生成声谱图并转换为音频,可输入提示词(音乐类型、乐器、情绪等)生成风格匹配的音乐,还支持无缝风格过渡。

如果您想了解更多关于 Riffusion 的详细信息,比如其安装配置等,可以继续向我提问。

Content generated by AI large model, please carefully verify (powered by aily)

References

换脸:FaceFusion安装

作者:CYCHENYUE来源:[开源的Ai知识库](https://u0ptmdsjdxb.feishu.cn/wiki/Kq5hwmobYiJR4akJwNecP9yhnse)FaceFusion是一个开源的换脸工具,可以支持图片与视频的换脸,但是由于安装比较繁琐,而且细节比较多.所以把安装过程中会遇到的一些问题记录下来,希望对大家有所帮助.[heading2]环境配置[content]首先,我们需要配置FaceFusion需要的环境包含了:1.Python(需要是Python.3.10版本的)2.PIP3.GIT4.FFmpeg5.Microsoft Visual C++2015可再发行组件包6.微软Visual Studio 2022构建工具接下来,我们一步一步安装[heading3]安装python[content]这里需要注意两点:Python.3.10版本的,不能高于3.7到3.10,因为onnxruntime==1.16.3需要Python版本在3.7到3.10之间.不然后面会导致Python环境不兼容要求的onnxruntime版本另外,这边推荐大家去使用安装包下载安装:python下载地址https://www.python.org/downloads/下载对应的版本后,点击安装,注意把他添加到系统的环境变量中.当然,也可以使用命令行的安装方式[heading3]安装pip[heading3]安装Git[content][heading3]安装FFmpeg[content]重新启动系统以使FFmpeg正常运行。[heading3]安装Microsoft Visual C++2015可再发行组件包[content][heading3]安装微软Visual Studio 2022构建工具[content]在安装过程中,请确保选择桌面开发与C++包。

AI音乐产品:SPIN

有很多令人惊叹的生成音乐实验,从Dadabots[在YouTube上无情的死亡金属流媒体AI](https://www.youtube.com/watch?v=MwtVkPKx3RA)到[Holly Herndon](https://x.com/hollyherndon/status/1456380565784088581?s=20)围绕声音移植的实验。但当我偶然发现[Riffusion音乐模型](https://www.riffusion.com/)时,我意识到我们已经达到了一个转折点;我对它的深度和现实主义感到惊讶,包括它的新更新,在输出中添加了抒情的声音。受此启发,我想建立一个平台,让我进一步探索和结合以前从未听说过的音乐和声音的组合。这为构建SPIN奠定了基础。我希望SPIN能够鼓励人们玩耍;有一个临时界面就可以达到这个目的。DVS(数字黑胶系统)在聆听生成的作品时增加了额外的维度。它使我们能够放慢这些合成曲调并在音符之间聆听。因此,我决定以老式合成器的形式将DVS系统与MusicGen API结合起来。下面是我在技术实施过程中所经历的阶段的抽象高级视图。查看[此推文](https://x.com/ArvindSanjeev/status/1757373462346338409?s=20)的链接,了解整个过程并附有图片和视频。使用Python在Raspberry Pi上测试Musicgen API。在Raspberry Pi上使用时间编码的LP记录测试了Xwax DVS包。使用键盘矩阵库对按钮输入进行原型设计,并使用简单的LED矩阵测试硬编码的自定义动画。但是,我希望动画更加流畅和流畅,因此我改用FastLED库和WS2812b neopixel。

XiaoHu.AI日报

?Xiaohu.AI日报「1月31日」✨✨✨✨✨✨✨✨1⃣️?OpenAI预计今晚发布两个新的推理模型o3-mini和o3-mini-high侧重于逻辑推理、编程、科学计算等需要深度思考和分析的任务。?图像来自:@testingcatalog?[https://x.com/imxiaohu/status/1885306255654478300](https://x.com/imxiaohu/status/1885306255654478300)2⃣️?Riffusion推出FUZZ:全新音乐生成模型基于扩散模型(Diffusion Model),支持永久免费开放(只要服务器能撑住)。FUZZ通过生成**声谱图(Spectrogram)**并转换为音频。可输入提示词(音乐类型、乐器、情绪等)生成风格匹配的音乐。支持无缝风格过渡,如从「爵士小号独奏」平滑切换到「电子舞曲节奏」。?[https://x.com/imxiaohu/status/1885181899683049536](https://x.com/imxiaohu/status/1885181899683049536)3⃣️?️Ideogram推出文字添加工具现在可以在生成的图像上自由添加文本,支持字体和颜色自定义。让用户掌控设计风格,适用于海报设计等应用。?[https://x.com/imxiaohu/status/1885152379567583368](https://x.com/imxiaohu/status/1885152379567583368)4⃣️?ElevenLabs获得1.8亿美元C轮融资