Riffusion AI 使用视觉超声图创作音乐

Riffusion 是由两位技术爱好者创建的 AI 模型,它使用文本提示创作音乐。 它通过创建视觉表示然后将其转换为音频来实现这一点。 它基于 Stable Diffusion 1,5 图像合成的微调版本,在声音处理中应用视觉潜在扩散。

Stable Diffusion 能够处理超声图,因为它们是一种图片形式。 Forsgren 和 Martiros 使用超声图来训练稳定扩散定制模型。 超声波图与音乐流派或声音的描述相关联。 Riffusion 使用这些知识根据描述您想要收听的音乐类型(例如“爵士乐”、“摇滚”或什至在计算机键盘上打字)的文本提示点播创作新音乐。

来源和详细信息:
https://arstechnica.com/information-technology/2022/12/riffusions-ai-generates-music-from-text-using-visual-sonograms/

By lausm

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *