Riffusion AI 使用视觉超声图创作音乐
Riffusion 是由两位技术爱好者创建的 AI 模型,它使用文本提示创作音乐。 它通过创建视觉表示然后将其转换为音频来实现这一点。 它基于 Stable Diffusion 1,5 图像合成的微调版本,在声音处理中应用视觉潜在扩散。
Stable Diffusion 能够处理超声图,因为它们是一种图片形式。 Forsgren 和 Martiros 使用超声图来训练稳定扩散定制模型。 超声波图与音乐流派或声音的描述相关联。 Riffusion 使用这些知识根据描述您想要收听的音乐类型(例如“爵士乐”、“摇滚”或什至在计算机键盘上打字)的文本提示点播创作新音乐。
来源和详细信息:
https://arstechnica.com/information-technology/2022/12/riffusions-ai-generates-music-from-text-using-visual-sonograms/