Riffusion 修改 Stable Diffusion 使 AI 文本到图像频谱可以播放音频
该系统已经过调整,可以生成更精细的频谱图图像。
Stable Diffusion 已更新,包括用于微调与文本配对的频谱图图像的 AI 例程。 他们现在可以更精确地发出声音。 Riffusion 是团队版本的稳定扩散模型。
所有稳定扩散特征都保留了下来。
Merovingian/iStock。
音频处理也已完成,但它发生在模型的后期或下游。
来源和详细信息:
https://interestingengineering.com/innovation/riffusion-tweaks-stable-diffusion-to-make-ai-text-to-image-spectrograms-to-play-audio