谷歌和波士顿大学的研究人员开发了一种基于人工智能 (AI) 的方法,用视觉摘要来说明文章。
生成建模的最新进展为许多以前只能想象的任务打开了大门。 借助结合图像和文本的大规模数据集,生成模型能够学习强大的表示,可用于图像到文本或文本到图像翻译等领域。
最近发布的 Stable Diffusion API 和 DALL-E 引起了很多关于文本到图像生成模型的兴奋,这些模型可以从描述性文本输入中生成复杂而令人惊叹的图像,类似于进行网络搜索。
为了响应对反向翻译(即图像到文本)日益增长的兴趣,一些研究尝试使用输入图像创建字幕。 其中许多方法都假设图像和说明之间存在 1:1 的对应关系。 多张图片可以配对并与冗长的文字叙述联系起来,例如新闻报道中的照片。 有必要使用说明性的标题,例如“旅行”或假期,而不是文字标题,例如“飞机飞行”。
来源和详细信息: