一个视觉语言模型可以解决多项任务

智力的一个关键要素是能够在收到简短指令时快速学习任务。 尽管存在差异,但孩子可能能够根据书中的一些图像识别动物园中的真实动物。 对于能够学习新任务的视觉模型,它需要数十或数千个专门为该任务标记的示例。 要计算和识别图像中的动物(例如“三只斑马”),需要收集数千张图像,然后用它们的数量和种类进行注释。 这是一个资源密集型且效率低下的过程,需要大量注释数据,并且每次任务更改时都需要训练模型。 我们研究了基于有限任务特定数据的不同模型是否可以使流程更高效、更轻松。

在今天的论文预印本中,我们介绍了 Flamingo。 这是一个单一的视觉语言模型 (VLM),它为各种多模态、开放式任务中的小样本学习设定了新标准。 Flamingo 能够仅使用几个特定于任务的示例(“少量镜头”)解决各种复杂问题,而无需额外培训。 Flamingo 的简单界面允许这样做。 它以图像、视频和文本的交错提示作为输入,然后输出相关的语言。

Flamingo 基于视觉和文本的界面类似于大型语言模型,可以通过处理文本提示中的示例来解决多模态问题。 Flamingo 提示可以包括一些预期文本响应和视觉输入的示例。 然后向模型提出问题并提供新的视频或图像。

来源和详细信息:
https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

By lausm

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *