微软研究人员提出一种新的AI方法,使用前向和后向语言模型在中间相遇并提高训练数据效率

语言模型广泛用于各种辅助写作活动,例如文本摘要、代码完成和释义。 LM 可用于创建编程语言和自然语言。 为了在各种应用中使用,LM 需要能够根据先前令牌的顺序开发下一个令牌。 预训练侧重于提高模型根据先前标记预测下一个标记的能力。 然而,他们确实有额外的信息,他们在预训练期间没有使用这些信息。

他们在为单个标记预测训练模型时忽略前缀前后的标记。 文献尚未讨论将后缀作为预训练的一部分的替代方法,即使后缀不能用作模型的输入。 他们试图让预训练数据更有用,同时仍然保持底层的 LM 自回归特征。 他们使用的策略需要额外的建模,乍一看,这似乎毫无用处。 在预训练期间,创建了一个自回归的、从左到右的 LM 作为主要工具。 预训练目标与 LM 的使用非常相似。

探索不同的训练目标有两个原因。 在第一部分中,讨论了数据效率。 LM 可以使用稀疏信号进行训练,这种信号成本低廉,并为所有可能的下一个标记选择生成概率分布。 它仅使用训练集中的下一个标记进行监督。 如果在训练期间使用更密集的监督类型,将下一个标记的概率分布与不同的分布进行比较,会怎样? 其次,还有其他相关责任。 在许多情况下,与从头开始创建文本相比,用户编辑或填写现有的标记序列可能更方便。

来源和详细信息:
https://www.marktechpost.com/2023/03/18/microsoft-researchers-propose-a-new-ai-method-that-uses-both-forward-and-backward-language-models-to-meet-in-the-middle-and-improve-the-training-data-efficiency/

By lausm

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *