人工智能模型是否胜过人类智能？检查 GLUE 和 SuperGLUE 基准测试的局限性

By lausm 2023年5月3日

即使计算机能够通过智商测试，它们仍然会犯愚蠢的错误。不同的测试有帮助吗？

研究人员正在开发新的“基准”，这将有助于人工智能模型避免现实世界中的错误。

人工智能 (AI) 经过书籍、新闻文章和维基百科中数十亿字的训练，可以写出与人类惊人相似的散文。他们可以创建推文、总结电子邮件信息，并翻译成几十种不同的语言。他们可以写一点诗。与成绩优异的学生一样，计算机科学家也为他们设计了基准。

Sam Bowman 和他的同事们对这个新的基准 GLUE（通用语言理解评估）有一个发人深省的经历。 GLUE 允许 AI 模型使用包含数万个句子的数据集进行训练。然后他们被赋予九项任务，例如确定一个句子是否符合语法或评估情绪。每个模型在完成所有任务后都会获得平均分。

纽约大学计算机科学专家鲍曼认为他打败了模型。这些模型的得分低于 70 分（满分 100 分）（D+）。然而，在不到一年的时间里，新模型的得分接近 90，并且表现优于人类。鲍曼：“我们对这种增长感到惊讶。”2019 年，研究人员创建了 SuperGLUE，这是一个难度更大的基准。在某些任务中，人工智能模型需要在消化维基百科或其他新闻网站的段落后回答有关阅读理解的问题。人类再次领先 20 分。鲍曼说，“之后发生的事情并没有那么令人震惊。”到 2021 年初，计算机再次打败了人类。

来源和详细信息：
https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help

人工智能模型是否胜过人类智能？检查 GLUE 和 SuperGLUE 基准测试的局限性

相關

By lausm

Related Post

發佈留言取消回覆

You Missed

AI 算法加入 Cornell Big Red：以 80% 的准确度预测运动队的动作

揭示神经退行性疾病进展的复杂性：ALS 的机器学习方法

保护您的隐私：人工智能如何帮助打击窃听

解开读带分子棘轮的秘密

相關

By lausm

Related Post

發佈留言 取消回覆

You Missed

發佈留言取消回覆