即使计算机能够通过智商测试,它们仍然会犯愚蠢的错误。 不同的测试有帮助吗?
研究人员正在开发新的“基准”,这将有助于人工智能模型避免现实世界中的错误。
人工智能 (AI) 经过书籍、新闻文章和维基百科中数十亿字的训练,可以写出与人类惊人相似的散文。 他们可以创建推文、总结电子邮件信息,并翻译成几十种不同的语言。 他们可以写一点诗。 与成绩优异的学生一样,计算机科学家也为他们设计了基准。
Sam Bowman 和他的同事们对这个新的基准 GLUE(通用语言理解评估)有一个发人深省的经历。 GLUE 允许 AI 模型使用包含数万个句子的数据集进行训练。 然后他们被赋予九项任务,例如确定一个句子是否符合语法或评估情绪。 每个模型在完成所有任务后都会获得平均分。
纽约大学计算机科学专家鲍曼认为他打败了模型。 这些模型的得分低于 70 分(满分 100 分)(D+)。 然而,在不到一年的时间里,新模型的得分接近 90,并且表现优于人类。 鲍曼:“我们对这种增长感到惊讶。”2019 年,研究人员创建了 SuperGLUE,这是一个难度更大的基准。 在某些任务中,人工智能模型需要在消化维基百科或其他新闻网站的段落后回答有关阅读理解的问题。 人类再次领先 20 分。 鲍曼说,“之后发生的事情并没有那么令人震惊。”到 2021 年初,计算机再次打败了人类。
来源和详细信息:
https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help