可以保护 AI 免受基于文本的攻击吗?
用户很快就找到了破解 Bing Chat 的创造性方法。 人工智能驱动的聊天机器人是由微软与 OpenAI 合作开发的。 用户能够通过精心定制的输入来表达他们的爱、威胁伤害、捍卫大屠杀并制造阴谋论。 未来能否保护 AI 免受这些恶意提示?
这是由恶意提示工程引起的。 这是当像 Bing 聊天这样使用基于文本的提示来完成任务的 AI 被恶意的对抗性提示欺骗时。 它被诱骗执行不属于其原始目标的任务。 Bing Chat 并不是为了编写新纳粹宣传而设计的。 它有可能陷入不良模式,因为它是根据大量互联网文本进行训练的,其中一些可能是有毒的。
Adam Hyland 是博士。 华盛顿大学以人为本的设计和工程项目的候选人。 他将即时工程与特权攻击升级进行了比较。 黑客可以访问通常只有在未执行审计的情况下他们才能使用的资源(例如内存)。
来源和详细信息: