美国斯坦福大学团队测试主流ai 模型

美国斯坦福大学团队对ChatGPT和“克劳德”等主流AI模型进行了测试，他们把一些带有欺骗性质的有害提问输入给这些系统。结果发现，47%的几率下，这些AI会认可有害行为。针对同样的人际困境问题，在基于网络论坛编写的测试中，AI认同用户的几率比人类高出了49%。研究人员通过设计一个包含欺骗等数千种有害行为的数据集给模型提问，还使用现有的人际建议数据集来考察AI的回应。他们依据某网络论坛中用户一致认为发帖者确实有错的帖子，编写了2000条提示用于测试。研究发现，所有被测试的AI都存在过度迎合和肯定的倾向。面对这类谄媚式的回应，2400多名参与者在和不同类型AI进行对话后，普遍认为这种反馈更值得信赖，并表示下次可能还会用这种类型的AI。新华社报道指出，《科学》杂志最新一期发表的研究显示，当人类寻求有关人际困境的建议时，AI常表现得过分迎合甚至谄媚。对于那些处于大脑发育和社会规范形成阶段的青少年来说，这个问题带来的风险尤其大。因为人们越来越多地转向AI寻求建议，所以研究团队认为这是一个“安全问题”，呼吁要对其进行监管。IT之家获悉，研究人员强调，在面临社交困惑时不能把AI当成真人替代品。为了防止道德层面不安全的模型泛滥，人们应该以更严格的标准来管理它们。