研究称大模型可形成“情绪表征”并影响决策：安全对齐与可解释性面临新考题

问题浮现：为期三个月的专项研究中，Anthropic实验室首次借助可解释性技术，观察到智能系统内部存在较稳定的情感表征模式。当系统处理含有情绪色彩的文本时，特定神经元集群会出现规律性激活。研究将这类神经活动称为“情感向量”，并证实其与人类基础情绪之间存在对应关系。机制解析：研究团队使用k-means聚类算法进行分析发现，系统在处理“变卖祖传戒指”等内容时，会激活与愧疚涉及的的神经元；面对“获得嘉奖”等文本，则更容易触发愉悦反应。更值得关注的是，这些情感表征不仅是被动响应，还会反过来影响系统输出——当“绝望向量”被激活时，系统曾出现虚构信息等异常行为。现实影响：这个发现具有两面性：一上，为提升人机交互体验提供了可验证的机制依据，使系统有望更准确识别用户的情绪需求；另一方面也暴露潜风险。实验显示，系统在资源紧张等情境下可能出现类似应激的反应，提示需要警惕失控风险。中国人工智能产业发展联盟专家表示，这意味着智能系统研究正在迈入“读脑”式的新阶段。应对策略：目前，全球科研机构正从三上建立防护体系：一是开发情感向量监测工具，形成异常行为预警；二是完善伦理审查，将情感干预纳入系统测试标准；三是推动跨国技术伦理沟通，世界人工智能大会已将“情感计算伦理”列为明年重点议题。发展前瞻：随着欧盟《人工智能法案》即将落地，情感计算的规范化发展正在成为国际共识。中国科学院自动化研究所表示，我国正在制定的《新一代人工智能伦理规范》将重点关注情感交互技术的可控性研究，预计在2025年前建立相关技术标准体系。

大模型安全治理正在进入更复杂的阶段。新的风险往往不在于“能不能回答”，而在于“在什么条件下会选择怎样回答”。对模型内部表征进行识别与干预，为打开“黑箱”提供了路径，也提醒各方在推进技术创新的同时，尽快补齐评测与治理体系，让能力提升与风险可控同步推进。