施普林格自然旗下期刊刚发了篇论文

中新网北京2月10日的消息显示，施普林格·自然旗下期刊《自然-医学》刚发了篇论文，指出目前的AI和大语言模型（LLM）可能没办法真正帮到大家做出更好的日常健康决策。这篇论文的主要作者是记者孙自法，研究团队把目光聚焦在全球医疗机构提出的一项建议上——想用这些大模型给公众提供获取医疗信息的便利，让大家在去看医生之前能先做个初步评估。但他们之前的研究表明，即使是在医生资格考试里得分很高的模型，一旦放到真实世界的场景里，也未必管用。在不用真人参与的模拟测试中，这些大模型表现还不错，能在94.9%的情况下正确识别病症，并且在56.3%的情况下给出正确的建议方案。但一但有真正的人参与进来情况就变了。论文里提到，当受试者使用相同的模型时，他们识别病症的准确率掉到了34.5%以下，做出正确决策的比例更是降到了44.2%。这说明这个效果甚至不如对照组里那些没用AI的情况。为了搞清楚原因，研究人员人工检查了其中30种人类和模型的对话记录。结果发现问题出在两方面：一是大家问问题的时候经常说不完整或者不准确的信息；二是模型有时候也会提供误导性甚至错误的内容。看来现在的AI工具如果想真正安全地给公众看病提供建议，还得在未来的设计中多下功夫去更好地理解并支持真实的用户需求。