施普林格自然旗下期刊刚发了篇论文

中新网北京2月10日的消息显示,施普林格·自然旗下期刊《自然-医学》刚发了篇论文,指出目前的AI和大语言模型(LLM)可能没办法真正帮到大家做出更好的日常健康决策。这篇论文的主要作者是记者孙自法,研究团队把目光聚焦在全球医疗机构提出的一项建议上——想用这些大模型给公众提供获取医疗信息的便利,让大家在去看医生之前能先做个初步评估。但他们之前的研究表明,即使是在医生资格考试里得分很高的模型,一旦放到真实世界的场景里,也未必管用。 在不用真人参与的模拟测试中,这些大模型表现还不错,能在94.9%的情况下正确识别病症,并且在56.3%的情况下给出正确的建议方案。但一但有真正的人参与进来情况就变了。论文里提到,当受试者使用相同的模型时,他们识别病症的准确率掉到了34.5%以下,做出正确决策的比例更是降到了44.2%。这说明这个效果甚至不如对照组里那些没用AI的情况。 为了搞清楚原因,研究人员人工检查了其中30种人类和模型的对话记录。结果发现问题出在两方面:一是大家问问题的时候经常说不完整或者不准确的信息;二是模型有时候也会提供误导性甚至错误的内容。看来现在的AI工具如果想真正安全地给公众看病提供建议,还得在未来的设计中多下功夫去更好地理解并支持真实的用户需求。