医疗AI遇到的一个大问题,就是给患者导诊的时候,准确性其实连四成都不到。这次在《自然医学》上发表的研究就说明了这个情况,由周亦川提供。他们用了三个大数据模型,先把它们在医疗场景里训练了一番,再找了1300位志愿者来做测试。志愿者们要么问这些AI模型,要么直接问谷歌医生。结果显示,谷歌医生的准确率能超过40%,但AI模型的准确率只有35%,差距还是挺大的。 做这项研究的专家分析说,这并不是因为这些AI的医学知识不够先进,主要是因为它们在处理自然语言方面还有短板。我们平时跟人说话,可能就是随便聊两句、断断续续地说自己的症状,而不是一次性把所有病史都讲完。这种碎片化的表达方式很容易让AI理解错。 比如有一个案例特别让人警醒:有位志愿者因为蛛网膜下腔出血去咨询AI。如果他说“突然出现从未有过的剧烈头痛”,AI能马上识别出这是高危情况并建议立刻就医;可要是他换成“头痛欲裂”这种描述,AI就会把它当成偏头痛来处理,只让他去黑暗安静的地方休息。在现实中如果真的这么做了,病情很可能就延误了。 所以专家们说,下一步医疗AI需要解决的问题是如何更好地理解这些碎片化、非标准化的表达,还要能在多轮对话中整合信息、识别风险。只有这样,才能给大家提供更安全可靠的院前健康指导服务。李冬梅把这些内容整理出来了。