最近在2月6日,有个科研团队给咱们做了个报告,讲AI模型有可能把医疗条件差的地方的诊断水平提高。中国科学报讯发的消息说,两项在《自然-健康》上发表的研究显示,成本不高的大语言模型(LLM)在医疗资源有限的地方表现特别好,甚至超过了那些经过专业训练的医生。这个成果简直太让人惊喜了,它给这些地方的医生提供了巨大帮助。比如在卢旺达和巴基斯坦,LLM在诊断成功率上就把当地的医生给比下去了。英国牛津大学人工智能伦理研究所的Caroline Green说,“这些论文让我们看到了LLM有潜力帮助低收入国家的医生提升服务水平”。其实呀,LLM在医学领域不仅能通过医学研究生的考试,还能给临床医生做诊断建议。不过呢,这些都是在实验室里测出来的数据,可实际生活中患者多、资源又少,到底能不能行呢?为了找到答案,有两个独立研究团队分别在卢旺达和巴基斯坦进行了调查。在卢旺达这个国家,研究人员给4个医疗资源缺乏的地区测试了一下LLM能不能给患者提供准确的信息。Bilal Mateen博士说,“这里的护士和医生数量不够,很多病人是由培训不足的社区工作者来接诊和分诊的。” Mateen博士的团队就请了大概100名当地的社区卫生工作者编制了一份包括5600个常见问题的清单。然后把5个LLM对约500个问题的回答,和经过培训的医生们做的回答进行了对比。结果呢?发现有11个指标上所有LLM都比当地医生表现得好。另外一个优点是LLM可以全天候回答问题,“不用睡觉”,这个优势也是挺明显的。此外,它的成本还特别低:医生一次问诊收费5.43美元、护士一次收费3.80美元,而用英语回答一个问题只要0.0035美元、用卢旺达语回答一个问题只要0.0044美元。美国贝斯以色列女执事医疗中心的Adam Rodman对这个比较有点怀疑,他觉得用书面答案来评估模型性能可能比评估人类表现更有效一些。在巴基斯坦这边由Ihsan Qazi博士领导的团队也做了类似的研究。结果发现,在缺乏专家、患者多、误诊率高的环境下,使用LLM辅助诊断确实提高了准确性。Qazi博士他们做了一项随机对照试验——找来58名执业医师给他们培训20小时学习怎么用LLM辅助诊断。结果发现使用GPT-4o LLM辅助的医生在审查病例时准确性评分明显高于只用PubMed和互联网查资料的医生。数据分析还显示有些病例中AI表现甚至比人还好,“31%的病例中医生表现还稍微好一些”,Qazi博士说,“这些情况可能涉及到一些临床警示特征或者背景因素”,这些AI可能遗漏掉了。他预计这个研究结果也适用于其他国家,“但是还需要不同模型做重复验证才行”。 Caroline Green提醒大家注意一些问题:“AI可能存在偏见和泄露患者隐私的风险”,她强调不能完全依赖AI的片面建议。Qazi博士也提醒大家别太迷信AI,“对AI依赖过强可能导致医生接受错误答案”,比如遗漏临床警示特征这些问题。