医疗条件差的地方诊断水平提高

最近在2月6日，有个科研团队给咱们做了个报告，讲AI模型有可能把医疗条件差的地方的诊断水平提高。中国科学报讯发的消息说，两项在《自然-健康》上发表的研究显示，成本不高的大语言模型（LLM）在医疗资源有限的地方表现特别好，甚至超过了那些经过专业训练的医生。这个成果简直太让人惊喜了，它给这些地方的医生提供了巨大帮助。比如在卢旺达和巴基斯坦，LLM在诊断成功率上就把当地的医生给比下去了。英国牛津大学人工智能伦理研究所的Caroline Green说，“这些论文让我们看到了LLM有潜力帮助低收入国家的医生提升服务水平”。其实呀，LLM在医学领域不仅能通过医学研究生的考试，还能给临床医生做诊断建议。不过呢，这些都是在实验室里测出来的数据，可实际生活中患者多、资源又少，到底能不能行呢？为了找到答案，有两个独立研究团队分别在卢旺达和巴基斯坦进行了调查。在卢旺达这个国家，研究人员给4个医疗资源缺乏的地区测试了一下LLM能不能给患者提供准确的信息。Bilal Mateen博士说，“这里的护士和医生数量不够，很多病人是由培训不足的社区工作者来接诊和分诊的。” Mateen博士的团队就请了大概100名当地的社区卫生工作者编制了一份包括5600个常见问题的清单。然后把5个LLM对约500个问题的回答，和经过培训的医生们做的回答进行了对比。结果呢？发现有11个指标上所有LLM都比当地医生表现得好。另外一个优点是LLM可以全天候回答问题，“不用睡觉”，这个优势也是挺明显的。此外，它的成本还特别低：医生一次问诊收费5.43美元、护士一次收费3.80美元，而用英语回答一个问题只要0.0035美元、用卢旺达语回答一个问题只要0.0044美元。美国贝斯以色列女执事医疗中心的Adam Rodman对这个比较有点怀疑，他觉得用书面答案来评估模型性能可能比评估人类表现更有效一些。在巴基斯坦这边由Ihsan Qazi博士领导的团队也做了类似的研究。结果发现，在缺乏专家、患者多、误诊率高的环境下，使用LLM辅助诊断确实提高了准确性。Qazi博士他们做了一项随机对照试验——找来58名执业医师给他们培训20小时学习怎么用LLM辅助诊断。结果发现使用GPT-4o LLM辅助的医生在审查病例时准确性评分明显高于只用PubMed和互联网查资料的医生。数据分析还显示有些病例中AI表现甚至比人还好，“31%的病例中医生表现还稍微好一些”，Qazi博士说，“这些情况可能涉及到一些临床警示特征或者背景因素”，这些AI可能遗漏掉了。他预计这个研究结果也适用于其他国家，“但是还需要不同模型做重复验证才行”。 Caroline Green提醒大家注意一些问题：“AI可能存在偏见和泄露患者隐私的风险”，她强调不能完全依赖AI的片面建议。Qazi博士也提醒大家别太迷信AI，“对AI依赖过强可能导致医生接受错误答案”，比如遗漏临床警示特征这些问题。