我国科研团队突破多跳问题生成技术 为自然语言处理开辟新路径

问题:多跳推理成为问答系统“能力分水岭” 自然语言处理领域,传统阅读理解多集中在“给定一段文本—回答一个问题”的单段场景,模型往往凭借局部线索就能作答。但在真实的检索与知识问答中,问题经常跨越多段材料,涉及多组实体与关系,需要沿着“人物—事件—地点—时间”等多条线索连续推理才能得到答案。因此,多跳推理逐渐成为衡量模型理解深度的重要任务形态。,高质量多跳数据获取成本高:人工标注不仅耗时耗力,也容易受标注者知识背景影响,数据瓶颈限制了模型在复杂推理能力上的提升。 原因:复杂关系分散、证据链难显式化,导致“出题难、验题更难” 多跳问题的核心在于“证据链”。信息常分散在不同句子甚至不同段落中,同时还存在同名、别名与代词指代等情况。如果缺乏统一组织,模型很难稳定识别“谁与谁有关、通过什么关系连接”。更难的是,生成问题不仅要表述自然,还要保证可回答、确实需要多步推理,并避免引入事实错误。相比“写出一句通顺的问题”,如何自动判断题目质量、剔除伪多跳与无效样本,才是落地的关键难点。 影响:实体图与推理链抽样,推动多跳数据自动扩增并提升下游效果 针对上述难点,新方案以“实体图融合”为基础:先从原文识别人名、地名等实体及其类型,并通过指代消解、序列相似度等方法,将同一实体在不同句子中的多种表述统一起来,进而构建全局实体关系网络。该网络保留实体共现与连接信息,也为后续推理链构造提供结构化支撑。 在“子图抽样”环节,方案通过启发式规则从实体图中抽取有序证据子图,自动形成可解释的推理路径,主要包括三类:一是序列型,将多个证据实体串联成“桥梁”式链路;二是交集型,在链路中寻找交汇点以考验信息聚合能力;三是比较型,对两组证据进行对照生成比较类问题。通过上述抽样,原本分散的证据被整理为生成模型可直接利用的结构化输入。 实验显示,在HotpotQA该大规模多跳阅读理解数据集上,用该方法生成的伪标注问题训练下游阅读理解模型后,整体准确率提升2.3个百分点。人工评估深入表明,约78%的生成问题被认为具备多跳特性,说明这些问题确实跨越单句边界并依赖多段证据。 对策:以“生成—评价”双网络闭环筛题,兼顾语言质量与推理有效性 为解决“能生成但不一定值得问”的问题,该方案引入生成器与评价器协同的双网络机制。生成器一上利用图卷积网络捕捉推理链上的关系信息,另一方面通过序列到序列模型输出自然语言问题,并配合后处理策略减少重复词、纠正不当疑问词、避免无关词拷贝等,使问题更规范、更接近可答形式。 评价器负责把关:先用监督学习预训练获得基础判别能力,再引入混合监督与强化学习式优化,综合考量可回答性、多跳性与表达质量,对生成样本打分筛选,形成“自动出题—自动评测—再优化”的闭环。其价值在于把质量控制纳入训练流程,降低伪标注扩增带来的噪声,为规模化应用提供更可操作的路径。 前景:从数据扩增走向可控生成,仍需加强可靠性与规范化评测 业内认为,面向多跳推理的自动问题生成将在教育训练、智能检索、专业文档问答等场景释放潜力:既能持续扩充复杂推理样本,缓解标注压力,也能推动模型学习更稳定的跨段推理能力。下一步的关键在于两点:其一,增强事实一致性与可追溯性,避免“看似合理但无法证实”的问题进入训练集;其二,建立更统一的多跳质量评测标准与数据治理流程,在提升效果的同时降低偏差与幻觉式生成风险。随着实体图谱化建模、推理链可解释学习与评价机制的持续完善,多跳问答有望从“能答”走向“会推理、可验证”。

多跳问题的价值,在于推动机器理解从“句子层面的匹配”走向“跨文本的推理”。以结构化实体关系为骨架、以质量评价为闸门的数据生成路径,为缓解标注压力、提升推理能力提供了新思路。面向未来,只有在可验证、可解释、可控的框架下实现自动扩增,复杂问答能力的提升才能更稳定地转化为可信、可用的信息服务能力。