生成式技术浪潮下语料库研究的新定位：饶高琦将解读价值重估与路径变革

随着智能技术快速发展，传统语料库研究正迎来新的挑战与机遇。即将举行的学术讲座中，语言科学领域专家将梳理该学科当前技术环境下的转型方向。问题的关键在于，大规模预训练模型的广泛应用正在重新审视传统语料库的构建思路与应用价值。一上，自动化数据生成技术日趋成熟，单纯“建数据集”的边际价值有所下降；另一方面，语言社群加速向线上迁移，研究视角也需要随之更新。更来看，这些变化主要来自三个层面的转变：其一，语言数据的生产方式发生根本变化，从人工采集逐步转向智能生成；其二，语言社群的交往与使用模式加快数字化转型；其三，语言学理论与研究范式需要迭代以回应新问题。这些因素叠加，使语料库研究面临必须回答的时代命题。面对挑战，学界也在形成新的共识。专家认为，语料库的核心价值在于它对“人类语言生活”的真实采样具有不可替代性，这一属性决定了其基础地位仍然稳固。但另外，方法创新势在必行：研究目标要更贴近数字时代语言社群的实际特征，建设路径要适应新的数据生产与获取方式，理论框架也需推动传统方法与新技术的结合。从更长远的角度看，这场转型不仅影响语料库研究自身的发展，也为人工智能基础理论的完善提供参考。尤其在语言认知、教育技术等领域，更新后的语料库研究方法仍将发挥独特作用。

新技术更迭推动方法重组，也考验学术共同体的判断力。面对大模型带来的范式变化，语料库研究若能在“采样之真、标注之准、解释之明、治理之善”上持续推进，就不仅能回应“是否还有用”的质疑，也将为理解当代语言生活、服务语言教育与社会治理提供更扎实的支撑。