当前,金融机构在推进数字化风控与智能审核过程中,一个突出难题是“模型看起来很强,但到底能不能在业务里稳定用、合规用”。
尤其在小微企业授信、个人贷款审核等场景,资料形态多样、证件种类繁多、流程环节复杂,模型既要能识别图片与文字信息,还要能进行跨材料的一致性校验、逻辑推断与风险线索发现。
现实中,不同机构、不同团队往往使用各自的数据与指标,导致模型能力难以横向比较,研究成果也难以快速转化为可复制的业务能力。
这一问题背后有多重原因:其一,信贷审核天然属于高风险、强合规领域,数据获取与共享门槛高,公开数据长期不足,评测标准碎片化;其二,信贷材料既包含身份证、收入证明、银行流水、房产证明等多类图像文本混合信息,也包含拍摄角度、清晰度、遮挡、模版差异等复杂干扰,单一识别类指标难以覆盖真实挑战;其三,业务要求的不只是“看懂一张图”,更强调“多材料交叉验证后给出可解释的结论”,而传统评测往往缺少对推理链路与鲁棒性的系统检验。
在此背景下,奇富科技联合复旦大学、华南理工大学研究人员发布FCMBench-V1.0,试图搭建一个来源于业务、服务于业务的评测体系。
该基准构建与真实银行审核流程高度一致的任务框架,覆盖18类核心信贷证件,并在样本与问题设计上对齐信贷审核全链条需求。
更值得关注的是,其提出“感知—推理—鲁棒性”三维评测:感知侧重多证件、多模版信息抽取与理解;推理强调信息一致性校验、跨材料逻辑判断与风险线索关联;鲁棒性则检验模型在图像质量波动、场景多样、材料噪声等条件下的稳定输出能力。
与仅考察单点识别准确率的评测相比,这种设计更贴近金融机构对“可用性、稳定性、可控性”的核心诉求。
从行业影响看,标准化评测的价值不仅在于“排座次”,更在于明确能力边界与短板所在。
FCMBench通过对多家机构的主流多模态模型进行测评,展示了较强的区分度,为行业提供了更直观的能力画像:哪些模型在多证件抽取上更稳,哪些模型在交叉推理上更强,哪些模型在复杂拍摄与噪声干扰下更容易失真。
对金融机构而言,这有助于在模型选型、能力补齐、上线验收等环节形成可量化参考,减少“实验室高分、线上效果不稳”的试错成本;对学术界而言,则提供了围绕真实业务痛点开展研究的公共抓手,有利于把研究议题从泛化的多模态理解进一步推向金融场景下的可验证推理、鲁棒性与安全性。
在对策层面,FCMBench的另一项举措是开源数据集与评测工具。
对于数据壁垒明显、重复造轮子现象较多的金融科技领域,开放可复用的基础设施有助于形成共建机制:研究团队可以在统一基准上迭代方法、对齐指标;产业团队可以基于同一套评测流程进行内部对比与外部对标,从而推动信贷智能能力从“单点优化”走向“体系化提升”。
同时,开源也意味着更高的透明度与可审计性,有利于形成更严谨的评估文化,推动行业在效率提升之外兼顾合规与风险底线。
面向前景,随着多模态大模型在金融领域加速应用,评测体系的重要性将进一步凸显。
一方面,未来的信贷审核将更强调“端到端”能力,即从材料受理、信息抽取、交叉核验到风险提示的全流程协同;另一方面,监管与合规要求也会促使行业更重视模型稳定性、可解释性与边界管理。
类似FCMBench这样的基准如果能持续迭代、扩大覆盖面,并与真实业务变化同步更新,将有望成为连接技术创新与金融实务的一把“标尺”,推动行业形成更成熟的能力建设路径:以标准促比较、以比较促改进、以改进促落地。
金融业作为国民经济命脉,其智能化转型需要兼顾技术创新与风险防控的双重目标。
FCMBench基准的建立,不仅为AI技术落地提供了"度量衡",更探索出一条产学研协同攻关的新路径。
这启示我们,在关键技术攻关中,行业标准与开放生态的建设,往往比单一技术突破更具战略价值。
随着这类基础性工作的持续推进,我国金融科技发展正从应用创新迈向核心能力构建的新阶段。