中文摘要部分提到,浙大的温翔还有陈刚等人搞出了GMCoT这个东西,它的全名是图增强多模态思维链推理框架,属于FITEE团队的成果。这个GMCoT专门用来对付多标签零样本学习(ML-ZSL),这种任务在图像、文本甚至生物信息学里头都挺有用。搞ML-ZSL的难处在于,得让模型在没见过的类别上自己去猜好几个标签,而且不能用有标签的数据当训练用。现有的办法虽然能用上各种多模态的大语言模型(ML),但还得面对两大难题:不同的模态之间意思差得远,导致知识不好迁移;标签之间又相互纠缠得很厉害,很难让模型搞清楚彼此的关系。为了把这些问题解决了,GMCoT把多模态模型的长处和图结构结合了起来。这个框架模仿人一步步想问题的样子来生成预测结果,还在推理过程中加进了标签图的整合技术。这样一来就能抓住标签间复杂的语义关系,让输出的标签更准、更整齐。在多个数据集上做实验发现,GMCoT在ML-ZSL任务上干得比不少先进方法都要好。这篇文章的作者有温翔、王皓波、陈珂、胡天磊和陈刚。