近日,计算机与人工智能学院刘慧教授指导的2023级博士生陈公冠的学术论文《面向多模态预训练的子图匹配式对比学习方法研究》在《计算机学报》上发表。陈公冠为第一作者,刘慧教授为通讯作者。
该论文面向多模态大模型的预训练过程,提出了一种融合图神经网络的消息传递机制,将多模态数据特征进行节点化与子图化处理,创新性地将传统的全局匹配转化为基于语义子图的匹配策略,在提升表示精度的同时,有效抑制了低质量信息的干扰。此外,论文引入跨模态交叉注意力机制,实现在单一模态内部对不同子图进行差异化处理,进一步增强模型对关键区域的敏感性与语义关联能力。同时,为提升多模态大模型在高维空间中对同语义样本对的一致性表示能力,论文设计了一种基于特征聚类的子图对齐方法,以减少无关语义误匹配带来的表达偏差。该方法的提出解决了当前多模态大模型预训练中存在的表征粒度不一致、处理语义重复以及语义模糊等多个关键挑战。大模型借助于所提出的子图化匹配机制、交叉注意力差异建模与语义聚类对齐策略,共同构建了一个面向语义一致性与鲁棒性的多模态预训练框架,在具备较强的跨模态理解与迁移能力的同时,能够适应不同视觉任务的特性需求,展现出优良的通用性和可扩展性。
《计算机学报》是计算机学科的中文顶刊,由中国科学院计算技术研究所与中国计算机学会共同主办,影响因子在同类期刊中排名第一,综合评价总分排名第一(据《2024年版中国科技期刊引证报告(核心版)自然科学卷》),为“中国科技期刊卓越行动计划”入选期刊、CCF推荐A类中文期刊、计算领域高质量科技期刊T1类期刊,为我校A1类期刊。
撰稿:赵连幸 审核:杨春丽 编辑、终审:李清照