论文4:image harmonization with transformer.
zonghui guo, dongsheng guo, haiyong zheng, zhaorui gu, bing zheng, junyu dong
图像协调(image harmonization),旨在使合成图像看起来更真实,是一项重要的、具有挑战性的任务。我们试图用transformer来解决图像协调问题,利用其强大的长距离上下文关系建模能力,用于调整前景光,使其与背景光兼容,同时保持结构和语义不变。通过设计协调transformer框架,以及综合实验和消融实验,说明了transformer在图像协调方面的作用。我们的方法在图像协调和图像修复/增强方面都取得了最先进的性能。
论文5: multi-modal multi-action video recognition
zhensheng shi, ju liang, qianqian li, haiyong zheng, zhaorui gu, junyu dong, bing zheng
由于需要识别同时出现的多个动作,多动作视频识别具有极大的挑战性。建立多动作关系模型对于理解具有多个动作的视频是有益的和关键的,我们通过利用关系图卷积网络(gcn)和视频的多模态性,提出了一个新颖的视频多动作关系模型。我们首先建立了多模态的gcns来探索模态感知的多动作关系,将特定模态的动作表示作为节点特征,然后将多模态的cnn-gcn模型和多模态的特征表示联合起来,学习更好的关系动作预测。消减实验和多行动关系可视化分析,都显示了我们的多模态多行动关系建模的强大能力。同时,我们方法在大规模多动作数据集m-mit上取得了最当前最好的性能。