学术动态

学术动态

当前位置: 网站首页-> 学术动态-> 正文

元宇宙研究院第15次研讨会

发布时间:2023-12-22

时间:2023年12月21日  下午2:00-5:20

地点:广州大学 (大学城校区) 理科南314

 

报告1:

报告人:梁晋熙(硕士生)

指导老师:谭恒良

报告题目:A Simple Symmetric Positive Definite Manifold Deep Learning Method for Image Set Classification

 

在本次的报告中,梁晋熙同学首先介绍了流形相关的背景知识,接着介绍了流形学习的相关知识和运用流形的意义。最后分享了一篇相关领域研究的文章,是2021年发表在IEEE Transactions on Neural Networks and Learning Systems期刊上的文章,该文章提出了一个新颖的轻量级SPD网络进行图像集分类的学习网络(Symnet)。在SPDNet基础上,作者提出了一种基于(2D)^2PCA的无监督优化参数,大大减少训练的时间,简化了网络的搭建和训练过程,提升了计算效率。为了提升网络的非线性特征表达能力,除了使用 ReEig 激活函数执行特征值正则化外,设计了一个面向SPD矩阵局部相关值的非线性激活函数,以进一步消除特征的类内离散性问题对分类结果的潜在负面影响。此外,所提算法创新性的设计了SPD 矩阵池化层,以期实现进一步降低特征冗余度和提升特征有效性的目的。考虑到数据空间的非欧性,该模块分别从切空间池化、最大值池化的池化两种几何视角对如何定义合理的黎曼特征池化操作展开了实验探索。并且利用核判别分析策略代替传统的欧式全连接层,实现对数据分布信息的进一步编码和学习。接着,将部分实验结果展示了出来,有得到较好的结果。最后,梁晋熙同学给出了最近工作的新想法和改进的思路。同时彭伟龙老师和汪洋涛老师也对流形与切空间之间的转换提出了自己的想法和建议。为后续进一步提高网络模型性能提供了重要的参考价值。


FB815

 

报告2:

报告人:吴宇杰(硕士生)

指导老师:谭恒良

报告题目:基于SPD流形深度度量学习的图像集分类算法

 

在本次的报告中,吴宇杰同学首先介绍了他最近的研究工作(流形上的图像分类)背景,重点扩展了流形网络、重构误差项、度量正则化学习的认知。接着围绕着这三个概念的关联性,分享了一篇相关领域研究的文章,是2022年发表在IEEE Transactions on Neural Networks and Learning Systems期刊上的文章,该文章提出了一个新的针对SPD流形深度度量学习的图像集分类学习网络(SMDML)。在SPDNet基础上,为了克服黎曼网络中存在的信息退化问题,作者在SPDNet的输出端搭建了一个由重构误差训练的黎曼解码器,用于引导隐含层捕捉更加有效的几何语义信息。通过实验发现,以重构误差项为学习目标之一的黎曼网络会将 SPD 矩阵对角化,从而造成部分统计信息的丢失,作者设计了 SPD 矩阵相关值修正的激活函数,嵌入到提出的网络模型中以缓解上述问题。鉴于深度黎曼表征具有较大的类内离散性以及类间模糊性,作者接着为黎曼自编码器赋予了度量学习正则化项。上述设计实现了将数据的类内类间分布信息显式地编码和集成到网络的端到端推理过程,有利于训练一个更具判别性的黎曼网络映射。在这篇文献分享后,吴宇杰同学对算法提出了新的想法和改进的新思路,但待后续实践的验证。最后,吴宇杰同学给出了最近工作的新思路,并将部分实验结果展示了出来,有得到较好的结果。对于实验不好的情况,也简单做了分析,也得到老师的宝贵建议,为后续进一步提高网络模型性能提供了重要的参考价值。 


C353E

报告3:

报告人:林惠龙(硕士生)

指导老师:汪洋涛

报告题目:VSE++: Improving Visual-SemanticEmbeddings with Hard Negatives

 

在本次的报告中,林惠龙同学首先介绍图像文本检索中对图像文本的特征提取方法:VSE、CA、SA,在此基础上讲述基于VSE方法的改进VSE++。VSE++通过引入难负样本来改进损失函数,让模型能够进一步区分正样本对和难负样本对,在对难负样本对的训练能够进一步缩小模型参数从而使损失降到最小从而得到我们改进后到损失函数MH。其中还讲解了本论文的实验过程以及通过VSE++和VSE0还有以往的实验在MSCOCO和Flickr30K两者数据集上的比较结果,对比得到VSE++在以往的图文检索中表现出的性能是比较好的。此外,林惠龙同学还复现论文中的源码得到训练结果和评估结果。最后林惠龙同学还介绍论文的开源代码是如何实现这个VSE++,重点讲解了Model类通过获取图像文本特征和如何进行前向传播进行训练和反向传播进行更新模型。


CB5AC

 

报告4

报告人:范禹轩(硕士生)

指导老师:李福芳

报告题目:文献阅读分享

 

在本次的报告中,范禹轩同学介绍了注意力机制的背景信息,接着分享了三篇相关领域研究的文章,第一篇是2018年发表在IEEE Conference on Computer Vision and Pattern Recognition期刊上的文章,该文章提出了一个新的针对通道的注意力网络结构(SEnet)。对于输入进来的特征层,在每一个通道学习不同的权重,这些权重与不同通道的特征相关,决定了每个通道在任务中的重要性。增强重要的通道,抑制不重要的通道。第二篇是2018年发表在Proceedings of the European conference on computer vision期刊上的文章,该文章将通道注意力机制和空间注意力机制进行一个结合(CBAM),对输入进来的特征层,分别进行通道注意力机制的处理和空间注意力机制的处理。第三篇是2021年发表在IEEE Conference on Computer Vision and Pattern Recognition期刊上的文章,利用两个一维全局池化操作分别将垂直和水平方向的输入特征聚合为两个独立的方向感知特征图(Coordinate attention)。然后,这两个嵌入特定方向信息的特征图分别被编码为两个注意力图,每个注意力图都捕获了输入特征图沿着一个空间方向的长程依赖。因此,位置信息就被保存在生成的注意力图里了,两个注意力图接着被乘到输入特征图上来增强特征图的表示能力。这三篇文献分享后,范禹轩同学都对三种方法的应用场景提出了想法,但待后续实践的验证。各位老师针对网络结构的细节完善方面提出宝贵建议,为后续进一步提高网络模型性能提供了重要的参考价值。


C599D