时间: 2024年5月7日 下午2:00-5:20
地点:广州大学 (大学城校区) 理科南410#
报告1:
报告人:吴宇杰(研究生)
指导老师:谭恒良
报告题目:Deep hybrid manifold for image set classification
在本次的组会中,吴宇杰同学首先介绍了他最近的研究工作(流形上的图像分类)背景,重点扩展了对称正定流形网络、格拉斯曼流形网络、重构误差项、最大融合模块学习的认知。接着围绕着这四个概念的关联性,分享了一篇相关领域研究的文章,是2024年发表在Image and Vision Computing期刊上的文章,该文章提出了一个新的针对SPD流形和Grassmann流形深度混合流形学习的图像集分类学习网络(DHMNet)。在SPDNet基础上,为了克服黎曼网络中存在的信息退化问题,作者在SPDNet的输出端搭建了一个由重构误差训练的黎曼解码器,用于引导隐含层捕捉更加有效的几何语义信息。在GrNet基础上,为了克服黎曼网络中存在的信息退化问题,作者在GrNet的输出端搭建了一个由重构误差训练的黎曼解码器,用于引导隐含层捕捉更加有效的几何语义信息。除此之外,作者还将SPD流形和Grassmann流形的映射到平坦空间的矩阵进行融合,并在交叉熵损失的监督下对两个流形和混合流形的低维表示进行分类,使得网络学习到两个流形的互补特征信息。此外,作者还对上述的融合模块进行堆叠,以获得两个流形不同深度的分类结果,并通过最大融合模块对每个结果进行融合,以执行有效的图像集分类任务。在这篇文献分享后,吴宇杰同学对算法提出了新的想法和改进的新思路,但待后续实践的验证。最后,吴宇杰同学给出了最近工作的新思路,并将部分实验结果展示了出来,有得到较好的结果。对于实验不好的情况,也简单做了分析,也得到老师的宝贵建议,为后续进一步提高网络模型性能提供了重要的参考价值。

报告2:
报告人:霍健辉(研究生)
指导老师:方美娥
报告题目:文生3D领域中几何一致性的研究
在本次组会中,霍健辉同学对文生成3D领域中几何一致性研究进行了详细的汇报,分为四个部分。第一部分回顾了文生3D领域的主要技术路线。目前利用文本实现3D生成的工作大多是利用2D图像先验做升维的方式,这类方法以Dreamfusion和Prolificdreamer两篇文生3D领域的经典论文为代表,其核心思想是利用预训练的2D文生图扩散模型作为监督信号,迭代优化3D物体,实现从简单文本描述到复杂三维物体的转换。其中重点回顾了连接起2D扩散模型和3D表示NeRF的桥梁——SDS Loss和VSD Loss两个损失函数,并且解释了VSD Loss相对于SDS Loss能提升多样性的原因。第二部分简要地提出了对几何一致性领域存在的Janus Problem的思考,认为仅利用2D信息无法满足文生3D领域中对于3D几何一致性要求。第三部分分享了三篇论文。第一篇论文是MVDream,它利用利用3D模型渲染获得视角一致的图片进行扩散模型的监督训练,能够从简单的文本描述中生成一致的多视角图像和 3D 模型。论文中提出的3D Self-Attention是实现文生多图的关键。第二篇论文是SPAD:Spatially Aware Multi-View Diffusers,该工作针对MVDream中存在的内容复制问题和翻转预测问题,提出了Multi-View Epipolar Attention和Plücker Ray Embedding。论文最后做了消融实验验证这两种机制的效果,并且他们的实验结果表明使用这两种机制能够解决Janus Problem。第三篇论文是ControlNet。ControlNet的基本思想是将文本到图像的扩散模型与额外的控制条件相结合,引入额外条件来控制生成过程,将预训练的大模型用于细分领域。ControlNet利用了zero convolution模块,它们是权重和偏置都初始化为零的1×1卷积,确保ControlNet在原有Stable Diffusion底模型的能力上进行微调训练,不会产生大的能力偏差。通过这种方式,即使在小数据集上也能有效地避免过拟合,同时不会破坏原始大模型的生成能力。第四部分,霍健辉同学提出了改进3D几何一致性的想法和初步的实验计划。最后,霍健辉同学和老师们共同探讨了领域中3D几何一致性的问题,同时也得到了老师们对于实验计划的宝贵建议。

报告 3:
报告人:张月华(硕士生)
指导老师:李福芳
报告题目:Less is More: Focus Attention for Efficient DETR
在本次组会上,张月华同学汇报了一篇名为Focus-DETR的目标检测方法,其核心思想是关注更有信息量的token,以实现计算效率与模型精度之间的更好平衡。主要内容包含两个部分:设计了一种评分机制及具有双注意力的编码器。首先,张月华同学介绍个DETR类模型的背景信息,及其对图像序列的计算具有很高的复杂度。接着,说明了现有稀疏方法的局限性。在评分机制部分包含两个模块,一个是用于前景token选择的选择器(FTS)利用标签分配协议来选择前景token,另一个是用于确定细粒度目标token的多类别分数预测器。接着张月华同学介绍了本文提出的一种具有双注意模块的编码器,为了进一步提高前进token的查询信息,在降低计算复杂度的同时平衡模型的性能。张月华同学展示了这篇文章的实验结果,显示Focus DETR在平衡模型的性能和解决计算复杂度方面具有最好的效果。通过对Focus DETR实验的消融研究进行分析,论证了文章所提出的组件的有效性。最后,张月华同学对文章的研究结果进行可视化,展示了多尺度特征图的前景token分布,及细粒度目标token在编码器中逐层汇聚到目标上。