学术动态

学术动态

当前位置: 网站首页-> 学术动态-> 正文

元宇宙研究院第24次研讨会

发布时间:2024-06-05

时间:2024年 6月4 日  下午2:00-5:20

地点:广州大学 (大学城校区) 理科南314


报告 1:

报告人:杨志豪(硕士生)

指导老师:方美娥、彭伟龙

报告题目:Animatable Gaussians: Learning Pose-dependent Gaussian Maps for High-fidelity Human Avatar Modeling(CVPR 2024)

在本次组会上,杨志豪同学分享了一篇发表在CVPR2024上的论文,一篇关于人体重建的工作,主要结合现如今比较热门的方向也就是高斯溅射的文章。第一部分,他介绍了人体重建的工作的相关背景,列举了部分现有工作,还有他们之前的区别和改进;并介绍了基于神经辐射场和基于高斯溅射这两种方法在人体重建上的主要区别,3d高斯建设相比于神经辐射场,其显示表达能够带来渲染速度较快的效果,而重要性采样能够在开销有限情况下保障视觉效果,并且在对场景或物体进行编辑也更加方便。接下来他介绍了Animatable Gaussians这篇论文的方法,方法的输入的信息为多视角的视频、smpl的姿态信息和蒙皮权重,姿态信息和蒙皮权重是我们进行姿态变换的时候需要用到的信息。模型优化完成后,输入各种特定的姿态,就能够生成特定姿态下这个人体的图片。其方法分为两个阶段,第一个阶段为预处理阶段,主要是从多视角图片中去得到一个标准姿态的人体网格,从模板中去提取到一个叫做姿态变换后的位置图,可以理解为一个提取到特征,之后通过神经网络得到3D高斯图,最后进行姿态变换和光栅化得到对应的人体图片。详细介绍了学习一个标准姿态的模板,从模板中得到posed position maps的过程,最后经过StyleUnet神经网络得到Gaussian Maps,并进行高斯初始化,并且对实验结果和消融实验进行讲解。最后还介绍了Pose Projection Strategy用于提高泛化到新姿态的性能。最后总结了一下训练时间和输入信息等可以进行改进的地方。


报告2:

报告人:钟俊赢(硕士生)

指导老师:李福芳

报告题目:Retentive Network: A Successor to Transformerfor Large Language Models

在本次组会上,钟俊赢同学汇报了在大型语言模型架构方面的最新研究成果,主要研究方向为Retentive Network(RetNet),这是一种旨在超越Transformer的新型神经网络架构。该研究包含三个核心部分:多尺度保留机制、三种计算范式以及在大型语言模型中的应用。首先,他介绍了Transformer在大型语言模型中的应用以及存在的挑战,尤其是在训练并行性与推理效率之间的权衡。接着,他详细阐述了RetNet的设计理念和架构组成。

在多尺度保留机制部分,他首先介绍了多头注意力机制在Transformer中的作用以及其局限性,为了实现更高效的推理过程,需要一种新的机制来替代传统的注意力计算。他介绍了保留机制(Retention)模块,该模块通过为每个头分配不同的衰减率γ,增强了模型在不同尺度上捕获序列信息的能力。在三种计算范式部分,他详细解释了RetNet支持的并行、递归和分块递归三种计算方式,这种设计使得RetNet在训练时能够充分利用GPU的并行计算能力,而在推理时则能以O(1)的复杂度实现高效的解码,显著降低了内存消耗和延迟。

在他介绍的论文中的实验结果表明,RetNet不仅在扩展曲线和上下文学习能力方面与Transformer相当,而且在推理成本上具有明显优势。特别是在模型尺寸超过2B时,RetNet的性能开始超越Transformer。


报告3:

报告人:梁晋熙(硕士生)

指导老师:谭恒良

报告题目:基于协同表达的图像集分类的流形学习研究

在本次组会上,梁晋熙同学首先介绍了流形学习的相关背景知识,然后介绍了基于本次工作的基准模型Symnet,阐述回顾了这个网络架构的主要实现过程和主要贡献。针对这篇文章的工作,提出了该工作的不足之处。接着他介绍了一篇基于特征值正则化应用于于人脸分类的一篇文章,这篇文章主要将特征值空间分为三个空间:可靠子空间、噪声空间、零空间并分别对各自的特征值进行正则化;第二篇文章是将协同表达方法运用到SPD流形上实现图像集的分类。该同学也从这两篇文章中获取了想法,对Symnet模型进行了改进。最后在四个数据集上进行了初步的的实验。对于本次提出的工作,各位老师也给出了宝贵的建议,为后续进一步提高网络模型性能提供了重要的参考价值。


报告4:

报告人:马扬(硕士生)

指导老师:王艳

报告题目:社会推荐相关论文

在本次组会上,马扬同学首先介绍了推荐系统的相关背景知识,然后细化到社会推荐这一小方向上。介绍完背景知识,就从其中一篇论文的模型出发分别介绍了社会推荐模型常见的三个网络层次(嵌入层、传播层、预测层),首先他介绍了嵌入层就是对用户和项目结点的初始化使模型的后续有值可以进行更新,其次就到了传播层,也就是此类模型的关键部分,文中利用了池化的操作对用户的邻居结点进行了收集,同时通过设置深度K来达到想要的层数,以达到最好的效果同时避免过拟合的现象。最后则是预测层,在得到更新后的用户以及项目embedding之后计算他们内积得到一个得分,将得分进行排序从而得以预测。该同学介绍的第二篇论文则是在第一篇的基础上传播层用户embedding的更新加入了用户—项目图,而不在是只利用用户社交图,其中二图的融合操作也是该论文的创新点,通过后续的消融实验证明了融合操作的高效性以及高准确性。对于两篇论文来说,损失函数都是推荐系统中经典的BPR损失,通过扩大正样本以及负样本之间的差距来优化推荐内容,正则化项则是控制初始化的可学习矩阵的复杂程度以及传播层中线性变换矩阵的复杂程度,实验表明第一篇论文的效果由于不适用社交图的推荐系统,第二篇论文的实验表明效果由于第一篇只使用社交图的社会推荐的推荐系统。