时间: 2024年6月25日 下午2:00-5:20
地点:荔湾研究院202会议室 , 广州大学 (大学城校区) 理科南314#
报告1:
报告人:邓权威(硕士生)
指导老师:彭伟龙
报告题目: Learning Privacy-preserving Optics for Human Pose Estimation
本次组会上,邓权威同学汇报了论文《Learning Privacy-preserving Optics for Human Pose Estimation 》,即对于人体姿态估计,学习隐私保护光学。
该研究的创新点有两个,(1)引入了一个隐私保护的端到端的优化框架,从场景中提取有用的信息,但防止成像系统获得详细的和隐私敏感的视觉数据;(2)利用端到端优化框架,我们优化了带有软件解码器(卷积神经网络)的光学编码器(硬件级保护),为HPE添加了视觉隐私保护层,适当地参数化,可以优化相机透镜的点扩散函数(PSF),降低或抑制私人属性,以执行人体姿态估计。邓权威同学详细的介绍了论文的动机、模型公式和实验。最后,邓权威同学做了总结,这篇论文的主要贡献是提出了一个隐私保护的端到端的优化框架。通过实验验证,该方法模糊后的照片上进行了姿态估计,证明了其有效性。此外,该方法还具有较好的可扩展性,可以应用于不同的领域和任务。

报告2:
报告人:刘佩(硕士生)
指导老师:王艳
报告题目:Prompt-enhanced Federated Content Representation Learning for Cross-domain Recommendation
本次组会上,刘佩同学汇报了论文《Prompt-enhanced Federated Content Representation Learning for Cross-domain Recommendation》,即用于跨域推荐的快速增强联合内容表示学习。
该研究的创新点有三个,(1)隐私保护:通过联邦学习(FL)架构,仅利用用户与本地客户端的交互,并采用梯度加密方法,以保护用户隐私;(2)统一特征空间:通过描述文本对项目进行建模,以在统一的特征空间中表示项目,从而促进跨域知识转移;(3)无需重叠用户:通过自然语言的普遍性,初步学习联邦内容表示,建立域之间的桥梁,无需知道域之间的重叠用户。刘佩同学详细的介绍了论文的动机、模型公式和实验。最后,刘佩同学做了总结,这篇论文的主要贡献是提出了一种基于提示增强的联合内容表示学习方法,用于改进跨域推荐系统的性能。通过实验验证,该方法在多个跨域推荐任务上取得了显著的性能提升,证明了其有效性。此外,该方法还具有较好的可扩展性,可以应用于不同的领域和任务。

报告 3:
报告人:史宇杰(硕士生)
指导老师:汪洋涛
报告题目: Long-range Meta-path Search on Large-scale Heterogeneous Graphs
本次组会上,史宇杰同学汇报了论文《Long-range Meta-path Search on Large-scale Heterogeneous Graphs》,即在异构图上的长元路径搜索
该研究的创新点是引入了一种新型的渐进采样算法来动态减少搜索空间,以及一种用于元路径选择的采样评估策略。该研究搜索到的元路径不仅使其性能超过现有的HGNNs,而且在其他HGNNs上也是有效的。此外,LMSPS搜索的元路径使其能够在大规模数据集上高效利用长距离依赖。史宇杰同学详细介绍了该研究的网络结构、消融实验结果和模型效果。最后,史宇杰同学总结了这篇论文的主要贡献和局限性。这项工作提出了通过渐进采样的长元路径搜索方法,以解决在大规模异构图中利用长元路径信息的挑战,即降低计算成本,同时有效地利用信息和解决过平滑问题。但是从广泛的搜索空间中确定少量的有效元路径仍然是一个有挑战性的问题,即利用更长的元路径的优点不足以弥补更具挑战性的搜索空间的相关缺陷。并且元路径的最大跳数仍不能自动确定。

报告 4:
报告人:殷巧巧(硕士生)
指导老师:彭伟龙
报告题目:EmoTalk:Speech-Driven Emotional Disentanglement for 3D Face Animation
在本次组会上,殷巧巧同学分享了一篇2023年ICCV会议上的一篇文章,这篇文章实现的目标是给定表达不同情绪的音频输入,EmoTalk会生成逼真的3D面部动画序列,并输出相应的情绪表情。首先,殷巧巧同学介绍了关于这篇文章的研究背景,主要包括语音情感识别和Blendshape到FLAME变换的背景知识。接下来讲述了这篇文章的实现方法,整体架构是给定语音输入 A1:T、情感水平 l 和个人风格 p 作为输入,模型使用两个潜在空间来解开语音中的情感和内容。从这些潜在空间中提取的特征被组合并输入到情感引导的特征融合解码器中,该解码器输出情感增强的混合形状系数,这些系数可用于对 FLAME 模型进行动画处理或渲染为图像序列。接着,她详细阐述了情感解开模块和情感引导的特征融合解码器的实现原理,情感解开模块的主要思想是将内容和情感特征结合起来以再现语音的两个方面,从而强制解开内容和情感特征之间的关系。将语音中的情感解开之后,接下来用情感引导的特征融合解码器模块将音频中的情感信息映射到3D面部动画系数,为了从融合特征生成 3D 混合形状系数得到情绪增强的混合形状系数,采用了一个类似于 Transformer 解码器的模块。最后,殷巧巧同学通过定性分析和定量分析方法展示了这篇文章表现的优点和局限性。
