近日,本实验室软件工程专业2021级博士研究生薛艳芳同学在机器学习领域顶级会议 Annual Conference on Neural Information Processing Systems (NeurIPS), 2023 上发表题为“CosNet: A Generalized Spectral Kernel Network”的研究论文。此研究在实验室副主任薛晖教授以及方鹏飞副教授的指导下完成。
该研究关注在如何通过引入复数以提升深度谱核的表达能力。研究团队发现,尽管深度谱核已经表现出优越的数据表示能力,但为了得到实值的核函数,以往的研究者们通常通过一定的技巧消除谱核的虚部,甚至直接对其进行忽略。为了保持谱核中的虚部,研究团队设计了一种泛化的谱核网络结构,以提升谱核网络的表示能力。此外,研究团队还设计了一种初始化策略,能够在不增加层数的情况下保持复谱核的表示形式。该团队不仅在理论上证明了所提出复谱核优秀的表示能力和较小的泛化误差界,在各类实验上也全面地证明了复谱核的优越性。
此外,本实验室计算机科学与技术专业2023级研究生吴泳良同学在机器学习领域顶级会议
Annual Conference on Neural Information Processing Systems (NeurIPS), 2023 上发表题为“Exploring Diverse In-Context Configurations for Image Captioning”的研究论文。此研究在实验室副主任杨旭副教授的指导下完成。
该研究聚焦于如何通过优化配置来提升视觉-语言(VL)领域中的在上下文学习效能。研究团队发现,尽管语言模型(LMs)已展现出优秀的少样本学习能力,但在VL领域,研究者在配置在上下文图像-文本对时通常仅采用最简单的方法,即随机抽样。为深入探索不同配置对VL在上下文学习的影响,他们设计了四种图像选择策略和四种标题分配策略,用以配置在上下文图像-文本对,以图像标题生成任务为案例进行研究。通过全面的实验,他们获得了两个反直觉但有价值的见解,突显了由于多模态协同作用而导致的VL在上下文学习与自然语言处理(NLP)情境的存在较大不同的特点。
论文链接:https://arxiv.org/abs/2305.14800