浙江大学创新软件研发中心

InnovativE SoftwAre TechnoloGy DeveLopment CentEr, EAGLE-Lab

 

喜报:EAGLE-Lab多篇高质量论文被顶级国际期刊录用

近期,EAGLE-LAB张利军、郑淼、吴昊等同学的学术论文分别被IEEE Transactions on Pattern Analysis and Machine Intelligence、IEEE Transactions on Image Processing和Pattern Recognition三个高水平国际期刊录用。
科研特区博士生张利军同学的论文《Active Learning based on Locally Linear Reconstruction》被顶级期刊IEEE TPAMI录用。IEEE TPAMI是计算机视觉及模式识别领域的顶级期刊。在许多实际应用(如图像检索、生物信息学、卫星遥感)中,未标注数据很容易获得,但用户标注却费时费力。主动学习研究如何选择最具信息量的点来标注,从而尽可能地减少数据标注的代价。主动学习的核心问题是如何衡量未标注点蕴含的信息量。在众多的衡量标准中,选择代表性(Representativeness)这一准则。近年来,基于最优化实验设计(Optimum Experimental Design,OED)的主动学习引起了研究人员的广泛关注。传统的OED方法是基于线性回归模型,目的在于最小化参数或预测值的方差。但是,这些方法仅仅考虑了数据空间的全局欧式结构,忽略了局部的流形结构。为解决该问题,我们提出了一种考虑数据空间局部结构的主动学习算法。具体地,我们要求每个数据点只能由其邻近点来线性重构。给定所有点的局部重构系数和部分样本点的坐标,我们提出了一个直推式学习算法(Transductive Learning Algorithm),即局部线性重构(Locally Linear Reconstruction,LLR)来重构整个数据集。这样,最具代表性的点被定义为那些能够通过LLR最准确地重构整个数据集的点。我们提出了一个连续贪婪算法和一个凸优化松弛算法来解决相关的优化问题。最后,在人脸识别、手写体识别、图像分类等实验上验证了算法的有效性。
科研特区博士生郑淼同学的论文《Graph Regularized Sparse Coding for Image Representation》被顶级期刊IEEE Transactions on Image Processing录用。IEEE Transactions on Image Processing是图像处理领域的顶级期刊。数据的稀疏表达方式能更好的表示数据特性,也能更方便的进行数据操作,该类表达方式在机器学习、信息检索、数据挖掘、生物学等领域已经得到了广泛应用。稀疏编码(Sparse Coding)通过学习一组用来捕捉数据潜在的高层语义特征的基向量,并用该组基向量来学习得到数据的稀疏表达,目前已有许多研究工作是基于数据的稀疏编码进行图像去噪、图像分类等。传统的稀疏编码方法仅仅考虑数据空间的欧式结构,而没有考虑到数据的流形结构,在本文中,我们提出了一种基于图的稀疏编码方法(Graph Regularized Sparse Coding),通过构建数据的近邻图来捕捉原始数据在原始空间的相对位置关系,使学习数据稀疏表达的过程中保持数据在原始空间的相对位置关系,即:原始空间相近的两幅图像,它们学习得到的稀疏表达也应该相似。这样可以使得学习得到的数据稀疏表达更加平滑,区分度更强。最后,我们分别在图像聚类和图像分类任务中验证了算法的有效性。
科研特区硕士生吴昊同学的论文《Locally Discriminative Topic Modeling》被计算机模式识别领域的重要期刊Pattern Recognition录用。自动数据分析的方法和技术在许多领域,包括数据挖掘,机器学习,模式识别和信息检索等各个领域都有很广泛的应用。Topic Modeling方法作为比较代表性的数据分析方法,在最近几年得到了研究界的许多关注。Topic Modleing可以提供文档集合的主题描述,语义上可被人们解释;同时,其可以保持文本数据之间的关系,帮助文本分类和索引。比较有代表性和最为广泛应用的Topic Modeling方法包括Probabilistic Latent Semantic Analysis (PLSA) 和 Latent Dirichlet Allocation (LDA)。虽然它们的假设不同,但都是生成(generative)模型,而没有考虑到文档的区分(discriminative)结构。在本文中,我们提出了Locally Discriminative Topic Model(LDTM),同时考虑了生成结构和区分结构。同时,运用Local Learning的方法使得每个文档的主题分布(topic distribution)相关于它的近邻。这样,学习得到的主题分布对应于数据的流形结构更为平滑,加强了模型的数据分类能力。最后在News文本聚类和Web数据分类实验中证明了算法的优越性。
高质量期刊论文的连续录用说明实验室在计算机多个领域奠定了一定的研究基础,更进一步具备了在高水平国际期刊上发表论文的能力。