Manifold regularized discriminative feature selection for multi-label learning（基于流式正则化判别多标记学习的特征选择）

时间 2021-05-12 标签 Multi-label learning 机器学习

论文大纲：

背景
特征选择的方法
详细介绍MDFS方法
实验结果分析
讨论和结论

背景：

在多标签学习中，对象本质上与多个语义相关，数据类型同时面临高特征维数的影响，如生物信息学和文本挖掘等应用。为了解决学习问题，提出了特征选择这一关键技术来降低维数，而以往的多标签特征选择方法大多是从传统的单标签特征选择方法中直接转化而来的，或者是在标签信息的开发过程中半途而废，从而导致了多标签特征选择方法的不足所选特征子集中涉及的冗余或无关特征。针对多类标签间的差异特征，提出了一种基于流形正则化的嵌入式多标签特征选择方法。具体来说，在原始特征空间的基础上构造低维嵌入，以适应标签分布，以局部捕捉标签相关性，同时考虑标签对的共现关系，利用标签信息进行约束。根据这一原则，我们设计了一个包含L2，1-范数正则化的优化目标函数来实现多标签特征选择，并保证了收敛性。对不同的多标签数据集的实证研究表明，该方法与现有的多标签特征选择方法相比具有很强的竞争力。

特征选择的方法：

特征选择是一种高效的降维工具，而从选择的策略角度来看，可以将特征选择划分为三类：

过滤方法：该方法是在分类前生产特征排序，该排序是基于数据的某些特征，例如特征的相关性等。
包装器方法：该方法是包括与现成分类器的交互，而分类器的性能被视为评价所选特征子集的指标。
嵌入式方法：该方法是直接将特征选择的过程作为分类器训练的一部分。

MDFS方法介绍：

首先，我们基于流形假设将原始特征空间映射到低维嵌入中。由于两个实例在低维嵌入中更相似，而在原始特征空间中彼此更接近，因此捕捉局部标签相关性来指导特征选择过程。其次，进一步利用低维嵌入构造基于标签信息的流形正则化器，从而有利于全局标签相关性的开发。最后，利用局部和全局标签相关性，对多标签学习进行流形正则化判别特征选择。

X:为特征矩阵

F:从特征矩阵X引出的低维嵌入矩阵

实验结果分析：

实验评价指标：

数据集：

实验对比：

从图我们可以得出结论，MDFS可以获得与MCLS、MSSL、GLOCAL、LLSF、GMBA、MIFS、MDMR和RFS具有高度竞争力的性能。而MDFS与MDFS-o在所有指标能没有明显的差异，但在某个上，MDFS的排名高于MDFS-o。

讨论和结论：

本文介绍了一种新的多标签特征选择流形正则化优化框架。该优化框架具有两个很有吸引力的特性。首先，利用流形正则化方法，从原始特征空间生成低维嵌入，用于局部和全局标签相关性的开发。其次，将L2，1-范数正则化引入学习框架，采用特征选择过程，对多标签学习中的判别特征进行搜索。针对上述目的，提出了一种求解凸性优化问题的高效交替优化算法。通过对各种真实世界多标签数据集的实证研究，验证了该方法的有效性。与其他一些最新的多标签特征选择方法相比，该方法在性能上具有优势。通过参数屯垦，通过解析标签相关性，该方法的性能得到了普遍的改善。在未来，为研究高阶关联策略有意义的研究方向，同时也将探讨如何结合标签相关信息进行弱监督多标签学习的特征选择。