无监督特征学习——Unsupervised feature learning and deep learning

无监督学习近年来很热,前后应用于computer vision, audio classification和 NLP等问题,经过机器进行无监督学习feature获得的结果,其accuracy大多明显优于其余方法进行training。本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning by Andrew Ng作出导论性讲解。php


关键词:unsupervised learningfeature extractionfeature learningSparse CodingSparse DBNSparse MatrixComputer VisionAudio ClassificationNLPhtml


Unsupervised feature learning and deep learning 是斯坦福大学机器学习大牛Andrew Y Ng. 近年来研究的主要领域,他在今年的一份工做Building high-level features using large scale unsupervised learning中就经过unsupervised learning解决了从only unlabeled data上创建高维feature detectors的问题。算法




=========================第一部分:传统方法Pattern Recognition=========================dom


一般的,咱们进行pattern recognition是这样的:机器学习


对于不一样类别的feature extraction都是必备的一部分,computer进行detection的 perception就是这样的:ide



下面分别就这三类问题,<Object detection><Audio Classification><NLP>进行经典feature回顾:函数








人类的视觉系统、听觉系统 应该说是很是之complex,若是想要得到咱们视觉系统看到的东西(computer perception),有两种方法:学习

一种方法就是描述出咱们的视觉系统在观察object的时候提取的那些特征(好比各类不一样物体间的parts在2D、3D中的内容,是哪些特征让咱们看出物体的区别,object parts之间的链接关系等)。测试

另外一种方法更为general,咱们可否挖掘出一个general 的 算法,它能够揭示大多数perception的造成(换言之,就是揭示一种人眼从看到识别出的算法)。ui

不知道这里我讲明白没?

没的话能够参考下下面两段:

We can try to directly implement what the adult visual (or audio) system is doing. (E.g., implement features that capture different types of invariance, 2d and 3d context, relations between object parts, …). 
Or, if there is a more general computational principal/algorithm that underlies most of perception, can we instead try to discover and implement that?  

对于下面的audio,和图像是同样的道理,咱们能不能用一种算法学习出其feature,对一幅图像或者一段audio进行描述?



对于图像,最直观的描述方法及就是用pixels,传统的方法为supervised learning, 给定一组正样本和一组负样本,经过提取feature训练进行学习,并进行识别测试:


不一样于有监督学习,Unsupervised learning经过训练一些列有label的和无label的数据集学习一幅图像中的feature(学习出什么样的feature是motocycle的,什么样的feature是car的)……



那么,怎样学习有哪些feature呢?下面先介绍unsupervised learning中的一种方法——Sparse Coding,读者能够试着和前面我讲过的压缩感知系列相结合来想一想看。





=================第二部分:Sparse Coding——A unsupervised learning Algorithm=================

Sparse Coding 是 Unsupervised Learning Algorithm中的一种,能够用于Feature learning.



下面是我对Sparse Coding的解释,作的笔记……



用Sparse Coding的例子进行说明。

好比在图像的Feature Extraction的最底层要作Edge Detector的生成,那么这里的工做就是从Natural Images中randomly选取一些小patch,经过这些patch生成可以描述他们的”基“,也就是右边的8*8=64个basis组成的basis(具体选取基的方法能够参考个人两篇文章——压缩感知初识压缩感知之HelloWorld),而后给定一个test patch, 咱们能够按照上面的式子经过basis的线性组合获得,而sparse matrix就是a,下图中的a中有64个维度,其中非零项只有3个,故称”sparse“。


这里可能你们会有疑问,为何把底层做为Edge Detector呢?上层又是什么呢?这里作个简单解释你们就会明白,之因此是Edge Detector是由于不一样方向的Edge就可以描述出整幅图像,因此不一样方向的Edge天然就是图像的basis了……

而上一层的basis组合的结果,上上层又是上一层的组合basis……(具体请往下看)

以下图所示:


其余的例子同理:注意看下面的文字(第二条)


下图所示为从为标号的audio上学习出的20个基函数(如小波变换):






===================第三部分:Learning Features Hierachy & Sparse DBN===================

所创建的自动feature学习过程是一个自底向上逐渐学习features的sparse coding过程:




以Sparse DBN:Training on Faces为例,这里从下向上依次是上图的hierarchy的Input Image,Model V1(Edge Detector),Model V2(Object Parts),Model V3(Object Models),具体讲解见下面我作的笔记:


下面是对上图的解释,请对照着看:

图中所示最下方的24个basis function用于Edge Detection, 好比最左上角的那个基用于检测85°的edge;

中间的32个基(Object Parts)分别是 eye detector, nose detector……其之因此为基是由于,一张face可有这些parts组合而成;

最上面一层的24个基就是face model了。


==========================

在不一样object上作training是,所得的edge basis 是很是类似的,但object parts和models 就会completely different了:


当训练数据由4类图像组成时,上层提取出的feature会不一样,最终生成的object model也会包含4类图像特定的模型:


下图是动做识别上,不一样算法的准确率比较:


Sparse DBN on Audio同理,对于一个Spectrogram,逐层提取feature过程以下图所示:









===================第四部分:技术问题——Scaling Up===================


进行Pattern Recognition的一个重大问题就是特征提取,而上面这幅图中咱们能够看出不一样算法在Features数目不一样的状况下,其交叉验证(Cross Validation在ML第六课中讲过)的Accuracy,可见feature越多,给出的参考信息越多,所得accuracy通常越好。那么,有哪些方法进行feature的挖掘使得scaling up呢?有兴趣的能够研究研究,互相交流下哈!







===================第五部分:Learning Recursive Representations===================

这部分咱们主要以NLP为例,看一下怎么样递归的进行语义分析,天然语言组成:

首先咱们看下用多维向量(图中简化为2维)表示一个单词的形式:



一句话:The cat sat on the mat. 进行自底向上的feature学习,能够发现,有的neuron上有意义,如图中箭头所指的那个neuron就不make sense.



training process:Parsing a Sentence



就这样recursively选择make sense的neuron成为该层新的神经元:



咱们在每层选取有意义的神经元后创建起最终的句型:



好了,说完了NLP的parsing sentence问题,咱们回头来看image processing(IP), 其实,他们的道理相同,都是找到make sense的小patch再将其进行combine,就获得了上一层的feature,递归地向上learning feature。该图中,上面是NLP,下面是IP。





===================小结===================

最后咱们对Unsupervised feature Learning作一个小结:

•  Features 由 机器学习,而非人为指定

•  找到perception下隐藏的feature基

•  Sparse coding 和 deep learning在CV和Audio Recogization上的识别率很是好,几乎是state of art的程度。




Reference :

http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial

Deep Learning

Sparse DBN (Deep Belief Nets)

A tutorial on Deep Learning