元学习——meta-learning

时间 2021-01-01

前言

称不上多熟悉这个领域，毕竟还没有系统调研。最近读了两篇论文，权当总结。

学习优化器

简介 : 在这种方法中，一个网络（元学习器meta-learner）学习更新另一个网络（学习器learner），以便学习器高效地学习任务。为了更好地优化神经网络，人们对这种方法进行了广泛的研究。元学习器通常是循环网络，以便记住之前是如何校正学习器模型的.
论文：OPTIMIZATION AS A MODEL FOR FEW-SHOT LEARNING, ICLR 2017
创新点: 提出一个基于LSTM的meta-learner模型,学习优化learner, 来提高在few shot领域的分类性能.

什么是few shot learning? 从字面意思看,就是少镜头任务学习. 什么意思呢? 之前我们的分类任务总是有大量的数据集, 事实上,我们人类学习就不需要海量数据.比如人类可能看到几张狗和猫的照片,就可以判断新照片属于狗还是猫. 人类的这种行为才能真正称得上是智能. few shot就是解决少量数据集的学习方法. 在本篇论文中,我们试图从非常少的标记数据中学习如何分类. 我们有一个数据集合(darasets),但是里面的每一类数据都只有很少的样本(example)
什么是meta-learning? 将上述学习问题分为两个任务, 第一个任务是在单独数据集中快速获取知识, 第二个任务是为了指导第一个任务, 即慢慢地提取所有任务中学习到的精华. 元模型是为了更好地泛化和适应新问题.
少量样本的梯度下降存在问题. 少量样本意味着梯度下降的次数有限,对于非凸的情况下, 得到的模型必然性能很差.此外,对于每个单独的数据集而言, 神经网络每次都是随机初始化, 在若干次迭代后也很难收敛到最佳性能.

上图表示元学习的训练构成. 这里是一个1 shot 5way的方式. 每个训练集有五个类别图片,每类图片只有一个样本.
本文的关键是如何把梯度下降和LSTM更新联系起来

虚线左侧是训练样本,右侧是测试样本. LSTM的梯度更新发生在测试样本产生loss之后.