近两年小样本学习取得重大进展了吗?

链接:https://www.zhihu.com/question/439865186

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

2020年小样本学习可谓如火如荼,我从2020年六月份入坑小样本,顶会论文越看越懵,请问各位,2020年到2021年初,小样本学习有里程碑意义的成果吗?

作者:ICOZ
https://www.zhihu.com/question/439865186/answer/1747593000

当然。

如果你只是focus在小样本分类的那几个benchmark上,那的确看起来很局限。事实上小样本学习的应用可以是很广泛的, 其中的研究思路也可以对其他领域产生启发。这两个方面展开说可以写很多。

随便举几个例子,很多相关的问题都可以看做小样本学习,比如图像检索,人脸识别验证,行人重识别。都是直接依据少样本来做预测。对于这些更具体的task,往往区别在于数据的类型和评测指标,比如few shot learning benchmark上的数据类别更强调语义,而且上面的几个例子里的数据可能是一些更细粒度的特征。

小样本的研究思路同样会给相关领域带来启发。比如小样本学习里的metric based的方法 (Prototypical Network, Matching Network, DeepEMD等)带来的启发就是如何表示fully connected layer里prototype,这样便可以迅速获得一个classifier来用于训练。这样思路用在其他领域也相当有效。

比如在这篇Distilling Cross-Task Knowledge via Relationship Matching:https://openaccess.thecvf.com/content_CVPR_2020/html/Ye_Distilling_Cross-Task_Knowledge_via_Relationship_Matching_CVPR_2020_paper.html里, 在跨数据集的任务里蒸馏知识,label space不一样,预测的logits不一样怎么办。 就可以利用其中一个数据集的backbone到另一个数据集里用prototype的思想迅速获得classifier来训练。这种data relation也可以作为knowledge,同feature/logits一样,可以被distill。  最近也有将类似思路用在蒸馏self-supervised 模型,这种情况下没有label只有data embedding,也可以看做一种特殊的小样本情形。同样,小样本学习里,固定住backbone只调整prototype的做法直接搬到long tail classification问题里就可以取得SOTA的结果。

类似地,如果把小样本学习看做是一种conditional prediction模型的话,那又可以和大量领域建立联系。比如小样本分割领域经常会把support数据当做conditional input来预测,这和style transfer,group segmentation等任务又十分相似。比如如何更好的融入conditional input的信息?可以是在feature 上concantenate ,可以是pixel level attention,可以是style transfer里经常用的AdaIN,可以用上graph来propagate信息,等等等。这些任务的learning方法都可以互相借鉴。 又比如,小样本里的数据可以被拆分成很多更小的数据,就像style transfer的工作里强调了一些局部的style, DeepEMD里使用local region feature来做分类,PGnet里把小样本分割数据表示成graph来传递信息。

总的来说,参考目前的 few-shot classification leaderboard:https://few-shot.yyliu.net/miniimagenet.html,即使是最简单的few shot分类问题还是有很大的研究空间的。其他的setting下,比如transductive learning, large scale, cross domain,fine-grained, open set 下也有很多task specific的算法,也都很有研究价值。

作者:杨朔
https://www.zhihu.com/question/439865186/answer/1683322623

要想较好的解决少样本学习这个问题,甚至达到与多样本学习相近的性能表现,就需要思考造成少样本学习如此困难的本质是什么。

是因为少样本导致经验风险最小化不可靠?少样本导致深度模型极易过拟合?或者是极少的样本无法反映真实数据分布?

针对“少样本无法反映真实数据分布,所以导致模型过拟合”这个现象,我们最新的一篇工作试图利用有限的样本去估计潜在的真实数据分布,并且实现了还不错的效果。

杨朔:ICLR2021 Oral |利用一个样本估计类别数据分布 9行代码提高少样本学习泛化能力https://zhuanlan.zhihu.com/p/344531704

我觉得这是一个有趣的方向,假如该分布估计足够准确,少样本和传统多样本学习还存在很大的差别吗?


作者:木大木大
https://www.zhihu.com/question/439865186/answer/1713991892

没啥进展,数据多点干不过直接预训练的模型提特征做比对,one-shot 就靠transductive ,weakly supervised变相改变测试流程和引入测试数据改变模型,不讲武德, meta learn变相过拟合测试流程, 天天刷 mini imagenet,针对数据集badcase微调特征提取细节。整个数据集测试方法问题定义和实际应用差距十万八千里


作者:知乎用户
https://www.zhihu.com/question/439865186/answer/1713882405

小白自问自答一波~

我认为小样本学习目前取得了一定的进展,但是还主要处于百家争鸣的阶段。不论是任务的合理设置和扩展,数据(训练数据、测试数据、额外数据等)的引入和使用,还是具体的解决思路,都还处于探索的阶段。而且目前视觉的小样本学习还没有一个基于实际应用场景的任务设置或数据集。

从AAAI2021的一些论文来看,目前的小样本图像分类,有很多研究者将目光投向图像数据信息的充分利用和挖掘上。因为本身小样本的数据很少,所以如何从图像中得到关键的特征,减少噪声特征的干扰,就更加显得重要(而且mini-ImageNet数据集个人认为存在着一些不合适的样本或者说难度过大的样本,例如强遮挡、同一张图多个物体等)。结合CAM、注意力机制、使用局部特征和全局特征结合,可能都是解决途径。这方面一个典型的方法我认为莫过于CVPR2020的DeepEMD([2003.06777] DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning (arxiv.org))https://arxiv.org/abs/2003.06777了。

我整理了一下目前可以找到pdf的AAAI2021的小样本论文,供大家参考:https://zhuanlan.zhihu.com/p/349131932

作者:赵俊博 Jake
https://www.zhihu.com/question/439865186/answer/1734654426

现有的小样本学习的benchmark和数据集,基本围绕在实现AGI这个目标上面。

以Lake et al.开发的omniglot为例,通过小样本学习来实现复杂象形文字的识别。但是说真的,这东西我们人看上去都不知道是什么 — 它距离实际应用有点远。

其实在工业界中真正有意义的小样本学习场景有很多。

我举个例子。在化学反应这个场景下,专业人员的最终目标是提升某种产物的产率。这里面的搜索空间的关键变量包括各种反应物,反应物的质量,催化剂,反应条件(包括湿度、温度等等)。而可用的数据是多少呢?可能是零。

你不要以为我在开玩笑,正经的应用其实数据就是零。在工程实施的环节,一般的流程是专家通过实验的方式积累一些数据,可能也就几十个。有意义的人工智能这里要做的是用过这几十个数据,对剩余的搜索空间进行一个搜索(其他的反应物、催化条件、反应条件等)。如果说搜索空间最终的高产率是个很小的子空间,那么初期的数据往往是低产率的数据。之后通过模型推荐出来的组合之后再做一批实验,之后融入到训练集里,反复上个流程。

这里就有了个非常有意思的小样本学习的问题,如何用产率很小的数据来预测高产率的反应组合?或者是这里的训练集是有偏的,它们的产率往往很小,距离最终的最优子空间的距离很远。

我没有谈要用什么方法来做这个,不管是监督学习(分类啊 回归啊啥的),还是元学习(maml啊之类的),或者其他的什么方法。这些暂时还不是那么重要。

可能在我们这个bubble里面,我们已经习惯了那种反馈很快的环境(比如说alphago,模拟一遍就出来结果了)。在这个场景下,一批数据的获取可能要花上几天甚至几周的时间。类似于这种情况的还有各路生物、材料等等场景。我认为凡是数据获取周期很长,成本不低的场景下,都是一个又一个鲜活的有意义的小样本学习问题。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1618802.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

项目——基于Oracle实现一个简易版的教务系统

一、背景知识 本教务系统用户分为,学生,教师,系主任,管理员。学生具有选课功能,管理员具有排课功能。对于排课与选课考虑了简单的冲突检测,如下: 根据老师教学课表,为教学班所有的…

2022谷歌博士奖学金名单公布:共61人获奖!

来源:机器之心 谷歌博士奖学金(Google PhD Fellowship)旨在奖励在计算机科学等前瞻科研领域表现优异的年轻学者,奖学金用于直接支持攻读博士学位,并提供与谷歌研究导师合作的机会。 自创立以来,该项目已经资…

STM32+CubeMX 通过RMS和FFT进行波形识别

波形识别 本文所展示的程序可以用于分辨正弦波、三角波、方波三种波形。 文章目录 波形识别思路可以判断波形的两个特点时域方面频域方面 外设配置 & DSP库配置代码部分串口重定向时域部分变量定义ADC采集求最大值,最小值,幅值取出波形的一个周期求…

2022秋软工实践 团队展示与选题报告

这个作业属于哪个课程Fzusdn这个作业要求在哪里2022秋软工实践 团队展示与选题报告这个作业的目标群策群力初步完成项目设计,有效交流带来团队友好氛围团队名称小心肝队组长学号042003121组员1学号032002221组员2学号032002343组员3学号032002401组员4学号032002422…

【英语】大学英语CET考试,词汇语法50h+(导学方法论,词汇3关键,语法3大山)

文章目录 1、谭剑波-词汇直播课1-2(词汇学习3个关键)1.1 看不懂句子的原因(词汇的重要性)1.2 记不住单词的原因(死记硬背70%)1.3 理解单词的本质(词根词缀,26字母,联想辅…

杨朔:大数据时代的移动营销

2019独角兽企业重金招聘Python工程师标准>>> 杨朔:大数据时代的移动营销 惠莫森中国区总经理杨朔表示,大数据本身强调的可能是大,但我们强调的是有用的数据。对于庞大的数据处理,我们提倡从小做起。所谓“小”便是移动…

详解ACM基础算法—DFS深度优先搜索算法 HIT杨朔

深度优先搜索(DFS)是搜索手段之一。是从某个状态开始不断转移状态直到无法转移为止,然后退回到前一步状态继续转移其他状态,可以想象为一个沿树爬行的虫子,在一个交叉口他会首先随机选择一条分岔路口一直走下去直到死路…

【调试经验】Ubuntu22.04 安装和配置MySQL 8.0.34

在安装新版本的MySQL到电脑时,按着网上一些教程执行发现错误繁多,最后索性自己摸索并把服务装好了。自己也整理了一下在操作时的一些,上传分享上来希望能帮助到大家。 目录 正文 安装MySQL 配置MySQL 登录账户 方式1: 默认账户登录 方…

Illustrator打开visio导出的emf为什么会报错

问题描述 将使用Visio绘制的.emf文件直接拖入Adobe Illustrator有时候会弹出如下报错窗口——“无法完成操作,因为出现未知错误。” 原因分析 经过多次测试,发现这个跟Visio中元素的数量有关,当数量>24或>27(差不多就这…

加密狗检测不到mysql_广联达检测不到加密锁

请先检查本机是否已正确安装广联达软件及加密锁驱动程序,盗版用户还需要安装一个“授权工具”。 碰到此问题,着实让人头疼。偶本人表示已经碰到很多次,有句古话:久病成医(有这句话?)。现将解决方法记录如下&#xff1a…

【教程】广联达装饰设计(Deco Design)软件模型导出

【教程】广联达装饰设计(Deco Design)软件模型导出 首先确认自己的模型是正常,并且可以显示,包括家具(不管是外部还是内部)。选择工具 - 显示设置 - 楼层显示 - 自定义楼层-全部楼层。 开始-导出-Igms即可…

并发编程基础知识篇--线程的状态和基本操作

目录 创建线程的四种方式 线程的状态和生命周期 扩展知识 线程的调度 线程状态的基本操作 interrupted 实例 join 实例 sleep 实例 扩展小知识 yield 实例 扩展 创建线程的四种方式 创建线程的四种方式 继承Thread类实现Runnable接口使用Callable和Future创…

win7笔记本无线网服务器,win7笔记本连接不上无线网络

有些时候我们在使用win7笔记本,难免会遇到连接不上无线网络的情况,这是怎么回事呢?下面就由学习啦小编来为你们简单的介绍win7笔记本连接不上无线网络的解决方法吧! win7笔记本连接不上无线网络的解决方法 Win7右下角的无线图标为但还是连接不上的话&am…

win7计算机建立无线网络连接不上,教你电脑连接不上无线网络怎么办

最近有网友反馈,遇到了笔记本无法连接无线网络的问题。笔记本如果连接不了WiFi,这样就会带来很多不便。其实导致电脑连接不上无线网络的原因有很多,接下来就让小编教你电脑连接不上无线网络怎么办吧。 电脑连接不上无线网络怎么办&#xff1a…

Win10电脑连接不上无线网络怎么解决

为了电脑使用方便,很多网友都会给电脑连接上无线网络来上网,但是电脑遇到连不上网络怎么办呢?今天给大家分享一个方法,大家遇到无线网络连接不上问题可以参考一下。 系统:win10专业版 电脑:联想Ideapad 7…

Win10笔记本电脑连接不上WiFi的解决办法

笔记本电脑连接不上WiFi是很多朋友会遇到的一个问题,而产生的原因也很多,解决起来相对麻烦一些,需要了解导致的原因与排查方法。最近小编的Win10笔记本电脑也遇到了类似的无线网络连接不可用的问题,不过通过排查很快就解决了,下面小编分享一下详细的Win10笔记本电脑连接不…

禁用计算机的网络连接无线网络连接不上,win7笔记本电脑无线网络连接不上怎么解决?...

最近有不少网友都遇到了win7笔记本电脑无线网络连接不上的问题。我们都知道,无线网络是可以共享的,笔记本无线网络连接不上,我们就无法有进一步的操作了。那么,win7笔记本电脑无线网络连接不上怎么解决呢?接下来,小编…

深度学习怎么学?

推荐这本小白看的《深度学习:从基础到实践(上下册)》。 深度学习:从基础到实践(上下册) 深入浅出的讲述了深度学习的基本概念与理论知识,不涉及复杂的数学内容,零基础小白也能轻松掌…

笔记本计算机无法上无线网络,告诉你解决笔记本电脑连不上无线网络

在科技快速发展的今天,无线网络给我们的生活带来了极大的方便,正是因为有无线网卡的存在,才使得笔记本电脑能够开启WiFi,成为移动热点。不过也有用户会遇到笔记本电脑连不上无线网络的情况,该怎么去解决呢?…

禁用计算机的网络连接无线网络连接不上,笔记本电脑无线网络连接不上是什么原因...

笔记本电脑无线网络连接不上是什么原因?笔记本电脑连接不上无线网络的原因,有以下几种可能:1、无线网络密码不正确;2、无线网络缓存问题;3、路由器上进行了限制。 笔记本电脑无线网络连接不上 一、无线网络密码不正确 …