论文研读 Disentangled Information Bottleneck

解耦信息瓶颈

摘要: 信息瓶颈方法是一种从源随机变量中提取与预测目标随机变量相关的信息的技术,通常通过优化平衡压缩和预测项的IB拉格朗日乘子f来实现,然而拉格朗日乘子很难优化,需要多次实验来调整拉格朗日乘子的值,此外我们还证明了随着压缩强度的增大 预测性会严重降低,本文从监督解纠缠的角度来实现信信息瓶颈的方法,DisenIB 旨在保证目标与测性能不损失的前提下,最大化的压缩性信息源大量的理论和实验证明,我们的方法在最大压缩方面是一致性的,并且在泛化性能 对抗性攻击的鲁棒性  、分布外检测和监督解耦方面表现出色。

最大压缩方面是一致性的:最大化压缩源数据的同时,保持了目标预测性能的一致性,即在不损失预测性能的前提下实现最大压缩。

问题提出: 什么是信息瓶颈? 信息瓶颈的意义是什么?

信息瓶颈技术是一种基于信息论原理的方法,旨在从源随机变量中提取与目标随机变量预测相关的最小信息集合。它通过优化信息瓶颈的拉格朗日量(IB Lagrangian)来实现,这个拉格朗日量在压缩和预测项之间取得了平衡。简而言之,信息瓶颈技术试图在减少信息量的同时,保持或提高预测的准确性。

信息瓶颈提取出的信息   是从源随机变量中提取的,提取的约束是保持或者提高预测的准确性的前提下,减少信息量,即  用少量的信息实现最好的预测。

意义与应用:数据压缩(找到最优的中间表示)、特征选择(选择最具代表性的特征子集),和模型压缩(减少模型的复杂性和参数量)

1  introduction 

压缩是机器学习中 普遍存在的任务,为了提高计算效率过度参数化的网络使用剪枝进行压缩,机器可以讲复杂的数据转化为可以泛化的压缩表示,确定数据的哪些方面可以保留,哪些方面可以舍弃是很重要的,信息瓶颈理论提供了一种原则性的方法来解决这个问题,它压缩源随机变量以保留与预测目标随机变量相关的信息,最近的研究表明,信息瓶颈的方法可以产生具有很好泛化性能的表征,并且有望解释神经网络的学习行为,给定随机变量X,Y 他们的联合概率分布是p_{^{data}}(X,Y )

T)信息瓶颈的方法旨在压缩信息X到一个瓶颈随机变量T 并且保持与预测随机变量的信息,也就是说寻找一个概率映射q(T|X) 使得互信息I(X;T)受限的同时最大化I(T;Y),这可以表述为一个约束优化问题

       可以通过最小化拉格朗日量来解决这个问题:

 最小化拉格朗日乘子遇到了很多问题   。。。。

我i们期望从X中提取出Y的最小充分表示,T,最大化压缩X 而不丢失互信息I(T;Y) 在本文其余部分称为最大压缩, 这种i情况不能通过最小化拉格朗日乘子来实现,因为压缩总要 减少 互信息I(T;Y) 此外 我们期待消除对多次优化的需要,并且探索 通过单个优化实现最大压缩一致的方法,我们一开始意识到监督解纠缠和信息瓶颈背后的思想密切相关,监督解纠缠解决的问题是  识别 互补的数据方面,并且通过监督学习的方式将他们解开,在信息瓶颈的方法中的 必须分离与Y相关和不相关的数据方面,这启发我们从监督解耦的角度来实现信息瓶颈的方法,据我们所知我们是第一个在信息瓶颈和解耦学习方面建立联系的研究,我们的贡献有下面三个方面:

•我们研究了IB拉格朗日量中的权衡,表明平衡压缩和预测项只会降低预测性能,因此无法实现最大压缩。

•我们提出了IB的一个变体,即解纠缠信息瓶颈(DisenIB),它被证明在最大压缩上是一致的。具体来说,DisenIB消除了多次优化的需要,并通过单个优化一致性执行最大压缩。

•通过实验结果,我们证明了我们的理论陈述,并表明DisenIB在概括(Shamir, Sabato, and Tishby 2010)、对抗性攻击的鲁棒性(Alemi et al. 2017)和分布外数据检测(Alemi, Fischer, and Dillon 2018)以及监督解缠方面表现良好

2 方法

在本节中,我们首先研究了IB拉格朗日量中涉及的权衡,表明平衡压缩和预测项只会降低预测性能,因此无法实现最大压缩。然后,我们介绍了我们提出的最大压缩一致的DisenIB。

2.1 IB拉格朗日权衡

我们首先证明了优化IB拉格朗日会导致不可避免的权衡。具体来说,通过优化IB拉格朗日量得到的压缩目标和预测目标的最优解始终不如单独优化每个目标得到的最优解。这可以用定理1(见补充证明)来正式表述:

 2.2一致性

由于上述权衡,优化IB拉格朗日量无法实现最大压缩。期望探索一种能够执行最大压缩的方法。此外,我们还希望消除对多重优化的需求。也就是说,我们期望探索一种通过单个优化始终如一地执行最大压缩的方法,这被称为最大压缩的一致性属性。。。。。。

2.3 Disentangled IB

我们介绍了我们的方法在最大压缩方面是一致的,在认识到信息瓶颈和解耦之间的关系后,我们从监督解耦分类角度实现信息瓶颈,我们引入另一个变量S  作为 与T 互补的方面表示  T  表示的是从X中提取出的能够预测Y的最小信息量  S 可以简单理解为 冗余无关信息。

 具体来说,我们鼓励(S, Y)通过最大化I (X;S, Y),使得S至少涵盖了与Y无关的数据方面的信息。我们鼓励Y可以通过最大化I (T;Y),使得T至少涵盖了Y相关数据方面的信息。因此,存储在S和T中的信息量都是下界的。在这种情况下,通过最小化I (S;T)消除了它们之间的重叠信息,从而收紧了两个边界,使确切的信息保持相关。此外,通过优化LDisenIB可以一致地实现最大压缩,如下定理2所示(见补充证明):

定理2 LDisenIB在最大压缩上是一致的。

我们推导出I (T;Y)的变分近似;Y)和I (X;S, Y)项 通过引入变分概率映射p (y|t)和R (x|s, y),可处理的变分下界可表示为

最小化I (S;T) = DKL [q (S, T)‖q (S) q (T)]项是难以处理的,因为q (S, T)和q (S) q (T)都涉及具有大量组分的混合物。然而,我们观察到,由于马尔可夫链s↔x↔t (Kim and Mnih 2018),我们可以有效地从联合分布q (s, t)中抽样,首先从数据集中均匀随机抽样x,然后从q (s, t|x) = q (s|x) q (t|x)抽样。我们还可以通过沿着批轴对联合分布q (s, t)中的样本进行洗牌,从边际分布q (s) q (t)的乘积中进行抽样(Belghazi et al. 2018)。然后,我们使用密度比率技巧通过引入一个判别器d来估计其输入是来自q (s, t)而不是来自q (s) q (t)的样本的概率。对抗训练是用来训练鉴别器的

当达到纳什均衡Nash equilibrium时,q (s, t) = q (s) q (t),从而使它们的互信息I (S; T )项最小

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3031503.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

mybatis 跨库查询 mysql

跨库,表关联的查询,实现起来很简单: select a.uid from ucenter.user a , database user_profile b where a.uid b.uid;只要在表的前边加上库名即可。 这个是我项目中xml 中的一个例子,项目采用的是springmvc,持久层框架就是my…

Screeps工程化之配置化

目录 前言一、抽取配置项二、读取配置项 前言 Screeps中所有代码都会在一个tick(游戏内的世间)内执行完成,想要做到代码的高度复用,和隔离各个房间creep的行为就需要将部分代码进行配置化,本文仅为作者本人的游戏思路…

反了!美国假冒邮政服务钓鱼网站访问量竟然超过正规官网

美国邮政是美国主要的包裹信件投递机构之一,长期以来该单位都是网络钓鱼和诈骗的针对目标。对美国公民来说,在假期通常都会收到声称来自美国邮政的诈骗。美国邮政甚至单独建设的网页提醒消费者警惕诈骗信息: 专用提醒网页 Akamai 的研究人员…

ABB机器人转角路径故障报警消除方法

ABB机器人在现场调试时,有时候会出现以下报警:“转角路径故障”的错误。 但这个报错不影响机器人的使用。也可以在指令中设置将其屏蔽。 1、打开一个例行程序,在Settings指令下添加CornerPathWarning设置语句; 2、将CornerPathWa…

使用Pandas对Data列进行基于顺序的分组排列

目录 一、引言 二、Pandas库简介 三、按照数据列中元素出现的先后顺序进行分组排列 四、案例分析 五、技术细节探讨与扩展应用 1. 技术细节 2. 扩展应用 3. 示例代码:用户行为分析 4. 进阶应用:分组后的聚合操作 5. 分组后的数据筛选 6. 分组…

信息系统安全与对抗-网络侦查技术与网络扫描技术(期末复习简答题)

1、网络拓扑结构在网络攻击中的作用 查明目标网络的拓扑结构,有利于找到目标网络的关键节点,从而提高攻击效率,达到最大攻击效果。 2、网络侦查在网络攻击中的作用 识别潜在目标系统,确认目标系统适合哪种类型的攻击。 3、百度…

视频号小店究竟有什么秘密,值得商家疯狂入驻,商家必看!

大家好,我是电商花花。 我们都知道视频号和抖音本身都是一个短视频平台,但是随着直播电商的发展,背后的流量推动逐步显露出强大的红利市场和变现机会。 视频号小店流量大和赚钱之外,还非常适合普通人创业。 这也使得越来越多的…

[机器学习-03] Scikit-Learn机器学习工具包学习指南:主要功能与用法解析

🎩 欢迎来到技术探索的奇幻世界👨‍💻 📜 个人主页:一伦明悦-CSDN博客 ✍🏻 作者简介: C软件开发、Python机器学习爱好者 🗣️ 互动与支持:💬评论 &…

robobrowser,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - robobrowser。 Github地址:https://github.com/jmcarp/robobrowser 在网络爬虫和自动化领域,Python开发者拥有众多强大的工具&…

Elasticsearch查看集群信息,设置ES密码,Kibana部署

Elasticsearch查看集群信息,设置ES密码,Kibana部署 查看集群信息查看节点信息查看集群健康状态查看分片信息查看其他集群信息 Kibana部署安装设置ES密码 查看集群信息 查看节点信息 curl http://127.0.0.1:9200/_cat/nodes?v 参数说明: ip…

YOLOv8火焰与烟雾智能检测系统

项目概述: 本项目旨在开发一款高效、实时的火焰与烟雾检测系统,利用先进的深度学习技术——YOLOv8,为安全监控领域提供智能化解决方案。系统不仅能够准确识别视频流或静态图像中的火焰与烟雾,还配备了用户友好的图形界面&#xff…

AI 绘画神器 Fooocus 2.3.1 汉化教程(中文界面/汉化包下载/持续更新最新版本...)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里,订阅后可阅读专栏内所有文章。 大家好,我是水滴~~ Fooocus 是一款功能强大的 AI 绘画神器,它能够帮助我们以更高效、更创意的方式进行绘画创作。本教程将详细…

学习Java的日子 Day44 初识前端

Day44 HTML 学习路线: 前端:展示页面、与用户交互 — HTML 后端:数据的交互和传递 — JavaEE/JavaWeb 1.B/S和C/S B/S:浏览器/服务器 教务系统 C/S:客户端/服务器 优缺点 1.开发/维护成本:B/S相对低 2.运算…

GEE数据集——高分辨率全球树冠高度地图(1 米)Meta 公司

高分辨率 1 米全球树冠高度地图 简介 全球树冠高度地图数据集提供了对全球树冠高度的全面了解,有助于对森林生态系统、碳固存和气候变化减缓工作进行精确监测。该数据集由 Meta 和世界资源研究所合作开发,是了解森林结构和动态的基石。通过融合最先进的卫星图像和先进的人工…

C#编程模式之享元模式

创作背景:各位朋友,我们继续学习C#的编程模式,本文主要介绍享元模式。享元模式是一种结构型设计模式,它主要用于减少创建对象的数量,从而提高程序性能。它通过共享对象的方式来减少内存的使用,特别是系统中…

9.spring-图书管理系统

文章目录 1.开发项目流程1.1开发开发1.2数据库的设计 2.MySQL数据库相关代码3.构造图书结构3.1用户登录3.2图书列表3.3图书添加3.4图书删除3.4.1批量删除 3.5图书查询(翻页) 4.页面展示4.1登录页面4.2列表页面4.3增加图书页面4.4修改图书信息页面 5.功能展示5.1增加图书信息5.2…

EPAI手绘建模APP动画、场景、手势操作

(15) 动画 图 299 动画控制器 ① 打开动画控制器。播放动画过程中,切换场景观察视角时,自动停止播放。动画编辑参见常用工具栏-更多-动画动画编辑器部分。 ② 关闭动画控制器。 ③ 设置动画参数:设置动画总帧数;这只帧率&#x…

docker安装nginx支持ssl 实现https访问(完整版)

全文目录,一步到位 1.前言简介1.1 专栏传送门1.1.1 本文简介 2. docker安装nginx支持ssl2.0 准备ssl证书(例: 阿里云)2.0.1 配置域名解析2.0.2 找到数字证书管理服务并签发ssl证书2.0.3 选择默认证书 填写域名 创建2.0.4 提交审核, 签发成功2.0.5 解压并上传到宿主机ssl路径下 …

FFmpeg常用API与示例(三)—— 音视频解码与编码

编解码层 1.解码 (1) 注册所有容器格式和 CODEC:av_register_all() (2) 打开文件:av_open_input_file() (3) 从文件中提取流信息:av_find_stream_info() (4) 穷举所有的流,查找其中种类为 CODEC_TYPE_VIDEO (5) 查找对应的解码器:avcodec_find_decoder() (6) …