ICML23 - Synthetic Data for Model Selection

前言

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。

本文关注的问题为:是否可以使用合成数据(Synthetic Data)用于模型选择?即不再划分验证集,而是将所有标记数据作为训练集,使用训练集生成的合成数据来挑选模型。

本文中关注的「模型选择」,是指根据训练集训练得到的多个模型(不同网络架构,不同超参等)的选择。

本文的整体行文逻辑为:

  • 首先给出包含 insight 的理论;
  • 随后用大量的实验说明:使用合成数据挑选模型是有效的。

Synthetic Data for Model Selection

本文首先定义了一个统计量 Δ ϵ \Delta \epsilon Δϵ,其具体定义如下:

Lemma 3.1. Let Δ ϵ \Delta \epsilon Δϵ denote the risk difference between two hypotheses, h 1 , h 2 ∈ H h_1, h_2 \in \mathcal{H} h1,h2H, measured over a probability distribution D = ⟨ Ω , μ ⟩ \mathcal{D}=\langle\Omega, \mu\rangle D=Ω,μ, i.e., Δ ϵ = \Delta \epsilon= Δϵ= ϵ ( h 2 ) − ϵ ( h 1 ) \epsilon\left(h_2\right)-\epsilon\left(h_1\right) ϵ(h2)ϵ(h1). Let f f f denote the labeling function. Let Ω 1 = { x ∈ Ω ∣ h 1 ( x ) ≠ f ( x ) ∧ h 2 ( x ) = f ( x ) } \Omega_1=\left\{\mathbf{x} \in \Omega \mid h_1(\mathbf{x}) \neq f(\mathbf{x}) \wedge h_2(\mathbf{x})=f(\mathbf{x})\right\} Ω1={xΩh1(x)=f(x)h2(x)=f(x)} and Ω 2 = \Omega_2= Ω2= { x ∈ Ω ∣ h 2 ( x ) ≠ f ( x ) ∧ h 1 ( x ) = f ( x ) } \left\{\mathbf{x} \in \Omega \mid h_2(\mathbf{x}) \neq f(\mathbf{x}) \wedge h_1(\mathbf{x})=f(\mathbf{x})\right\} {xΩh2(x)=f(x)h1(x)=f(x)}. Then,
Δ ϵ = ∫ Ω 2 μ ( x ) d x − ∫ Ω 1 μ ( x ) d x . \Delta \epsilon=\int_{\Omega_2} \mu(\mathbf{x}) d \mathbf{x}-\int_{\Omega_1} \mu(\mathbf{x}) d \mathbf{x} . Δϵ=Ω2μ(x)dxΩ1μ(x)dx.

简单讲,现在有两个模型 h 1 h_1 h1 h 2 h_2 h2,任务分布 D \mathcal{D} D 上的 Ground truth 为 f f f,则 Δ ϵ \Delta \epsilon Δϵ 刻画了「 h 2 h_2 h2 D \mathcal{D} D 上的准确率 - h 1 h_1 h1 D \mathcal{D} D 上的准确率」 。因此如果 Δ ϵ ≥ 0 \Delta \epsilon\geq 0 Δϵ0,则应选择模型 h 2 h_2 h2

根据上述统计量,可推出下述定理:

Theorem 3.2. Let Δ ϵ r \Delta \epsilon_r Δϵr and Δ ϵ s \Delta \epsilon_s Δϵs denote the risk difference between two hypotheses, h 1 , h 2 ∈ H h_1, h_2 \in \mathcal{H} h1,h2H, measured over the real and the synthetic probability distributions D r = ( Ω , μ r ) \mathcal{D}_r=\left(\Omega, \mu_r\right) Dr=(Ω,μr) and D s = ( Ω , μ s ) \mathcal{D}_s=\left(\Omega, \mu_s\right) Ds=(Ω,μs), respectively, i.e., Δ ϵ r = \Delta \epsilon_r= Δϵr= ϵ r ( h 2 ) − ϵ r ( h 1 ) \epsilon_r\left(h_2\right)-\epsilon_r\left(h_1\right) ϵr(h2)ϵr(h1) and Δ ϵ s = ϵ s ( h 2 ) − ϵ s ( h 1 ) \Delta \epsilon_s=\epsilon_s\left(h_2\right)-\epsilon_s\left(h_1\right) Δϵs=ϵs(h2)ϵs(h1). Let f f f denote the labeling function. Then, for any h 1 , h 2 ∈ H h_1, h_2 \in \mathcal{H} h1,h2H :
Δ ϵ s − Δ ϵ r ≤ δ h 1 ⊕ h 2 ( μ r , μ s ) , \Delta \epsilon_s-\Delta \epsilon_r \leq \delta_{h_1 \oplus h_2}(\mu_r, \mu_s), ΔϵsΔϵrδh1h2(μr,μs),where δ h 1 ⊕ h 2 \delta_{h_1 \oplus h_2} δh1h2 is the total variation computed over the subset of the domain Ω \Omega Ω, where the hypotheses h 1 h_1 h1 and h 2 h_2 h2 do not agree.

具体证明如下:
Δ ϵ s − Δ ϵ r = ∫ Ω 2 μ s ( x ) d x − ∫ Ω 1 μ s ( x ) d x − ∫ Ω 2 μ r ( x ) d x + ∫ Ω 1 μ r ( x ) d x = ∫ Ω 2 μ s ( x ) − μ r ( x ) d x − ∫ Ω 1 μ s ( x ) − μ r ( x ) d x ≤ ∫ Ω 2 ∣ μ s ( x ) − μ r ( x ) ∣ d x + ∫ Ω 1 ∣ μ s ( x ) − μ r ( x ) ∣ d x = ∫ Ω 1 ∪ Ω 2 ∣ μ s ( x ) − μ r ( x ) ∣ d x ≤ δ h 1 ⊕ h 2 ( μ r , μ s ) \begin{aligned} \Delta \epsilon_s- \Delta \epsilon_r & = \int_{\Omega_2} \mu_s(\mathbf{x}) d \mathbf{x}-\int_{\Omega_1} \mu_s(\mathbf{x}) d \mathbf{x} -\int_{\Omega_2} \mu_r(\mathbf{x}) d \mathbf{x}+\int_{\Omega_1} \mu_r(\mathbf{x}) d \mathbf{x} \\ &= \int_{\Omega_2} \mu_s(\mathbf{x})-\mu_r(\mathbf{x}) d \mathbf{x}-\int_{\Omega_1} \mu_s(\mathbf{x})-\mu_r(\mathbf{x}) d \mathbf{x} \\ & \leq \int_{\Omega_2}\left|\mu_s(\mathbf{x})-\mu_r(\mathbf{x})\right| d \mathbf{x}+\int_{\Omega_1}\left|\mu_s(\mathbf{x})-\mu_r(\mathbf{x})\right| d \mathbf{x} \\ &= \int_{\Omega_1 \cup \Omega_2}\left|\mu_s(\mathbf{x})-\mu_r(\mathbf{x})\right| d \mathbf{x} \\ & \leq \delta_{h_1 \oplus h_2}(\mu_r, \mu_s) \end{aligned} ΔϵsΔϵr=Ω2μs(x)dxΩ1μs(x)dxΩ2μr(x)dx+Ω1μr(x)dx=Ω2μs(x)μr(x)dxΩ1μs(x)μr(x)dxΩ2μs(x)μr(x)dx+Ω1μs(x)μr(x)dx=Ω1Ω2μs(x)μr(x)dxδh1h2(μr,μs)

上述定理想刻画 Δ ϵ r \Delta \epsilon_r Δϵr(真实数据分布上模型 h 1 h_1 h1 h 2 h_2 h2 的性能排序) 和 Δ ϵ s \Delta \epsilon_s Δϵs(合成数据分布上模型性能排序)之间的关系,并说明:

  • 使用合成数据对模型进行排名的能力仅取决于在模型分歧区域内合成数据分布和真实数据分布之间的概率密度差距 δ h 1 ⊕ h 2 ( μ r , μ s ) \delta_{h_1 \oplus h_2}(\mu_r, \mu_s) δh1h2(μr,μs).
  • 原文:The ability to use synthetic data for ranking models depends only on the probability density gap between the synthetic and real distribution in the area of disagreement, δ h 1 ⊕ h 2 ( μ r , μ s ) \delta_{h_1 \oplus h_2}(\mu_r, \mu_s) δh1h2(μr,μs).

根据上述定理可以得到下述推论:

  • Δ ϵ s ≥ δ ( μ r , μ s ) \Delta \epsilon_s\geq \delta(\mu_r,\mu_s) Δϵsδ(μr,μs) 时,可以得到 Δ ϵ r ≥ 0 \Delta \epsilon_r\geq 0 Δϵr0,其中 δ ( μ r , μ s ) \delta(\mu_r,\mu_s) δ(μr,μs) 为真实分布和合成分布之间的全变差 (Total variation)。

换句话说,只要 Δ ϵ s ≥ δ ( μ r , μ s ) \Delta \epsilon_s\geq \delta(\mu_r,\mu_s) Δϵsδ(μr,μs),则真实分布和合成分布上的模型排序,是一致的。即:

  • 如果模型 h 1 h_1 h1 h 2 h_2 h2 在合成分布上的准确率差距「大于」合成分布与真实分布之间的差距,则使用合成分布进行模型选择是有效的。

Synthetic Dataset Calibration

为了使合成分布和真实分布更为接近,本文在实验部分提出了一种「合成数据集校正的方法」,即选出一组模型,首先得到这组模型在训练数据中各类别上的经验损失 ϵ ^ r c \hat{\epsilon}_r^c ϵ^rc(假设为类别 c c c),随后再得到模型对合成数据上各数据的预测损失 Q c \mathbf{Q}_c Qc(0 为正确,1 为错误)。

随后对合成数据中各数据点进行加权,并求解下式得到样本权重:
w c = argmin ⁡ w { ∥ ϵ ^ r c − Q c T w ∥ 2 2 + λ ∥ w ∥ 2 2 } . \mathbf{w}_c=\underset{\mathbf{w}}{\operatorname{argmin}}\left\{\left\|\hat{\epsilon}_r^c-\mathbf{Q}_c{ }^T \mathbf{w}\right\|_2^2+\lambda\|\mathbf{w}\|_2^2\right\}. wc=wargmin{ ϵ^rcQcTw 22+λw22}.

更通用的做法一般是对数据进行加权,然后优化加权后的合成数据和训练数据之间的分布差距,不知道和上述这种做法对比,差距如何。


Experiments

这篇文章主要还是以实验为主,感兴趣的话可以直接去原论文看,此处列举一些主要的实验结果。

  1. 「使用合成数据挑模型」vs「使用验证集挑」,前者效果更好:
    在这里插入图片描述
  2. 训练集比较小的时候,「合成数据上的误差」和「测试集上的误差」相关性更强:
    • 文中的分析:训练集小导致 Δ ϵ s \Delta \epsilon_s Δϵs 更大, Δ ϵ s ≥ δ ( μ r , μ s ) \Delta \epsilon_s\geq \delta(\mu_r,\mu_s) Δϵsδ(μr,μs) 更易满足。

在这里插入图片描述
3. 不同数据生成模型,得到的效果差别也很大:
在这里插入图片描述


参考资料

  • ICML23 - Synthetic Data for Model Selection

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2822180.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

多输入多输出 | Matlab实现RIME-BP霜冰算法优化BP神经网络多输入多输出预测

多输入多输出 | Matlab实现RIME-BP霜冰算法优化BP神经网络多输入多输出预测 目录 多输入多输出 | Matlab实现RIME-BP霜冰算法优化BP神经网络多输入多输出预测预测效果基本介绍程序设计往期精彩参考资料 预测效果 基本介绍 多输入多输出 | Matlab实现RIME-BP霜冰算法优化BP神经网…

MySQL 外键约束 多表联查 联合查询

外键约束 外键用来让两张表的数据之间建立连接,从而保证数据的一致性和完整性。 有一张学生表和班级表,学生表通过班级表的ID引用到该班级,从而进行关联,而通过外键约束可以保证数据的一致性完整性。 如学生ID18关联到课程ID1号…

瑞吉苍穹外卖如何拓展?已经经过不同公司多轮面试。项目中会问到哪些问题?以及问题如何解决?

别催了,别催了,先收藏吧。 作者大大正在加班加点完成。 文章会尽快发布,关注收藏,尽请期待。 想要加入并查阅作者的知识库可以联系作者 不要白嫖,通过后,附上关注和收藏截图。 已有众多小伙伴加入 目前…

MySql安全加固:可信IP地址访问控制 设置密码复杂度

MySql安全加固:可信IP地址访问控制 & 设置密码复杂度 1.1 可信IP地址访问控制1.2 设置密码复杂度 💖The Begin💖点点关注,收藏不迷路💖 1.1 可信IP地址访问控制 当您在创建用户时使用’%作为主机部分,…

Day20-磁盘管理

Day20-磁盘管理 1. cut 切:2. 磁盘历史和内外部物理结构介绍2.1 磁盘发展趋势和实现措施2.2 磁盘知识的体系结构2.3 机械磁盘的外部结构2.4 SSD固态硬盘的外部结构2.5 固态硬盘内部结构2.6 缓存在服务器各硬件上的速度和大小对比另类维度图解,从上到下由高速到低速&…

2024现代Android开发趋势

2024现代Android开发趋势 在当今的Android开发领域,我们看到了许多令人兴奋的技术和趋势,这些技术和趋势正在改变着应用程序的开发方式和用户体验。让我们一起深入探讨2024年现代Android开发的主要方向和关键技术。 无处不在的Kotlin Kotlin已经成为An…

202435读书笔记|《半小时漫画中国史》——读点经济学与历史,生活更美好,趣味烧脑土地制度、商鞅变法、华丽丽的丝绸之路这里都有

202435读书笔记|《半小时漫画中国史》——读点经济学与历史,生活更美好,趣味烧脑土地制度、商鞅变法、华丽丽的丝绸之路这里都有 1. 土地政策、度量衡及税收2. 商鞅变法3. 西汉经济4. 西汉盐铁大辩论5. 西汉丝绸之路 《半小时漫画中国史:经济…

吸猫毛空气净化器哪个好?推荐除猫毛效果好宠物空气净化器品牌

当下有越来越多的家庭选择养宠物!尽管家里变得更加温馨,但养宠可能会带来异味和空气中的毛发增多可能会带来健康问题,这是一个大问题! 不想家里弥漫着异味,特别是来自宠物便便的味道,所以需要一款能够处理…

打印100-200之间的素数

#include <stdio.h>int prime(int n){int i 1;for(i 2;i < n;i){if(n % i 0)return 0;}return 1; } //打印100-200之间的素数 int main() {int n 0;int j 100;for(j 100;j < 200;j){if(prime(j)){printf("%d是素数\n",j);n;}}printf("100-200…

【center-loss 中心损失函数】 原理及程序解释(更新中)

文章目录 前言问题引出open-set问题抛出 解决方法softmax函数、softmax-loss函数解决代码&#xff08;center_loss.py&#xff09;原理程序解释 代码运用 如何梯度更新首先了解一下基本的梯度下降算法然后 补充&#xff1a;外围知识模型 前言 学习一下&#xff1a; 中心损失函…

【刷题】位运算

消失的两个数字 消失的两个数字 “单身狗”进阶版思路 class Solution { public:vector<int> missingTwo(vector<int>& nums) {int ret 0;int n nums.size();for(int i 0; i < n; i){ret ^ (nums[i] ^ i);}ret ^ (n ^ (n 1) ^ (n 2));// 按位异或的…

94. 递归实现排列型枚举 刷题笔记

思路 依次枚举 每个位置用哪个数字 要求按照字典序最小来输出 而每次搜索下一层时i都是从1开始 也就是说 如果有小的数可以填上 那么该方案会填上这个数字 例如 当n等于3 第一次搜索 1 2 3输出后返回 返回后此时i3 第二个位置填3 1 3 2 输出后返回 此时返回到第一层…

如何用Python检查时间序列数据是否平稳?

时间序列数据通常以其时间性质为特征。这种时间性质为数据增加了趋势或季节性&#xff0c;使其与时间序列分析和预测兼容。如果时间序列数据不随时间变化或没有时间结构&#xff0c;则称其为静态数据。因此&#xff0c;检查数据是否平稳是非常必要的。在时间序列预测中&#xf…

基于粒子群优化算法的图象聚类识别matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于粒子群优化算法的图象聚类识别。通过PSO优化方法&#xff0c;将数字图片的特征进行聚类&#xff0c;从而识别出数字0~9. 2.测试软件版本以及运行结果展示 M…

智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人(机器人大模型与具身智能挑战赛)

智能咖啡厅助手&#xff1a;人形机器人 融合大模型&#xff0c;行为驱动的智能咖啡厅机器人(机器人大模型与具身智能挑战赛) “机器人大模型与具身智能挑战赛”的参赛作品。的目标是结合前沿的大模型技术和具身智能技术&#xff0c;开发能在模拟的咖啡厅场景中承担服务员角色并…

Flutter中的三棵树

Widget Tree&#xff1a; 页面配置信息。 Element Tree&#xff1a; Widget tree的实例化对象&#xff0c;创建出renderObject&#xff0c;并关联到element.renderobject属性上&#xff0c;最后完成RenderObject Tree的创建。 RenderObject Tree&#xff1a;完成布局和图层绘制…

自测-1 打印沙漏

文章预览&#xff1a; 题目算法代码 题目 算法 以前做过这个&#xff0c;那次是c语言写的&#xff0c;一点一点处理一层一层完成&#xff0c;这次我换了一种语言用了另一种思想使用递归去写&#xff0c;还是我们要先求出应该有多少层这个很容易&#xff0c;中间输出部分我们算…

STM32标准库——(14)I2C通信协议、MPU6050简介

1.I2C通信 I2C 通讯协议(Inter&#xff0d;Integrated Circuit)是由Phiilps公司开发的&#xff0c;由于它引脚少&#xff0c;硬件实现简单&#xff0c;可扩展性强&#xff0c; 不需要USART、CAN等通讯协议的外部收发设备&#xff0c;现在被广泛地使用在系统内多个集成电路(IC)间…

睡眠问题大揭秘:中医如何轻松解决?

睡眠问题是现代社会普遍存在的难题&#xff0c;它的影响不仅仅局限于个体的疲惫和神经紧张&#xff0c;更深远的是对整体健康的长期威胁。根据世界卫生组织的数据&#xff0c;全球约有三分之一的人口遭受着不同程度的睡眠问题&#xff0c;其中包括失眠、入睡困难、多梦、易醒等…

flutter旋转动画,Android彻底组件化方案实践方法

Android基础 & 常用 针对Android基础&常用知识&#xff0c;我认为对于初级开发者来说&#xff0c;按照优先级最主要的知识点主要包括&#xff1a;四大组件、布局使用、多线程 & 动画&#xff1b;具体介绍如下&#xff1a; 2. Android进阶 针对Android进阶知识&am…