【机器学习】合成少数过采样技术 (SMOTE)处理不平衡数据(附代码)

1、简介

不平衡数据集是机器学习和人工智能中普遍存在的挑战。当一个类别中的样本数量明显超过另一类别时,机器学习模型往往会偏向大多数类别,从而导致性能不佳。

合成少数过采样技术 (SMOTE) 已成为解决数据不平衡问题的强大且广泛采用的解决方案。

在本文中,我们将探讨 SMOTE 的概念、其工作原理、优点、局限性及其对提高人工智能模型的性能和公平性的重大影响。

2、SMOTE

SMOTE 背后的主要思想是通过生成合成样本来弥合少数群体和多数群体之间的差距。

以下是 SMOTE 工作原理的分步说明:

2.1识别少数样本:

第一步涉及识别数据集中属于少数类别的样本。

2.2 识别K近邻:

对于每个少数样本,SMOTE 识别其在特征空间中的 K-近邻。通常,欧几里德距离度量用于测量数据点之间的相似性。

2.3 合成样本生成:

一旦识别出邻居,SMOTE 就会选择随机邻居并计算少数样本的特征向量与其所选邻居之间的差异。

然后将该差异乘以 0 到 1 之间的随机数,并将其添加到少数样本的特征向量中。

此过程会创建新的合成样本,这些样本位于少数样本与其所选邻居之间的线段上

重复生成合成样本的过程,直到达到所需的类别平衡水平。

3.SMOTE的好处

3.1 提高模型性能:

通过解决类不平衡问题,SMOTE 使 AI 模型能够更好地识别模式并跨类进行泛化,从而提高整体性能。

3.2 减轻偏差:

SMOTE 有助于减少类别不平衡带来的偏差,确保模型不会以牺牲少数类别为代价而偏向多数类别。

3.3 数据效率:

SMOTE 有效地放大了少数类中的样本数量,而无需收集额外的数据,使其成为一种资源高效的技术。

3.4和各种算法的兼容性:

SMOTE 与算法无关,这意味着它可以与各种 AI 算法一起使用,包括决策树、支持向量机、神经网络等。

虽然 SMOTE 已被证明是一种有价值的工具,但在应用该技术时必须意识到其局限性并考虑某些方面:

1.过度拟合风险:如果使用不当,SMOTE 可能会导致过度拟合,尤其是在生成过多合成样本时。适当的交叉验证对于准确评估模型性能至关重要。

2.潜在噪声:SMOTE 生成的合成样本可能无法准确代表真实世界的数据实例,从而引入可能对模型性能产生负面影响的噪声。

3.k 的合适选择:SMOTE 的性能受到参数 k 的选择的影响,它决定了要考虑的最近邻居的数量。k 值不合适可能会导致不良结果

4.代码

下面是合成少数过采样技术 (SMOTE) 的 Python 实现:

import numpy as np
from sklearn.neighbors import NearestNeighborsdef SMOTE(X, y, N, k=5):"""合成少数类过采样技术(SMOTE)参数:X (numpy数组): 包含数据点的特征矩阵。y (numpy数组): 对应的标签数组(多数类为0,少数类为1)。N (int): 生成的合成样本数量。k (int, 可选): 考虑的最近邻居数量,默认为5。返回:X_synthetic (numpy数组): 包含生成样本的合成特征矩阵。y_synthetic (numpy数组): 合成样本对应的标签数组。"""# 分离多数类和少数类样本X_majority = X[y == 0]X_minority = X[y == 1]# 计算每个少数类样本需要生成的合成样本数量N_per_sample = N // len(X_minority)# 如果k大于少数样本数量,则将其减少到可能的最大值k = min(k, len(X_minority) - 1)# 初始化列表以存储合成样本和相应的标签synthetic_samples = []synthetic_labels = []# 在少数类样本上拟合k近邻knn = NearestNeighbors(n_neighbors=k)knn.fit(X_minority)for minority_sample in X_minority:# 查找当前少数类样本的k个最近邻居_, indices = knn.kneighbors(minority_sample.reshape(1, -1), n_neighbors=k)# 随机选择k个邻居并创建合成样本for _ in range(N_per_sample):neighbor_index = np.random.choice(indices[0])neighbor = X_minority[neighbor_index]# 计算当前少数类样本和邻居之间的差异difference = neighbor - minority_sample# 生成一个0到1之间的随机数alpha = np.random.random()# 创建一个合成样本作为少数类样本和邻居的线性组合synthetic_sample = minority_sample + alpha * difference# 将合成样本及其标签追加到列表中synthetic_samples.append(synthetic_sample)synthetic_labels.append(1)# 将列表转换为numpy数组X_synthetic = np.array(synthetic_samples)y_synthetic = np.array(synthetic_labels)# 将原始多数类样本与合成样本合并X_balanced = np.concatenate((X_majority, X_synthetic), axis=0)y_balanced = np.concatenate((np.zeros(len(X_majority)), y_synthetic), axis=0)return X_balanced, y_balanced

SMOTE函数接受特征矩阵X、对应的标签数组y、要生成的合成样本数N以及最近邻居数k(默认设置为5)。

该函数返回包含生成样本的合成特征矩阵X_synthetic和对应的标签数组y_synthetic。

请注意,这个实现假设是二元分类,其中少数类标记为1,多数类标记为0。原始的多数类样本被保留,合成样本仅为少数类创建。

要使用SMOTE函数,您可以使用您的数据集调用它,并指定您想要生成的合成样本数量,例如:

X_balanced, y_balanced = SMOTE (X_train, y_train, N= 1000 )

在这个示例中,SMOTE函数将生成1000个合成样本来平衡训练数据,X_balanced和y_balanced分别包含增强的特征矩阵和对应的标签。

下面是一个如何定义X_train和y_train为numpy数组的简单二元分类问题示例:

import numpy as np # 具有 10 个样本和 2 个特征的示例特征矩阵
X_train X_train = np.array([ [ 1.0, 2.0 ], [ 2.0, 3.0 ], [ 3.0, 4.0 ], [ 4.0, 5.0 ], [ 5.0, 6.0 ], [ 6.0, 7.0 ], [ 7.0, 8.0 ], [ 8.0, 9.0 ], [ 9.0, 10.0 ], [ 10.0, 11.0 ] 
]) # 标签数组示例 y_train (0 代表多数类,1 代表少数类)y_train = np.array([ 0 , 0 , 0 , 0 , 0 , 1 , 0 , 1 , 0 , 0 ])

在这个示例中,X_train是一个二维numpy数组,代表具有10个样本(行)和2个特征(列)的特征矩阵。每行对应一个数据样本,每列对应一个特定的特征。

y_train是一个一维numpy数组,代表X_train中样本的对应标签。在这个示例中,多数类被标记为0,少数类被标记为1。

您可以使用前面代码片段中提供的SMOTE函数来平衡X_train和y_train数据集,并为少数类创建合成样本。例如:

X_balanced, y_balanced = SMOTE(X_train, y_train, N=1000)

调用SMOTE函数后,X_balanced和y_balanced将包含用合成样本增强的特征矩阵和对应的标签,以平衡数据集。

生成的合成样本数量(在这个示例中为1000)可以根据不平衡程度和您的具体需求进行调整。

5.结语

合成少数类过采样技术(SMOTE)已成为解决AI中不平衡数据集挑战的一个强大而有效的解决方案。

通过生成合成样本,SMOTE平衡了类别分布,使AI模型能够做出更好的决策,减少偏见并提高性能。

然而,使用SMOTE时必须谨慎,考虑其局限性,并确保合成数据的质量和相关性。

随着AI的不断发展,SMOTE和类似技术将继续作为追求更准确、公平和稳健AI模型的关键工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2777516.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Webshell一句话木马

一、webshell介绍(网页木马) 分类: 大马:体积大、隐蔽性差、功能多 小马:体积小,隐蔽强,功能少 一句话木马:代码简短,灵活多样 二、一句话木马: :…

文件查找和解压缩

一、文件搜索查找 1、按照名字搜索 (1)查找software目录下名字为1.txt的文件 [rootmaster opt]# find software/ -name 1.txt software/1.txt(2)查找software目录下所有以.txt结尾的文件 [rootmaster opt]# find software/ -n…

新春满满的祝福,春晚文字版节目单,养生篮球与吃喝玩乐——早读

新年快乐都是祝福 引言代码第一篇(跳) 人民日报 “兔兔,这一年辛苦了,接下来就交给我吧!”第三篇 人民日报 【夜读】新年三愿:家人安康,生活美满,心怀希望第四篇 人民日报&#xff0…

【OrangePi Zero2的系统移植】OrangePi Zero2 SDK说明

一、使用环境要求 二、获取Linux SDK 三、首次编译完整SDK 基于OrangePi Zero2的系统移植 之前我们讲解香橙派的使用时, 都是直接在香橙派上进行代码编译, 但在实际的项目开发过程中,更多 的还是使用交叉编译环境进行代码的编译。再编译完成…

VUE学习之路——列表渲染

<p v-for"item in items">{{ item }}</p>使用v-for进行列表的渲染。 这仅仅是一个简单的demo&#xff0c;使用v-for可以用来遍历数组和对象&#xff0c;具体如下&#xff1a; 注意&#xff1a;遍历数组或对象的时候&#xff0c;&#xff08;&#xff09;…

Kafka集群安装与部署

集群规划 准备工作 安装 安装包下载&#xff1a;链接&#xff1a;https://pan.baidu.com/s/1BtSiaf1ptLKdJiA36CyxJg?pwd6666 Kafka安装与配置 1、上传并解压安装包 tar -zxvf kafka_2.12-3.3.1.tgz -C /opt/moudle/2、修改解压后的文件名称 mv kafka_2.12-3.3.1/ kafka…

python-游戏篇-初级-超级画板

文章目录 开发环境要求运行方法PyCharmVScode 代码main.pytools.py 效果 开发环境要求 本系统的软件开发及运行环境具体如下。 操作系统&#xff1a;Windows 7、Windows 10。Python版本&#xff1a;Python 3.7.1。开发工具&#xff1a;PyCharm 2018。Python内置模块&#xff…

HttpClient | 支持 HTTP 协议的客户端编程工具包

目录 1、简介 2、应用场景 3、导入 4、API 5、示例 5.1、GET请求 5.2、POST请求 &#x1f343;作者介绍&#xff1a;双非本科大三网络工程专业在读&#xff0c;阿里云专家博主&#xff0c;专注于Java领域学习&#xff0c;擅长web应用开发、数据结构和算法&#xff0c;初…

Nginx与history路由模式:刷新页面404问题

使用nginx部署前端项目&#xff0c;路由模式采用history模式时&#xff0c;刷新页面之后&#xff0c;显示404。 路由模式 前端路由的基本作用为&#xff1a; ①当浏览器地址变化时&#xff0c;切换页面&#xff1b; ②点击浏览器后退、前进按钮时&#xff0c;更新网页内容&…

PCIe学习笔记(1)Hot-Plug机制

文章目录 Hot-Plug InitHot Add FlowSurprise Remove FlowNPEM Flow Hot-Plug Init PCIe hot-plug是一种支持在不关机情况下从支持的插槽添加或删除设备的功能&#xff0c;PCIe架构定义了一些寄存器以支持原生热插拔。相关寄存器主要分布在Device Capabilities, Slot Capabili…

[word] word分割线在哪里设置 #其他#经验分享

word分割线在哪里设置 在工作中有些技巧&#xff0c;可以快速提高工作效率&#xff0c;解决大部分工作&#xff0c;今天给大家分享word分割线在哪里设置的小技能&#xff0c;希望可以帮助到你。 1、快速输入分割线 输入三个【_】按下回车就是一条长直线&#xff0c;同样分别…

巧用liteflow,告别if else,SpringBoot整合liteflow

假设有一个三个原子业务&#xff0c;吃饭、喝水、刷牙。 现在有三个场景&#xff0c;分别是 场景A: 吃饭->刷牙->喝水 官网地址&#xff1a;https://liteflow.cc/ 1.添加依赖&#xff1a; <dependency><groupId>com.yomahub</groupId><artifactI…

Merging of neural networks

Merging of neural networks 论文链接&#xff1a;https://arxiv.org/pdf/2204.09973v2.pdf源码链接&#xff1a;https://github.com/fmfi-compbio/neural-network-merging 简介 典型的神经网络训练从随机初始化开始&#xff0c;并进行训练&#xff0c;直到在某些局部最优中…

GEE数据——美国农业部LANDFIRE (LF)数据集2.3.0版本

地面火灾数据集 LANDFIRE (LF)&#xff0c;即 "地貌火灾和资源管理规划工具"&#xff0c;是美国农业部森林服务局、美国内政部地质调查局和大自然保护协会的野地火灾管理项目之间的共享项目。前言 – 人工智能教程 LANDFIRE (LF) 图层是利用基于大量实地参考数据、…

【芯片设计- RTL 数字逻辑设计入门 14 -- 使用子模块实现三输入数的大小比较】

文章目录 三输入数的大小比较问题分析verilog codeTestBench Code综合图仿真波形图 三输入数的大小比较 在数字芯片设计中&#xff0c;通常把完成特定功能且相对独立的代码编写成子模块&#xff0c;在需要的时候再在主模块中例化使用&#xff0c;以提高代码的可复用性和设计的层…

时间序列预测 —— DeepAR 模型

时间序列预测 —— DeepAR 模型 DeepAR 模型是一种专门用于处理时间序列概率预测的深度学习模型&#xff0c;它可以自动学习数据中的复杂模式&#xff0c;提高预测的准确性。本文将介绍 DeepAR 模型的理论基础、优缺点&#xff0c;并通过 Python 实现单步预测和多步预测的完整…

JavaScript滚动事件

&#x1f9d1;‍&#x1f393; 个人主页&#xff1a;《爱蹦跶的大A阿》 &#x1f525;当前正在更新专栏&#xff1a;《VUE》 、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》 ​ ​ ✨ 前言 滚动是网页交互不可或缺的一部分。监听页面和元素的滚动事件,可以帮助…

数解 transformer 之 self attention transformer 公式整理

句子长度为n&#xff1b;比如2048&#xff0c;或1024&#xff0c;即&#xff0c;一句话最多可以是1024个单词。 1, 位置编码 可知&#xff0c;E是由n个列向量组成的矩阵&#xff0c;每个列向量表示该列号的位置编码向量。 2, 输入向量 加入本句话第一个单词的词嵌入向量是, 第…

汽车零部件MES系统解决方案

汽车零部件行业现状 随着全球汽车产业不断升级&#xff0c;汽车零部件市场竞争日趋激烈&#xff0c;从上游的钢铁、塑料、橡胶等生产到下游的主机厂配套制造&#xff0c;均已成为全球各国汽车制造大佬战略目标调整的焦点&#xff0c;其意欲在汽车零部件行业快速开疆扩土&#x…

EMC学习笔记(二十二)降低EMI的PCB设计指南(二)

降低EMI的PCB设计指南&#xff08;二&#xff09; 1.电源和地概述2.电感量3.两层板和四层板4.单层和双层设计中的微控制器接地5.信号返回地6.模拟、数字信号与大功率电源7.模拟电源引脚和模拟参考电源8.四层板电源设计参考注意事项 tips&#xff1a;资料主要来自网络&#xff0…