模式识别与机器学习-半监督学习

模式识别与机器学习-半监督学习

  • 半监督学习
  • 半监督学习的三个假设
  • 半监督学习算法
    • 自学习算法
      • 自学习的步骤:
      • 自学习的优缺点:
        • 优点:
        • 缺点:
    • 协同训练
    • 多视角学习
    • 生成模型
    • 半监督SVM

谨以此博客作为复习期间的记录

半监督学习

半监督学习(Semi-Supervised Learning)是机器学习的一种范式,它利用同时包含标记(有标签)和未标记(无标签)数据的数据集来进行模型训练。相比于监督学习和无监督学习,半监督学习尝试结合已标记数据和未标记数据来提高模型的性能和泛化能力。

在半监督学习中,通常只有少部分数据被手动标记了标签,而大部分数据没有标签。其主要思想是利用未标记数据的潜在分布和结构,辅助模型在训练过程中更好地捕获数据的特征和规律。

半监督学习的常见方法和技术包括:

  1. 自训练(Self-training): 通过使用已标记数据训练初始模型,然后使用该模型对未标记数据进行预测,并将置信度高的预测结果添加到已标记数据中,反复迭代训练。

  2. 半监督支持向量机(Semi-Supervised Support Vector Machines): 在支持向量机中,通过在优化目标函数中添加未标记数据的信息,以利用未标记数据的特征。

  3. 图半监督学习(Graph-based Semi-Supervised Learning): 基于图的方法,利用数据之间的关系构建图模型,并通过图的传播或标签传递等方法来利用未标记数据。

  4. 生成式模型: 一些生成模型,如生成对抗网络(GANs)和变分自编码器(VAEs),也可以结合有监督和无监督信号来进行半监督学习。

半监督学习的优点和适用场景包括:

  • 利用未标记数据: 能够利用未标记数据提供的额外信息,提高模型性能和泛化能力。

  • 节省人力成本: 减少手动标记数据的成本,尤其在某些领域标记数据可能很昂贵或耗时。

半监督学习的三个假设

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

半监督学习算法

自学习算法

自学习(Self-training)是半监督学习中的一种常见方法,其核心思想是通过已标记数据训练一个初始模型,然后利用这个模型对未标记数据进行预测,并将高置信度的预测结果加入到已标记数据中,然后重新训练模型。这个过程会反复迭代进行,直至模型收敛或达到停止条件。

自学习的步骤:

  1. 初始化模型: 使用少量的有标签数据训练一个初始模型。

  2. 预测未标记数据: 利用这个初始模型对未标记数据进行预测,得到它们的预测标签。

  3. 置信度筛选: 选取置信度较高的预测标签,并将这些样本标记为新的有标签数据。

  4. 模型更新: 将新标记的数据加入到已标记数据中,重新训练模型。

  5. 迭代训练: 重复以上步骤,直到满足停止条件(如达到最大迭代次数、模型收敛等)。

自学习的优缺点:

优点:
  • 充分利用未标记数据: 利用了未标记数据的信息,可以增加模型的训练样本量,提高模型的性能和泛化能力。

  • 简单易实现: 自学习算法相对简单,并且易于实现。

缺点:
  • 标签传播风险: 自学习可能将预测错误的标签加入到已标记数据中,会带入噪声和错误信息,导致模型性能下降。

  • 标签偏向性: 初始标签偏差会在迭代中逐步放大,可能导致模型偏向于初始标签。

  • 忽略数据不确定性: 忽略了模型对于预测的不确定性,可能导致未标记数据预测的不准确性。

在实际应用中,自学习算法可以在数据标记成本较高或标记数据较少的情况下起到一定的作用,但需要小心处理预测置信度和不确定性,以及监督信息的传播风险。

协同训练

和最近大火的多模态有点相似。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多视角学习

多视角学习(Multi-view Learning)是一种利用多个视角或多个数据来源进行学习的方法,旨在提高模型的鲁棒性和泛化能力。这些不同视角可以是来自不同传感器、不同特征提取方式或不同数据来源等。

在这里插入图片描述

生成模型

在传统机器学习任务中,生成模型(如高斯混合模型 GMM)通常只利用有标签的样本数据,通过对有标签样本的联合概率进行建模和估计。其目标是最大化有标签样本的似然概率或联合概率,以学习数据的分布和模式。

然而,在半监督学习中,除了利用有标签样本的信息,还可以充分利用未标记数据的信息来提高模型的性能和泛化能力。半监督学习中的生成模型通常通过结合有标签数据和未标记数据来进行建模。学习目标可以最大化有标签样本和无标签样本的似然概率或联合概率,如下图所示。
由于学习目标的不同,生成的决策边界也有所不同,黑色的点是有标注样本,蓝色的点是无标注训练数据。结合了无标注训练数据生成的概率分布要更加贴合数据情况。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

半监督SVM

半监督支持向量机(Semi-Supervised Support Vector Machines,S3VM)是支持向量机(SVM)的一种扩展形式,用于半监督学习问题。S3VM结合了有标签数据和未标签数据,旨在提高模型的泛化能力和性能。

通常,标准的支持向量机(SVM)只使用有标签的数据进行训练,但在半监督学习中,S3VM允许利用未标记数据来辅助训练模型,以改善模型的泛化能力。S3VM尝试找到一个最优的超平面或决策边界,同时考虑有标签数据和未标记数据。其核心思想是最大化所有数据的间隔,而不仅仅是有标注数据的间隔。下图蓝色虚线是只使用有标注数据训练得出的分割间隔,红色实线是结合无标注数据得到的间隔。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2661328.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

浅谈安科瑞智能照明系统在马来西亚国家石油公司项目的应用

摘要:随着社会经济的发展及网络技术、通信技术的提高,人们对照明设计提出了新的要求,它不仅要控制照明光源的发光时间、 亮度,而且与其它系统来配合不同的应用场合做出相应的灯光场景。本文介绍了马亚西亚石油公司智能照明项目的应…

大数据前馈神经网络解密:深入理解人工智能的基石

文章目录 大数据前馈神经网络解密:深入理解人工智能的基石一、前馈神经网络概述什么是前馈神经网络前馈神经网络的工作原理应用场景及优缺点 二、前馈神经网络的基本结构输入层、隐藏层和输出层激活函数的选择与作用网络权重和偏置 三、前馈神经网络的训练方法损失函…

蓝牙物联网智能安防系统设计方案

1概述 安防系统(安全防护)的作用是预防损失,是人们保障人身和财产安全最重要的工具之一。近年来,伴随经济的飞速发展和城市人口的急剧增加,盗窃、入室抢劫等事件的增多给人们的安定生活带来了很大的影响,同时,交通的快…

three.js绘制网波浪

无图不欢&#xff0c;先上图 使用方法&#xff08;以vue3为例&#xff09; <template><div class"net" ref"net"></div> </template><script setup> import { ref, onMounted } from vue import NetAnimation from /utils…

新能源汽车冷却系统的水道管口类型有哪些?格雷希尔针对这些管口密封的快速接头有哪些?

对于新能源汽车&#xff0c;不仅电池&#xff0c;还有电机、电控、充电单元部件&#xff0c;都需要处于适宜的工作温度&#xff0c;才能维持整车的正常运行。而这些部件在运行过程中会产生大量的热量&#xff0c;如果不及时散热会对汽车的性能、寿命产生影响&#xff0c;甚至可…

兔子目标检测数据集VOC格式3900张

兔子是一类可爱的哺乳动物&#xff0c;拥有圆润的脸庞和长长的耳朵&#xff0c;身体轻盈柔软。它们通常是以温和和友善的形象出现在人们的视野中&#xff0c;因此常常成为童话故事和卡通形象中的角色。 兔子是草食性动物&#xff0c;主要以各种草本植物为食&#xff0c;包括草…

深算院与新数科技达成战略合作,共筑国产数据库新生态

近日&#xff0c;深圳计算科学研究院&#xff08;以下简称“深算院”&#xff09;与北京新数科技有限公司&#xff08;以下简称“新数科技”&#xff09;达成战略合作。双方将融合发挥资源优势与技术优势&#xff0c;基于深算院自主研发设计的崖山数据库系统YashanDB&#xff0…

VD6283TX环境光传感器(2)----移植闪烁频率代码

VD6283TX环境光传感器----2.移植闪烁频率代码 闪烁定义视频教学样品申请源码下载参考代码硬件准备开发板设置生成STM32CUBEMX串口配置IIC配置X-CUBE-ALSADC使用定时器触发采样KEIL配置FFT代码配置app_x-cube-als.c需要添加函数演示结果 闪烁定义 光学闪烁是指人造光源产生的光…

conda环境下Could not build wheels for dlib解决方法

1 问题描述 在安装模型运行的conda环境时&#xff0c;出现如下问题&#xff1a; Building wheels for collected packages: basicsr, face-alignment, dlib, ffmpy, filterpy, futureBuilding wheel for basicsr (setup.py) ... doneCreated wheel for basicsr: filenamebasi…

【小程序】如何获取特定页面的小程序码

一、进入到小程序管理后台&#xff0c;进入后点击上方的“工具”》“生成小程序码” 小程序管理后台 二、进入开发者工具&#xff0c;打开对应的小程序项目&#xff0c;复制底部小程序特定页面的路径 三、粘贴到对应位置的文本框&#xff0c;点击确定即可

JMeter逻辑控制器之While控制器

JMeter逻辑控制器之While控制器 1. 背景2.目的3. 介绍4.While示例4.1 添加While控制器4.2 While控制器面板4.3 While控制器添加请求4.3 While控制器应用场景 1. 背景 存在一些使用场景&#xff0c;比如&#xff1a;某个请求必须等待上一个请求正确响应后才能开始执行。或者&…

C语言——指针题目“指针探测器“

如果你觉得你指针学的自我感觉良好&#xff0c;甚至已经到达了炉火纯青的地步&#xff0c;不妨来试试这道题目&#xff1f; #include<stdio.h> int main() {char* c[] { "ENTER","NEW","POINT","FIRST" };char** cp[] { c 3…

docker 安装可视化工具 Protainer 以及 汉化

一、创建保存数据的卷 安装网址&#xff1a;Install Portainer BE with Docker on Linux - Portainer Documentation docker pull portainer/portainer二、根据portainer镜像创建容器 docker run -d -p 8000:8000 -p 9000:9000\ --name portainer --restartalways \ -v /var/r…

缺失的第一个正数(LeetCode 41)

文章目录 1.问题描述2.难度等级3.热门指数4.解题思路4.1 暴力4.2 排序4.3 哈希表4.4 空间复杂度为 O(1) 的哈希表4.5 置换 参考文献 1.问题描述 给你一个未排序的整数数组 nums &#xff0c;请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级…

网络MAC

网口框架 关键字 MAC&#xff1a; media access controller RMI: reduced media interface SMI&#xff1a;serial media interface N/A: Not applicable 全双工 & 半双工 3.1、在全双工模式下&#xff0c;8网根线都要分别接到水晶头相应的线序位置上&#xff1b; 3.2在…

数据之光:乡镇企业的发展利器——数据可视化

数据可视化是一项强大的工具&#xff0c;它不仅在大型企业中发挥关键作用&#xff0c;而且在乡镇企业中也能作出显著贡献。那么&#xff0c;数据可视化究竟能为乡镇企业做出什么样的贡献呢&#xff1f; 首先&#xff0c;数据可视化为乡镇企业提供了更清晰的业务洞察。通过将庞大…

Linux性能优化全景指南

Part1 Linux性能优化 1、性能优化性能指标 高并发和响应快对应着性能优化的两个核心指标&#xff1a;吞吐和延时 应用负载角度&#xff1a;直接影响了产品终端的用户体验系统资源角度&#xff1a;资源使用率、饱和度等 性能问题的本质就是系统资源已经到达瓶颈&#xff0c;但…

swing快速入门(三十一)文件选择器

注释很详细&#xff0c;直接上代码 上一篇 新增内容 1.菜单项按键响应 2. 文件选择器对话框用法 3.绘画板用法 package swing21_30;import javax.imageio.ImageIO; import javax.swing.*; import java.awt.*; import java.awt.event.ActionEvent; import java.awt.image.B…

vue2 echarts饼图,双柱图

<template><div><div class"toQ"><el-row><el-col :span"12"><div class"toW"><el-card><div class"data-title"><div class"toE">周杰伦</div></div>&…

Vscode新手安装与使用

安装与版本选择 VS Code 有两个不同的发布渠道&#xff1a;一个是我们经常使用的稳定版&#xff08;Stable&#xff09;&#xff0c;每个月发布一个主版本&#xff1b;另外一个发布渠道叫做 Insiders&#xff0c;每周一到周五 UTC 时间早上6点从最新的代码发布一个版本&#x…