【机器学习笔记】机器学习基本概念

机器学习基本概念

文章目录

  • 机器学习基本概念
    • 1 概述
    • 2 机器学习实验方法与原则
      • 2.1 平均指标
    • 2.2 训练集、验证集与测试集
    • 2.3 随机重复实验
    • 2.4 K折交叉验证
    • 2.4 统计有效性检验

1 概述

  1. 什么是机器学习 —— 在某种任务上基于经验不断进步

    T (Task):需要解决什么任务

    P(Performance):任务确定什么指标

    E(Experience):通过什么经验学习进步

  2. 归纳学习假设

    任一假设若在足够大训练样例集很好地逼近目标函数, 它也能在未见实例中很好地逼近目标函数

  3. 通用机器学习系统设计

    • 用于训练的经验——数据、训练过程、特征(训练数据偏差)

    • 到底应该学什么——目标函数:正确 vs 可行(假设

    • 应该如何表示——函数类型必须依据表达能力仔细选取

    • 具体用什么算法去学习——最小均方误差、梯度下降法

    • 综合设计——数据→特征表示→算法→评价

      image-20240122215205128

  4. 基本概念

    • 实例空间(Instance Space) X:例:每一天由一些属性描述 天空,空气温度,湿度,风,水,预报

    • 假设空间(Hypothesis Space) H:例:一个假设 if (温度 = 寒冷 AND 湿度 = 高) then 打网球 = 否

    • 训练样例空间(Sample Space) D:正例和负例 (基于问题设定)<x1,c(x1)> ,……, <xm,c(xm)>

    • 目标概念(Target Concept) C:假设 h ∈ H h∈H hH,求 $ h(x)=c(x)for;all;x∈X $

      全部x的实例空间太大,换成$ h(x)=c(x)for;all;x∈D $

  5. 有监督和无监督学习

    有监督无监督
    训练样例(X,Y)对,通常包含人为的努力仅 X ,通常不涉及人力
    学习目标学习 X 和 Y 的关系学习 X 的结构
    效果衡量损失函数
    应用预测: X=输入, Y=输出分析: X=输入

2 机器学习实验方法与原则

2.1 平均指标

  1. 回归任务:预测值 p i p_i pi 常为连续值,需要衡量与真实值 y i y_i yi 之间的误差

    • 平均绝对误差(MAE)
      M A E = 1 n ∑ i = 1 n ∣ y i − p i ∣ MAE=\frac {1} {n}\sum_{i=1}^{n} {|y_i-p_i|} MAE=n1i=1nyipi

    • 均方误差(MSE):预测误差较大的样本影响更大
      M S E = 1 n ∑ i = 1 n ( y i − p i ) 2 MSE=\frac {1} {n}\sum_{i=1}^{n} {(y_i-p_i)^2} MSE=n1i=1n(yipi)2

    • 均方根误差(RMSE):与预测值、标签单位相同
      R M S E = M S E = 1 n ∑ i = 1 n ( y i − p i ) 2 RMSE=\sqrt{MSE}=\sqrt{\frac {1} {n}\sum_{i=1}^{n} {(y_i-p_i)^2}} RMSE=MSE =n1i=1n(yipi)2

  2. 分类任务:预测值一般为离散的类别,需要判断是否等于真实类别

    • 准确率(Accuracy)
      A c c u r a c y = 1 n ∑ i = 1 n ( y i = p i ) Accuracy=\frac {1} {n}\sum_{i=1}^{n} {(y_i=p_i)} Accuracy=n1i=1n(yi=pi)

    • 错误率(Error Rate)
      E r r o r R a t e = 1 − A c c u r a c y = 1 − 1 n ∑ i = 1 n ( y i = p i ) Error\,Rate = 1-Accuracy=1-\frac {1} {n}\sum_{i=1}^{n} {(y_i=p_i)} ErrorRate=1Accuracy=1n1i=1n(yi=pi)

      以下为针对二分类任务的评价指标

      image-20240122230828785.png

    • 精度(Precision):预测为正例的样本中有多少确为正例
      P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP+FP} Precision=TP+FPTP

    • 召回率(Recall):找到的真实正例占所有正例中的比例
      R e c a l l = T P T P + F N Recall = \frac{TP}{TP+FN} Recall=TP+FNTP

    • 加权调和平均 F β F_\beta Fβ​:
      F β = 1 / [ 1 1 + β 2 ( 1 P + β 2 R ) ] F 1 = 2 P R P + R F_\beta=1/[\frac{1}{1+\beta ^2}(\frac{1}{P}+\frac{\beta^2}{R})]\\ F_1=\frac{2PR}{P+R} Fβ=1/[1+β21(P1+Rβ2)]F1=P+R2PR

    • ROC曲线:表示在不同阈值下模型的真阳性率(TPR)和假阳性率(FPR)之间的关系。

      image-20240122232003344

      • 根据预测值对样本排序
      • 以该样本的预测值为阈值
      • 大于或等于阈值记正例,否则记负例可得到一组结果及评价指标,共有样本数n组结果
      • 假正例率(False Positive Rate,FPR)为横轴
      • 真正例率(True Positive Rate,TPR,也即召回率)为纵轴
    • AUC(Area Under ROC Curve):ROC曲线下的面积,越大越好

      • 把测试样例以预测值从大到小排序,其中有n1个真实正例,n0个真实负例
      • r i r_i ri 为第 i i i 个真实负例的秩(排序位置), S 0 = ∑ r i S_0=\sum r_i S0=ri

      A U C = S 0 − n 0 ( n 0 + 1 ) / 2 n 0 N 1 AUC=\frac{S_0-n_0(n_0+1)/2}{n_0N_1} AUC=n0N1S0n0(n0+1)/2

      image-20240122233627200

  3. 特定任务:

    • 个性化推荐:前K项精度(Precision@K)、前K项召回率(Recall@K)、前K项 命中率(Hit@K)等

    • 对话系统:BLEU、ROUGE、METEOR等

    • DCG(Discounted Cumulative Gain):DCG 是对一个特定位次p的累积增益(Cumulative)

2.2 训练集、验证集与测试集

  1. 训练集:模型可见样本标签,用于训练模型,样本数有限
  2. 测试集:用于评估模型在可能出现的未见样本上的表现
  3. 验证集:从训练集中额外分出的集合,一般用于超参数的调整(防止过拟合

image-20240122234843100

2.3 随机重复实验

  1. 数据随机性:由数据集划分带来的评价指标波动
    • (数据足够多时)增多测试样本
    • (数据量有限时)重复多次划分数据集
  2. 模型随机性:由模型或学习算法本身带来的评价指标波动
    • 更改随机种子重复训练、测试
  3. 报告结果:评价指标的均值 X ˉ = 1 n ∑ i = 1 n X i \bar X=\frac{1}{n}\sum_{i=1}^{n}X_i Xˉ=n1i=1nXi
    • 样本标准差(个体离散程度,反映了个体对样本均值的代表性) S = ∑ i = 1 n ( X i − X ˉ ) 2 / ( n − 1 ) S=\sqrt{\sum_{i=1}^{n}(X_i-\bar X)^2/(n-1)} S=i=1n(XiXˉ)2/(n1)
    • 标准误差(样本均值的离散程度,反映了样本均值对总体均值的代表性) S E M = S n SEM=\frac{S}{\sqrt{n}} SEM=n S

注意:保持每次得到的评价指标独立同分布(iid)

2.4 K折交叉验证

​ 随机把数据集分成K个相等大小的不相交子集,K一般取5、10

image-20240122235825060

  • 优点:数据利用率高,适用于数据较少时
  • 缺点:训练集互相有交集,每一轮之间并不满足独立同分布
  • 增大K,一般情况下:
    • 所估计的模型效果偏差(bias)下降
    • 所估计的模型效果方差(variance)上升
    • 计算代价上升,更多轮次、训练集更大

2.4 统计有效性检验

  1. 抽样理论基础

    二项分布:描述了在n次次独立的伯努利试验中,成功的次数的离散情况。

    伯努利试验:成功概率: p,失败概率: q =1-p;n次试验中正好得到r次成功的概率为P®。
    P ( r ) = C n r p r ( 1 − p ) n − r = n ! r ! ( n − r ) ! p r ( 1 − p ) n − r P(r)=C_n^rp^r(1-p)^{n-r}=\frac{n!}{r!(n-r)!}p^r(1-p)^{n-r} P(r)=Cnrpr(1p)nr=r!(nr)!n!pr(1p)nr
    image-20240125204758756

  2. 效果估计

    给定一个假设在有限量数据上的准确率,该准确率是否能准确估计在其它未见数据上的效果?

    n 个随机样本中有 r 个被误分类的概率——二项分布(样本的错误率=真实的错误率)
    真实错误率 e r r o r D ( h ) = p , 样本错误率 e r r o r S ( h ) = r / n E [ r ] = n p , E [ e r r o r S ( h ) ] = E [ r / n ] = p = e r r o r D ( h ) σ e r r o r S ( h ) = σ r n ≈ e r r o r S ( h ) ( 1 − e r r o r S ( h ) ) n 真实错误率error_D(h)=p,样本错误率error_S(h)=r/n\\ E[r]=np,E[error_S(h)]=E[r/n]=p=error_D(h)\\ σ_{error_S(h)}=\frac{σ_r}{n}≈\sqrt{\frac{error_S(h)(1-error_S(h))}{n}} 真实错误率errorD(h)=p,样本错误率errorS(h)=r/nE[r]=np,E[errorS(h)]=E[r/n]=p=errorD(h)σerrorS(h)=nσrnerrorS(h)(1errorS(h))
    样本期望值=真实期望值;样本方差值 ≈ 真实方差值

    • 估计**偏差 (Bias)**

      如果 S 是训练集, e r r o r S ( h ) error_S (h) errorS(h) 是有偏差的,bias指样本错误率的期望真实错误率的差值
      bias = E [ error S ( h ) ] − error D ( h ) \text{bias}=E[\text{error}_S(h)]-\text{error}_D(h) bias=E[errorS(h)]errorD(h)
      对于无偏估计(bias =0), h(训练集模型)和 S(测试集)必须独立不相关地产生——不要在训练集上测试!

    • 估计**方差 (Varias)**

      即使是S 的无偏估计, e r r o r S ( h ) error_S (h) errorS(h) 可能仍然和 e r r o r D ( h ) error_D (h) errorD(h) 不同,例:n=100,r=12;n=25,r=3错误率都为12%,但是方差分别为3.2%,6.5%

      需要选择无偏的且有最小方差的估计

  3. 置信区间——准确率的估计可能包含多少错误?

    定义:参数p 的N %置信区间是一个以N %的概率包含p 的区间, N% : 置信度

    90.0%的置信度 ,年龄:[12, 24]

    99.9%的置信度,年龄:[3, 60]

    • 如何得到置信区间?——通过正态分布的某个区间 (面积)来获得

      image-20240125213425919

      均值 μ μ μ有N%的可能性落在区间 y ± Z N σ y±Z_Nσ y±ZNσ

    • 中心极限定理——当样本量足够大时,二项分布可以用正态分布来近似

      经验法则: n > 30 , n p ( 1 − p ) > 5 n>30, np(1-p)> 5 n>30,np(1p)>5

      问题设定:

      a. 独立同分布的随机变量 Y 1 , . . . , Y n Y_1,...,Y_n Y1,...,Yn

      b. 未知分布,有均值 μ \mu μ和有限方差 σ 2 \sigma^2 σ2

      c. 估计均值为 Y ˉ = 1 n ∑ i = 1 n Y i \bar Y=\frac{1}{n}\sum_{i=1}^nY_i Yˉ=n1i=1nYi,服从正态分布

      若S 包含 n >= 30个样本, 与h独立产生,且每个样本独立采样,则真实错误率 e r r o r D error_D errorD落在以下区间有N% 置信度:
      e r r o r S ( h ) ± z N e r r o r S ( h ) ( 1 − e r r o r S ( h ) ) n error_S(h)±z_N\sqrt{\frac{error_S(h)(1-error_S(h))}{n}} errorS(h)±zNnerrorS(h)(1errorS(h))

  4. 假设检验

    比较两个样本或一个样本和一个常数的均值差异是否显著

    • z检验

      Z检验通常用于大样本(样本容量大于30)或已知总体标准差的情况。Z值的计算方式为:

      Z = X ˉ − μ σ n Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} Z=n σXˉμ

      • X ˉ \bar{X} Xˉ 是样本均值。
      • μ \mu μ是总体均值。
      • σ \sigma σ是总体标准差。
      • n n n 是样本容量。

      一般用于单次评测,随机变量为每个测试样本的对错

    • t检验

      t检验适用于小样本(样本容量小于30)或总体标准差未知的情况。t值的计算方式为:
      t = X ˉ − μ s n t = \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} t=n sXˉμ

      • X ˉ \bar{X} Xˉ 是样本均值。
      • μ \mu μ是总体均值。
      • s s s是样本标准差。
      • n n n 是样本容量。

      一般用于多次评测如重复实验,随机变量为每次测试集上的指标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2776049.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

如何写一个其他人可以使用的GitHub Action

前言 在GitHub中&#xff0c;你肯定会使用GitHub Actions自动部署一个项目到GitHub Page上&#xff0c;在这个过程中总要使用workflows工作流&#xff0c;并在其中使用action&#xff0c;在这个使用的过程中&#xff0c;总会好奇怎么去写一个action呢&#xff0c;所以&#xff…

数字图像处理实验记录六(图像的傅里叶变换和频域处理)

前言&#xff1a; 一、基础知识 1&#xff0c;傅里叶变换是什么 傅里叶变换是一种线性积分变换&#xff0c;通俗来说&#xff0c;通过傅里叶变换就是把一段信号分解成若干个简谐波。 二、实验要求 1&#xff0e;产生一幅如图所示亮块图像f(x,y)&#xff08;256256 大小、…

Project2007下载安装教程,保姆级教程,附安装包和工具

前言 Project是一款项目管理软件&#xff0c;不仅可以快速、准确地创建项目计划&#xff0c;而且可以帮助项目经理实现项目进度、成本的控制、分析和预测&#xff0c;使项目工期大大缩短&#xff0c;资源得到有效利用&#xff0c;提高经济效益。软件设计目的在于协助专案经理发…

数据结构入门(1)数据结构介绍

目录 前言 1. 什么是数据结构&#xff1f; 2.什么是算法&#xff1f; 3.数据结构和算法的重要性 前言 本文将开始介绍计算机里的数据结构。 数据结构是指数据对象中元素之间的关系&#xff0c;以及对这些关系的操作。数据结构可以分为线性结构和非线性结构。 线性结构是…

【MySQL进阶之路】BufferPool底层设计(下)

欢迎关注公众号&#xff08;通过文章导读关注&#xff1a;【11来了】&#xff09;&#xff0c;及时收到 AI 前沿项目工具及新技术的推送&#xff01; 在我后台回复 「资料」 可领取编程高频电子书&#xff01; 在我后台回复「面试」可领取硬核面试笔记&#xff01; 文章导读地址…

(基础算法)归并排序

1.确定分界点 mid &#xff08;lr&#xff09;/2 2.递归排序左右两段 3.归并----合二为一 #include<iostream> using namespace std; //归并排序----分治 const int N10010; int n; int q[N],tmp[N];//需要一个额外数组void mergesort(int q[],int l,int r)//l左边界&a…

深度学习技巧应用36-深度学习模型训练中的超参数调优指南大全,总结相关问题与答案

大家好,我是微学AI,今天给大家介绍一下深度学习技巧应用36-深度学习模型训练中的超参数调优指南大全,总结相关问题与答案。深度学习模型训练中的调优指南大全概括了数据预处理、模型架构设计、超参数优化、正则化策略和训练技巧等多个关键方面,以提升模型性能和泛化能力。 …

Spring 的奇幻起源:从 IoC 容器到 Bean 的魔法世界 ✨

目录 什么是 Spring&#xff1f;为什么它如此流行&#xff1f; IoC 容器&#xff1a;从“依赖倒置”到“控制反转” Bean&#xff1a;IoC 容器中的基本组件 Spring 中的配置方式&#xff1a;XML、注解和 JavaConfig Bean 的作用域和生命周期管理 Bean 的属性装配和自动装配…

C 语言学习七:指针

指针 指针与地址指针的声明和初始化指针的解引用指针的比较指针和数组指针数组指针和动态内存分配 指针与函数参数指针作为函数参数二级指针 指向函数的指针 指针与地址 指针的声明和初始化 int variable 42; int *ptr &variable; //间接访问 int value *ptr; // valu…

AD9361多片同步设计方法

本文基于ZC706FMCOMMS5的平台&#xff0c;介绍了多片AD9361同步的方法。并将该设计移植到自行设计的ZYNQ70354片AD9361(实现8路同步收发)的电路板上。本设计采用纯逻辑的方式&#xff0c;仅使用了ZYNQ芯片的PL部分。 9361多芯片同步主要包括基带同步和射频同步两大块任务。其中…

nacos配置自动刷新源码解析

文章目录 一、前言二、源码解析1、nacos客户端如何监听服务端配置变化的2、ConfigurationProperties注解的bean是如何自动刷新的3、RefreshScope 注解的bean是如何自动刷新的 三、总结 一、前言 最近好奇 nacos 是怎么做到配置自动刷新的&#xff0c;于是就去debug跟了下源码&…

使用CURL命令实现tftp和ftp客户端功能

要使用curl命令实现FTP文件发送&#xff0c;您需要使用以下命令格式&#xff1a; curl -T <local_file_path> -u <username>:<password> ftp://<ftp_server_address>/<remote_file_path> 其中: <local_file_path> 是本地文件的路径&…

下载已编译的 OpenCV 包在 Visual Studio 下实现快速配置

自己编译 OpenCV 挺麻烦的&#xff0c;配置需要耗费很长时间&#xff0c;编译也需要很长时间&#xff0c;而且无法保证能全部编译通过。利用 OpenCV 官网提供的已编译的 OpenCV 库可以节省很多时间。下面介绍安装配置方法。 1. OpenCV 官网 地址是&#xff1a;https://opencv…

【Redis】深入理解 Redis 常用数据类型源码及底层实现(3.详解String数据结构)

【Redis】深入理解 Redis 常用数据类型源码及底层实现&#xff08;1.结构与源码概述&#xff09;-CSDN博客 【Redis】深入理解 Redis 常用数据类型源码及底层实现(2.版本区别dictEntry & redisObject详解)-CSDN博客 紧接着前两篇的总体介绍&#xff0c;从这篇开始&#x…

yo!这里是Linux线程保姆级入门介绍

目录 前言 Linux线程基础 线程概念 底层示意图 线程vs进程 Linux线程控制 创建线程 线程ID 线程终止 线程等待 线程分离 Linux线程互斥 背景概念 互斥量mutex 1.相关接口 2.实现原理 可重入vs线程安全 死锁 Linux线程同步 条件变量 生产者消费者模型 基于…

排序算法---堆排序

原创不易&#xff0c;转载请注明出处。欢迎点赞收藏~ 堆排序&#xff08;Heap Sort&#xff09;是一种基于二叉堆数据结构的排序算法。它将待排序的元素构建成一个最大堆&#xff08;或最小堆&#xff09;&#xff0c;然后逐步将堆顶元素与堆的最后一个元素交换位置&#xff0c…

Cilium CNI深度指南

Cilium是基于eBPF的功能强大的CNI插件&#xff0c;为云原生环境提供了强大的网络和安全支持。原文: Cilium CNI: A Comprehensive Deep Dive Guide for Networking and Security Enthusiasts! &#x1f313;简介 欢迎阅读为网络和安全爱好者提供的全面深入的指南&#xff01; 本…

深度分析一款新型Linux勒索病毒

前言 DarkRadiation勒索病毒是一款全新的Linux平台下的勒索病毒&#xff0c;2021年5月29日首次在某平台上发布了此勒索病毒的相关的信息&#xff0c;6月中旬趋势科技针对这个新型的勒索病毒进行了相关的分析和报道。 DarkRadiation勒索病毒采用Bash脚本语言编写实现&#xff0…

恒流源方案对比

1、双运放恒流源 2、运放三极管放大电路组成的恒流源 5A 3、运放三极管组成的恒流源 200uA 4、运放MOS管组成的恒流源 100mA 5、电源模块并联输出100A恒流

【前沿技术杂谈:多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI

【前沿技术杂谈&#xff1a;多模态文档基础模型】使用多模态文档基础模型彻底改变文档 AI 从文本到多模态模型&#xff1a;文档 AI 逐渐发展新技能。行业领先的型号Document AI 的下一步&#xff1a;开发通用和统一框架 您是否曾经被包含不同信息&#xff08;如应付账款、日期、…