【机器学习笔记】机器学习基本概念

机器学习基本概念

文章目录

机器学习基本概念
- 1 概述
- 2 机器学习实验方法与原则
- - 2.1 平均指标
- 2.2 训练集、验证集与测试集
- 2.3 随机重复实验
- 2.4 K折交叉验证
- 2.4 统计有效性检验

1 概述

什么是机器学习 —— 在某种任务上基于经验不断进步

T (Task)：需要解决什么任务

P(Performance)：任务确定什么指标

E(Experience)：通过什么经验学习进步
归纳学习假设

任一假设若在足够大的训练样例集中很好地逼近目标函数，它也能在未见实例中很好地逼近目标函数
通用机器学习系统设计
- 用于训练的经验——数据、训练过程、特征（训练数据偏差）
- 到底应该学什么——目标函数：正确 vs 可行（假设）
- 应该如何表示——函数类型必须依据表达能力仔细选取
- 具体用什么算法去学习——最小均方误差、梯度下降法
- 综合设计——数据→特征表示→算法→评价
基本概念
- 实例空间(Instance Space) X：例：每一天由一些属性描述天空，空气温度，湿度，风，水，预报
- 假设空间(Hypothesis Space) H：例：一个假设 if (温度 = 寒冷 AND 湿度 = 高) then 打网球 = 否
- 训练样例空间(Sample Space) D：正例和负例 (基于问题设定）<x₁,c(x₁)> ,……, <x_m,c(x_m)>
- 目标概念(Target Concept) C：假设 $h \in H$ ，求 $ h(x)=c(x)for;all;x∈X $
  
  全部x的实例空间太大，换成$ h(x)=c(x)for;all;x∈D $

有监督和无监督学习

	有监督	无监督
训练样例	(X,Y)对，通常包含人为的努力	仅 X ,通常不涉及人力
学习目标	学习 X 和 Y 的关系	学习 X 的结构
效果衡量	损失函数	无
应用	预测: X=输入, Y=输出	分析: X=输入

2 机器学习实验方法与原则

2.1 平均指标

回归任务：预测值 $p_i$ 常为连续值，需要衡量与真实值 $y_i$ 之间的误差
- 平均绝对误差（MAE）
  $MAE=\frac {1} {n}\sum_{i=1}^{n} {|y_i-p_i|}$
- 均方误差（MSE）：预测误差较大的样本影响更大
  $MSE=\frac {1} {n}\sum_{i=1}^{n} {(y_i-p_i)^2}$
- 均方根误差（RMSE）：与预测值、标签单位相同
  $RMSE=\sqrt{MSE}=\sqrt{\frac {1} {n}\sum_{i=1}^{n} {(y_i-p_i)^2}}$
分类任务：预测值一般为离散的类别，需要判断是否等于真实类别
- 准确率（Accuracy）
  $Accuracy=\frac {1} {n}\sum_{i=1}^{n} {(y_i=p_i)}$
- 错误率（Error Rate）
  $Error\,Rate = 1-Accuracy=1-\frac {1} {n}\sum_{i=1}^{n} {(y_i=p_i)}$
  
  以下为针对二分类任务的评价指标
- 精度（Precision）:预测为正例的样本中有多少确为正例
  $\frac{TP}{TP+FP}$
- 召回率（Recall）：找到的真实正例占所有正例中的比例
  $\frac{TP}{TP+FN}$
- 加权调和平均 $F_\beta$ ：
  $F_\beta=1/[\frac{1}{1+\beta ^2}(\frac{1}{P}+\frac{\beta^2}{R})]\\ F_1=\frac{2PR}{P+R}$
- ROC曲线：表示在不同阈值下模型的真阳性率（TPR）和假阳性率（FPR）之间的关系。
  - 根据预测值对样本排序
  - 以该样本的预测值为阈值
  - 大于或等于阈值记正例，否则记负例可得到一组结果及评价指标，共有样本数n组结果
  - 假正例率（False Positive Rate，FPR）为横轴
  - 真正例率（True Positive Rate，TPR，也即召回率）为纵轴
- AUC（Area Under ROC Curve）：ROC曲线下的面积，越大越好
  - 把测试样例以预测值从大到小排序，其中有n1个真实正例，n0个真实负例
  - 设 $r_i$ 为第 $i$ 个真实负例的秩（排序位置）， $S_0=\sum r_i$
  $AUC=\frac{S_0-n_0(n_0+1)/2}{n_0N_1}$
特定任务：
- 个性化推荐：前K项精度（Precision@K）、前K项召回率（Recall@K）、前K项命中率（Hit@K）等
- 对话系统：BLEU、ROUGE、METEOR等
- DCG(Discounted Cumulative Gain)：DCG 是对一个特定位次p的累积增益(Cumulative)

2.2 训练集、验证集与测试集

训练集：模型可见样本标签，用于训练模型，样本数有限
测试集：用于评估模型在可能出现的未见样本上的表现
验证集：从训练集中额外分出的集合，一般用于超参数的调整（防止过拟合）

2.3 随机重复实验

数据随机性：由数据集划分带来的评价指标波动
- （数据足够多时）增多测试样本
- （数据量有限时）重复多次划分数据集
模型随机性：由模型或学习算法本身带来的评价指标波动
- 更改随机种子重复训练、测试
报告结果：评价指标的均值 $\bar X=\frac{1}{n}\sum_{i=1}^{n}X_i$
- 样本标准差(个体离散程度，反映了个体对样本均值的代表性) $S=\sqrt{\sum_{i=1}^{n}(X_i-\bar X)^2/(n-1)}$
- 标准误差(样本均值的离散程度，反映了样本均值对总体均值的代表性) $SEM=\frac{S}{\sqrt{n}}$

注意：保持每次得到的评价指标独立同分布(iid)

2.4 K折交叉验证

随机把数据集分成K个相等大小的不相交子集，K一般取5、10

优点：数据利用率高，适用于数据较少时
缺点：训练集互相有交集，每一轮之间并不满足独立同分布
增大K，一般情况下：
- 所估计的模型效果偏差（bias）下降
- 所估计的模型效果方差（variance）上升
- 计算代价上升，更多轮次、训练集更大

2.4 统计有效性检验

抽样理论基础

二项分布：描述了在n次次独立的伯努利试验中，成功的次数的离散情况。

伯努利试验：成功概率: p，失败概率: q =1-p；n次试验中正好得到r次成功的概率为P®。
$P(r)=C_n^rp^r(1-p)^{n-r}=\frac{n!}{r!(n-r)!}p^r(1-p)^{n-r}$
效果估计

给定一个假设在有限量数据上的准确率，该准确率是否能准确估计在其它未见数据上的效果？

n 个随机样本中有 r 个被误分类的概率——二项分布（样本的错误率=真实的错误率）
$真实错误率error_D(h)=p,样本错误率error_S(h)=r/n\\ E[r]=np,E[error_S(h)]=E[r/n]=p=error_D(h)\\ σ_{error_S(h)}=\frac{σ_r}{n}≈\sqrt{\frac{error_S(h)(1-error_S(h))}{n}}$
样本期望值=真实期望值；样本方差值 ≈ 真实方差值
- 估计**偏差（Bias）**
  
  如果 S 是训练集, $error_S (h)$ 是有偏差的，bias指样本错误率的期望与真实错误率的差值
  $\text{bias}=E[\text{error}_S(h)]-\text{error}_D(h)$
  对于无偏估计(bias =0), h(训练集模型)和 S(测试集)必须独立不相关地产生——不要在训练集上测试！
- 估计**方差（Varias）**
  
  即使是S 的无偏估计, $error_S (h)$ 可能仍然和 $error_D (h)$ 不同，例：n=100,r=12;n=25,r=3错误率都为12%，但是方差分别为3.2%,6.5%
  
  需要选择无偏的且有最小方差的估计
置信区间——准确率的估计可能包含多少错误？

定义：参数p 的N %置信区间是一个以N %的概率包含p 的区间, N% : 置信度

90.0%的置信度，年龄：[12, 24]

99.9%的置信度，年龄：[3, 60]
- 如何得到置信区间?——通过正态分布的某个区间（面积）来获得
  
  均值 $μ$ 有N%的可能性落在区间 $y±Z_Nσ$
- 中心极限定理——当样本量足够大时，二项分布可以用正态分布来近似。
  
  经验法则： $n > 30, n p (1 - p) > 5$
  
  问题设定：
  
  a. 独立同分布的随机变量 $Y_1,...,Y_n$ ；
  
  b. 未知分布，有均值 $\mu$ 和有限方差 $\sigma^2$ ；
  
  c. 估计均值为 $\bar Y=\frac{1}{n}\sum_{i=1}^nY_i$ ，服从正态分布
  
  若S 包含 n >= 30个样本, 与h独立产生，且每个样本独立采样，则真实错误率 $error_D$ 落在以下区间有N% 置信度:
  $error_S(h)±z_N\sqrt{\frac{error_S(h)(1-error_S(h))}{n}}$
假设检验

比较两个样本或一个样本和一个常数的均值差异是否显著
- z检验
  
  Z检验通常用于大样本（样本容量大于30）或已知总体标准差的情况。Z值的计算方式为：
  
  $\frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}$
  - $\bar{X}$ 是样本均值。
  - $\mu$ 是总体均值。
  - $\sigma$ 是总体标准差。
  - $n$ 是样本容量。
  一般用于单次评测，随机变量为每个测试样本的对错
- t检验
  
  t检验适用于小样本（样本容量小于30）或总体标准差未知的情况。t值的计算方式为：
  $\frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}}$
  - $\bar{X}$ 是样本均值。
  - $\mu$ 是总体均值。
  - $s$ 是样本标准差。
  - $n$ 是样本容量。
  一般用于多次评测如重复实验，随机变量为每次测试集上的指标