【R语言从0到精通】-4-回归建模

通过之前的文章,我们已经基本掌握了R语言的基本使用方法,那从本次教程开始,我们开始聚焦如何使用R语言进行回归建模。


4.1 回归简介

回归分析是一种统计学方法,用于研究两个或多个变量之间的相互关系和依赖程度。它可以帮助我们了解一个或多个自变量(解释变量)如何影响因变量(响应变量)。在回归分析中,通常假设存在某种因果关系,即自变量的变化会导致因变量的变化。

回归分析可以分为多种类型,其中最常见的是线性回归和多项式回归。线性回归试图找到一条直线来最好地拟合数据点,而多项式回归则寻找一个多项式函数来描述变量之间的关系。此外,还有逻辑回归、岭回归、套索回归等不同的回归模型,它们适用于不同类型的数据和分析需求。

在实际应用中,回归分析被广泛使用于预测和建模任务,比如在经济学中预测房价与房屋特征的关系,或者在医学研究中分析疾病发病率与生活习惯的关联。通过构建回归模型,研究者可以估计出特定自变量变化对因变量的影响大小,并据此做出预测。

进行回归分析时,通常会计算一个统计量——决定系数(R²),它表示模型对数据的拟合程度。R²值的范围从0到1,越接近1意味着模型的解释能力越强。然而,高R²值并不总是意味着模型就一定是好的,因为可能存在过拟合问题,即模型过于复杂以至于捕捉到了数据中的噪声而非底层规律。

4.2 OLS回归

普通最小二乘回归(Ordinary Least Squares, OLS)是一种基本的回归分析方法,它广泛应用于经济学、金融学、生物学、市场营销等多个领域。OLS回归的核心思想是通过最小化误差的平方和来寻找数据的最佳函数匹配。具体来说,OLS回归试图找到一组参数,使得模型预测值与实际观测值之间的差的平方和达到最小。

在使用OLS回归时,我们首先设定一个回归方程,这个方程定义了因变量(Y)与一个或多个自变量(X1, X2, ..., Xk)之间的关系。然后,OLS回归算法会计算出一个系数向量β,这个向量包含了各个自变量对应的最优权重,以便得到最佳的预测模型。

4.2.1 简单线性回归

我们使用lm函数进行函数拟合,我们以身高体重两个变量进行回归分析,使用内置数据集women

fit <- lm(weight ~ height, data = women)
summary(fit)

我们可视化我们的回归直线及数据点:

plot(women$height, women$weight,xlab = '身高',ylab = '体重',abline(fit))

通过summary的结果,我们知道这个方程是:

体重 = -87.52 + 3.45*身高

4.2.2 多项式回归

我们可以通过添加一个二次项(X方)来提高回归准确度。

fit2 <- lm(weight ~ height + I(height^2), data = women)
summary(fit2)

我们再进行可视化拟合:

plot(women$height, women$weight,xlab = '身高',ylab = '体重',lines(women$height,fitted(fit2))

 

我们发现这个时候的拟合曲线比之前的要好,这时的拟合方程是:

体重 = 261.88 -7.35*身高 +0.083*身高^2

我们也可以实现n次多项式回归拟合,比如我们实现三次多项式拟合:

fit3 <- lm(weight ~ height + I(height^2) + I(height^3), data = women)
plot(women$height, women$weight,xlab = '身高',ylab = '体重')
lines(women$height,fitted(fit3))

4.2.3 多元线性回归

当我们遇到的问题有不止一个变量时,简单考虑x与y的关系并不能提高模型的准确度。比如我们探究一个因变量与若干自变量的关系,我们使用米国犯罪率与各个因素之间的数据进行拟合。我们选取犯罪率与人口、文盲率、平均收入及结霜天数进行多元线性回归。

一、单一变量间的相关性及进行线性拟合:

states <- as.data.frame(state.x77[,c('Murder','Population','Illiteracy','Income','Frost')])   #选取自变量
cor(states)    #计算相关性
library(car)
scatterplotMatrix(states, spread = FALSE,smoother.args = list(lty = 2),main = "Scatter Plot Matrix")    #绘制综合分析矩阵

我们可以看到不同变量之间的相关性:

我们绘制每个变量的密度图与拟合图:

       

比如谋杀率随着人口及文盲率的增加而增加,这样我们会对各个自变量与因变量之间的关系有个大致的了解。

二、每个变量相互独立的多元线性回归拟合方程:

我们还是通过lm函数进行拟合:

fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states)
summary(fit)

有星号的自变量是与犯罪率呈现某种关系的项,而其他项应该不呈现某种线性关系,我们通过value值来判断变量对于犯罪率的影响,比如文盲率的4是表示,在其他条件不变的情况下,文盲率每升高1%,则犯罪率升高4%。

三、变量间存在交互的多元线性回归:

 当两个变量会对一个因变量产生影响,而且两个自变量间存在一定关系,我们可以进行存在交互项的回归。一般交互项通过相除建立一个新的自变量,然后给这个自变量拟合一个系数

install.packages("MASS") # 如果没有安装MASS包,则需要先安装
library(MASS)
set.seed(123) # 设置随机种子以便结果可复现
n <- 100 # 样本大小
x1 <- rnorm(n) # 生成第一个解释变量
x2 <- rnorm(n) # 生成第二个解释变量
interaction_term <- x1 * x2 # 计算交互项
error <- rnorm(n, sd = 0.5) # 生成误差项
y <- 2 + 3*x1 - 2*x2 + 4*interaction_term + error # 生成响应变量
model <- lm(y ~ x1 + x2 + x1:x2) # 拟合包含交互项的模型
summary(model) # 查看模型摘要
# 绘制原始数据的散点图
plot(x1, y, xlab = "x1", ylab = "y", main = "Scatter plot of y vs x1")
abline(lm(y ~ x1), col = "red") # 添加线性回归线# 绘制x2与y的关系图
plot(x2, y, xlab = "x2", ylab = "y", main = "Scatter plot of y vs x2")
abline(lm(y ~ x2), col = "blue") # 添加线性回归线# 绘制交互项与y的关系图
plot(interaction_term, y, xlab = "Interaction term", ylab = "y", main = "Scatter plot of y vs Interaction term")
abline(lm(y ~ interaction_term), col = "green") # 添加线性回归线

 

 4.2.4 回归诊断

我们之前的拟合一般通过summary函数进行模型参数的获取,或者可视化看一下拟合,但是没有精确的指标指示拟合的好坏,因此我们学习如何进行回归诊断。

一、置信度:

我们可以查看置信区间,通过函数confint。

states <- as.data.frame(state.x77[,c('Murder','Population','Illiteracy','Income','Frost')])   #选取自变量
fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states)
confint(fit)

 

二、标准方法:

我们通过绘制判断回归正确性的四个图来进一步分析:

par(mfrow = c(2,2))
plot(fit)

我们来介绍一下这四个图的含义:

  1. 残差图(Residuals vs Fitted)‌:
    这个图展示了模型拟合值与残差之间的关系。理想情况下,我们希望看到残差均匀分布在零附近,没有明显的模式或趋势。如果残差随着拟合值的增加而系统性地增加或减少,这可能表明模型没有很好地捕捉到数据的某些方面,或者存在异方差性。

  2. 正态Q-Q图(Normal Q-Q)‌:
    正态Q-Q图用于检查残差的分布是否近似正态分布。图中会画出一条直线,表示如果数据完全来自正态分布时的期望位置。如果实际观测点紧密地围绕这条线分布,那么可以认为残差接近正态分布。偏离这条线可能意味着残差分布的非正态性,这可能会影响统计推断的准确性。

  3. Scale-Location图(Scale-Location)‌:
    这个图通常用来检测异方差性,即误差项的方差是否与预测值有关。图中横轴是拟合值,纵轴是残差的绝对值或平方根。如果这些点形成一条水平线,则说明误差方差是常数;如果点的分布呈现某种模式,如上升或下降的趋势,则可能表明存在异方差性。

  4. 残差与杠杆图(Residuals vs Leverage)‌:
    此图结合了残差和杠杆值的信息,用于检测异常值和强影响点。杠杆值衡量了每个观测点对拟合的影响程度,高杠杆的点可能是异常值或强影响点。图中通常会画出Cook's距离的轮廓线,帮助识别那些可能对回归系数估计产生较大影响的观测点。

不过当我们想要通过删除数据来提高模型的准确度的时候,一定要记住,是模型去拟合数据,而不是数据去拟合模型。

三、改进方法:

我们使用car这个包,这个包里对于回归诊断参数的图有独立的个性化的可视化方法,绘制比刚刚plot函数更丰富更有效率的图片。

(1)QQ plot

library(car)
par(mfrow = c(1,1))
qqPlot(fit, labels=row.names(states), id.method="identify", simulate=TRUE, main="Q-Q Plot")

 

且图片中显示出两个异常的点。

(2)Stu残差图:

residplot <- function(fit, nbreaks=10) {z <- rstudent(fit)
hist(z, breaks=nbreaks, freq=FALSE,xlab="Studentized Residual",main="Distribution of Errors")
rug(jitter(z), col="brown")
curve(dnorm(x, mean=mean(z), sd=sd(z)),add=TRUE, col="blue", lwd=2)
lines(density(z)$x, density(z)$y,col="red", lwd=2, lty=2)
legend("topright",legend = c( "Normal Curve", "Kernel Density Curve"),lty=1:2, col=c("blue","red"), cex=.7)}
residplot(fit)

除了一个离群点外,其他点均符合正态分布。

(3)其他重要图:

我们还可以绘制部分残差图来检查非线性关系,特别是当预测变量之间可能存在交互作用时。

par(mfrow = c(2,2))
for (i in 1:ncol(states)) {plot(states[,i], resid(fit), main = names(states)[i])
}
crPlots(fit)

四、强影响点判断:

我们在数据中,可能因为某一个点的强大影响导致模型发生较大变化,因此我们需要鉴定这样的点。 

par(mfrow = c(1,1))
cutoff <- 4/(nrow(states)-length(fit$coefficients)-2)
plot(fit, which=4, cook.levels=cutoff)
abline(h=cutoff, lty=2, col="red")

我们还可以整合离群点、杠杠值和强影响点。

influencePlot(fit)

4.2.5 回归改进

 在日常工作中,我们可以通过删除异常值来帮助模型优化,但是许多时候,在数据中含有的离群点并不一定是异常值,也是模型的一部分。

一、模型比较:

我们可以使用R语言自带的anova函数进行不同模型的比较。

states <- as.data.frame(state.x77[,c('Murder','Population','Illiteracy','Income','Frost')])   #选取自变量
fit1 <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states)
fit2 <- lm(Murder ~ Population + Illiteracy, data = states)
anova(fit1,fit2)

我们可以得到模型中加入考虑收入和绿化率是没什么必要的。

我们还可以使用AIC函数进行不同模型的比较:

AIC(fit1,fit2)

AIC值越小的模型是越好的模型。

二、变量选择:

在上述的例子中,我们已经能做出什么变量是我们所需的判断,但是在很多建模过程中,我们是不知道要选择什么样的模型的,因此模型选择是非常关键的,我们可以使用逐步回归法和全子集法。

1.逐步回归法:

我们可以对模型使用向前回归或者向后回归,向前回归就是在模型中逐个加入变量,直到模型的准确度不再发生变化,向后回归是在模型中先考虑全部的变量,然后再逐个减去变量。准确度通过AIC值来进行判断。

#向后回归
library(MASS)
fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states)
stepAIC(fit, direction = 'backward')

但是逐步回归法不能考虑到每一种情况,因此我们选择全子集回归。

2.全子集回归:

我们使用leaps包的regsubsets函数实现,通过我们之前学习的模型评价指标进行判定。

library(leaps)
leap <- regsubsets(Murder ~ Population + Illiteracy + Income + Frost, data = states,nbest = 4)
plot(leap,scale = 'adjr2')

通过这个图我们能发现不同变量排列组合后,根据R2的值大小进行选择,R2大的为我们最优的选择。

4.3 深入分析

我们对于模型的泛化能力及相对重要性进行评估。

4.3.1 交叉验证

我们刚刚一直在进行方程参数的拟合,但是在面对实际问题的时候,我们会想要对数据进行预测,也就是通过我们拟合出的方程对某个预测变量进行预测。

交叉验证在我之前讲的R语言深度学习的教程中就是表示我们对于数据集拆分,一部分作为拟合模型的数据,而另外一些数据作为验证集。其实学到这里就可以学习我的R语言深度学习相关课程了。

我们可以进行n重交叉验证,也就是把数据分为n分样本,然后使用n-1份样本作为拟合,1个样本作为验证集。我们使用caret包进行交叉验证,交叉验证的方法为"cv"(cross-validation)以及折数(folds)为10。

library(caret)
# 创建一个线性模型公式
model_formula <- Murder ~ Population + Illiteracy + Income + Frost
# 设置交叉验证参数
control <- trainControl(method = "cv", number = 10)
# 使用train函数训练模型并进行交叉验证
set.seed(123) # 设置随机种子以便结果可复现
fit <- train(model_formula, data = states, method = "lm", trControl = control)
# 查看模型的汇总信息
print(fit)

结果如下:

RMSE (Root Mean Squared Error): 均方根误差是衡量模型预测值与实际观测值之间差异的一个指标。较低的RMSE值意味着模型的预测更准确。
Rsquared: R平方值衡量的是模型解释的变异量占总变异量的比例。它的值介于0和1之间,越接近1表明模型拟合得越好。
MAE (Mean Absolute Error): 平均绝对误差是另一种衡量预测误差的指标,它计算的是预测值与实际值之差的绝对值的平均值。
MPG: 如果您的数据集中有关于每加仑英里数(Miles Per Gallon)的信息,那么这部分可能展示的是该变量的预测情况。
Tuning parameter: 调整参数部分会列出模型训练过程中尝试的不同参数组合及其对应的性能指标。

4.3.2 相对重要性

之前我们对于变量进行了选择,但是有没有方法可以得到每个变量的贡献度,也就是其相对重要性。这里我们使用一个高级的方法,机器学习的随机森林算法:

library(randomForest)# 准备数据集
states <- as.data.frame(state.x77[, c('Murder', 'Population', 'Illiteracy', 'Income', 'Frost')])# 使用randomForest函数训练模型并获取变量重要性
set.seed(123) # 设置随机种子以确保结果的可重复性
rf_model <- randomForest(Murder ~ Population + Illiteracy + Income + Frost, data=states, ntree=500)
importance(rf_model)# 可视化变量重要性
varImpPlot(rf_model)

我们可以得到文盲率是最关键的因素。

4.4 小结

通过学习完本次教程,你应该已经能独立使用R语言进行数据分析及建模,并推荐可以看我之前的教程,学习R语言深度学习相关知识,建模的过程需要不断尝试,祝大家好运,有什么问题可以评论区讨论。下一个教程我们将讨论方差分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3017488.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

QT7_视频知识点笔记_2_对话框,布局,按钮,控件(查看帮助文档找功能函数)

第二天&#xff1a; 对话框&#xff0c;布局&#xff0c;按钮 QMainWindow&#xff1a;菜单下拉框添加之后可通过ui->actionXXX&#xff08;自定义的选项名&#xff09;访问&#xff0c;用信号triggered发出信号&#xff0c;槽函数可以使用lambda表达式进行 //菜单栏&am…

文字转语音粤语怎么转换?6个软件教你快速进行文字转换语音

文字转语音粤语怎么转换&#xff1f;6个软件教你快速进行文字转换语音 当需要将文字转换为粤语语音时&#xff0c;可以使用多种工具和服务&#xff0c;这些工具可以帮助您快速而准确地实现这一目标。以下是六个非国内的语音转换软件&#xff0c;它们可以帮助您将文字转换为粤语…

web前端学习笔记7-iconfont使用

7. iconfont的使用流程 字体图标使用较多的是阿里巴巴iconfont图标库,它是阿里巴巴体验团队推出的图标库和图标管理平台,提供了大量免费和可定制的矢量图标,以满足网页设计、平面设计、UI设计、应用程序开发和其他创意项目的需求。 官方网站:https://www.iconfont.cn/ 使用…

大数据毕业设计Python+Django旅游景点评论数据采集分析可视化系统 NLP情感分析 LDA主题分析 bayes分类 旅游爬虫 旅游景点评论爬虫 机器学习 深度学习 人工智能 计算机毕业设计

毕业论文&#xff08;设计&#xff09;开题报告 学生姓名 学 号 所在学院 信息工程学院 专 业 指导教师姓名 指导教师职称 工程师 助教 指导教师单位 论文&#xff08;设计&#xff09;题目 基于朴素贝叶斯算法旅游景点线上评价情感分析 开 题 报 告…

Nginx从入门到精通速成

文章目录 一. **Nginx** **的简介**1.1 什么是 **nginx**1.2 正向代理1.3 反向代理1.4 **负载均衡**1.5 动静分离 二. **Nginx** **的安装**三. **Nginx** **的常用的命令**四. **Nginx** **的配置文件**五. **Nginx** **配置实例**反向代理实例**1**5.1 实现效果5.2 准备工作5…

计算机视觉——OpenCV Otsu阈值法原理及实现

算法简介 Otsu阈值法&#xff0c;也被称为大津算法&#xff0c;是一种在图像处理中广泛使用的自动阈值分割技术。这种方法由日本学者大津展之于1979年提出&#xff0c;旨在根据图像的灰度直方图来自动选择最佳全局阈值。Otsu阈值法的核心思想是最小化类内方差或最大化类间方差…

数据结构 第七章 图(一)

&#x1f680; 【考纲要求】图的基本概念 一、图的基本概念 1.1 图的定义 图由顶点和边组成&#xff0c;所以我们在表示一个图的时候&#xff0c;使用 G ( V , E ) G(V,E) G(V,E)&#xff0c;来表示一个G图&#xff0c;其中的V表示G图中的顶点&#xff0c;E表示G图中的边&am…

【SAP ME 35】SAP ME DEBUG模式开启

1、Debug基础参数配置 2、NWDS Debug模式开启 3、Debug模式下删除锁&#xff08;如果以上尝试无效&#xff0c;就执行删除锁&#xff09; 找到对应的锁任务进行删除&#xff01; -------------------------------------------------------------- SAP ME涉及问题较多&#…

(MATLAB)安装指南

参考链接&#xff1a;MATLAB2019a安装教程&#xff08;避坑版&#xff09;

MySQL 高级 - 第二章 | 数据库目录结构与文件系统

目录 前言一、数据库主要目录结构1.1 数据目录路径1.2 相关命令目录1.3 配置文件路径 二、数据库和文件系统的关系2.1 默认数据库2.2 数据库在文件系统中的表示2.3 数据表在文件系统中的表示2.3.1 InnoDB 存储引擎模式2.3.2 MyISAM 存储引擎模式 2.4 视图在文件系统中的表示2.5…

基于FPGA的多路彩灯控制器VHDL代码Quartus仿真

名称&#xff1a;基于FPGA的多路彩灯控制器VHDL代码Quartus仿真&#xff08;文末获取&#xff09; 软件&#xff1a;Quartus 语言&#xff1a;VHDL 代码功能&#xff1a; 多路彩灯控制器 综合训练内容要求 设计一台基于FPGA的多路彩灯控制器的设计。要求如下 1.彩灯从左…

怎样扫描二维码后看图片?图片二维码的制作方式

二维码是一种可以用来存储大量内容&#xff0c;通过扫描二维码的方式来向其他人提供内容&#xff0c;比较常见的展示内容有视频、图片、文件、文本、音频等。那么图片生成二维码的方法是什么样的呢&#xff1f;通过扫码查看图片&#xff0c;可以不下载的图片的同时快速预览内容…

工控人机交互界面编辑软件附描述(电脑软件分享)

HMI 概述&#xff1a;本文为分享型文档 本文摘要 昆仑通泰触摸屏软件分享。   给触摸屏下载程序时使用。   本人用过案例西门子s7-1200/200smart ST30与触摸屏型号“TPC1061Ti”通讯。 文章目录 本文摘要1.MCGS组态环境嵌入式版&#xff0c;大部分人用过此款&#xff0c;容…

JavaScript余数运算符

console.log(5 % 2); //5 2 * 2 1 console.log(8 % 3); //8 2 * 3 2 console.log(6 % 2); //6 2 * 3 0 console.log(7 % 2); //7 2 * 3 1● 我们可以利用这个特性来判断一个数是奇数还是偶数 const isEven n >n % 2 0 ? console.log(${n}是偶数) : console.…

麦肯锡精英高效阅读法笔记

系列文章目录 如何有效阅读一本书笔记 读懂一本书笔记 麦肯锡精英高效阅读法笔记 文章目录 系列文章目录序章 无法读书的5个理由无法读书的理由① 忙于工作&#xff0c;没时间读书无法读书的理由② 不知应该读什么无法读书的理由③ 没读完的书不断增多无法读书的理由④ 工作繁…

在2-3-4树上实现连接与分裂操作的算法与实现

在2-3-4树上实现连接与分裂操作的算法与实现 引言1. 维护2-3-4树结点的高度属性伪代码示例 2. 实现连接操作伪代码示例 3. 证明简单路径p的划分性质4. 实现分裂操作伪代码示例 C代码示例结论 引言 2-3-4树是一种平衡搜索树&#xff0c;它保证了树的高度被有效控制&#xff0c;…

GhostNetV2 Enhance Cheap Operation with Long-Range Attention 论文学习

论文地址&#xff1a;https://arxiv.org/abs/2211.12905 代码地址&#xff1a;https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorch 解决了什么问题&#xff1f; 在计算机视觉领域&#xff0c;深度神经网络在诸多任务上扮演着重要角色。为…

机器学习实践:超市商品购买关联规则分析

第2关&#xff1a;动手实现Apriori算法 任务描述 本关任务&#xff1a;编写 Python 代码实现 Apriori 算法。 相关知识 为了完成本关任务&#xff0c;你需要掌握 Apriori 算法流程。 Apriori 算法流程 Apriori 算法的两个输人参数分别是最小支持度和数据集。该算法首先会生成所…

【最大公约数 并集查找 调和级数】1998. 数组的最大公因数排序

本文涉及知识点 最大公约数 并集查找 调和级数 LeetCode1998. 数组的最大公因数排序 给你一个整数数组 nums &#xff0c;你可以在 nums 上执行下述操作 任意次 &#xff1a; 如果 gcd(nums[i], nums[j]) > 1 &#xff0c;交换 nums[i] 和 nums[j] 的位置。其中 gcd(nums…

面试经验分享 | 蓝队面试经验

关于蓝队面试经验 1.自我介绍能力 重要性 为什么将自我介绍能力放在第一位&#xff0c;实际上自我介绍才是面试中最重要的一点&#xff0c;因为护网面试并没有确定的题目&#xff0c;让面试官去提问 更多是的和面试官的一种 “交谈” &#xff0c;面试的难易程度也自然就取决…