数据分析-23--糖尿病预测(线性回归模型)(包含数据代码)

文章目录

    • 0. 数据代码下载
    • 1. 项目介绍
    • 2. 数据处理
      • 1. 导入数据
      • 2. 处理数据
    • 3. 建立模型
    • 4. 考察单个特征

0. 数据代码下载

关注公众号:『AI学习星球
回复:糖尿病预测 即可获取数据下载。
算法学习4对1辅导论文辅导核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我
在这里插入图片描述


1. 项目介绍

本次实验的主要内容是使用回归分析和聚类分析来预测某人患糖尿病的可能性和身体的糖尿病指数。

本次数据分析实战,对糖尿病数据集进行回归分析。

sklearn.datasets 包提供了一些小的数据集,可用于机器学习入门,见下图。

导入toy数据的方法介绍任务数据规模
load_boston()加载和返回一个boston房屋价格的数据集回归506*13
load_iris([return_X_y])加载和返回一个鸢尾花数据集分类150*4
load_diabetes()加载和返回一个糖尿病数据集回归442*10
load_digits([n_class])加载和返回一个手写字数据集分类1797*64
load_linnerud()加载和返回一个健身数据集多分类20

2. 数据处理

1. 导入数据

导入数据分析常用包

# 导数据分析常用包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

导包获取糖尿病数据集

from sklearn.datasets import load_diabetes  
data_diabetes = load_diabetes()    
print(data_diabetes) 

我们先看一下数据是什么样:
diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。

在这里插入图片描述
从结果可以看到,这个数据集是个字典形式,三个key值,分别是['data' , 'feature_names' , 'target']

为了方便后续处理数据,现在将这个字典形式的数据集进行拆分。

data =  data_diabetes['data']
target = data_diabetes['target']
feature_names = data_diabetes['feature_names']

现在三个数据都是numpy的一维数据形式,将她们组合成dataframe,可以更直观地观察数据

df =  pd.DataFrame(data,columns = feature_names)
df.head()  # 查看前几行数据

在这里插入图片描述

2. 处理数据

查看数据集的基本信息

df.info() 

在这里插入图片描述
数据集共442条信息,特征值总共10项, 如下:

  • age:年龄
  • sex:性别
  • bmi = body mass index:身体质量指数,是衡量是否肥胖和标准体重的重要指标,理想BMI(18.5~23.9) = 体重(单位Kg) ÷ 身高的平方 (单位m)
  • bp = blood pressure :血压
  • s1,s2,s3,s4,s4,s6 (六种血清的化验数据)

3. 建立模型

  1. 抽取训练集合测试集
from sklearn.model_selection import train_test_split
train_X,test_X,train_Y,test_Y =  train_test_split(data,target,train_size =0.8)
  1. 建立模型
from sklearn.linear_model import LinearRegression
model = LinearRegression()
  1. 训练数据
model.fit(train_X,train_Y)
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
  1. 评估模型
model.score(train_X,train_Y)

输出结果 : 0.51298922173144801

  • 模型评估结果只有0.5左右,不是很高,说明变量之间的因果关系不是很强。
  • 一般这种情况下,我们会考察 单个特征值 与 结果标签 之间的相关关系。

4. 考察单个特征

考察单个特征值与结果之间的关系,以图表形式展示

  1. 取出特征值
df.columns

Index([‘age’, ‘sex’, ‘bmi’, ‘bp’, ‘s1’, ‘s2’, ‘s3’, ‘s4’, ‘s5’, ‘s6’], dtype=‘object’)

  1. 循环对每个特征值进行建模训练,作图
# 建立画板,作图5行2列的图
plt.figure(figsize=(2*6,5*5))
for i,col in enumerate(df.columns):  #enumerate 枚举train_X = df.loc[:,col].values.reshape(-1,1)    
# 每一次循环,都取出datafram中的一列数据,是一维Series数据格式,但是线性回归模型要求传入的是一个二维数据,因此利用reshape修改其形状train_Y = targetlinear_model = LinearRegression()    # 构建模型linear_model.fit(train_X,train_Y)    #训练模型score = linear_model.score(train_X,train_Y)   # 评估模型
#  以训练数据为X轴,标记为Y 轴,画出散点图,直观地看每个特征和标记直接的关系axes = plt.subplot(5,2,i+1)plt.scatter(train_X,train_Y)
# 画出每一个特征训练模型得到的拟合直线 y= kx + bk =  linear_model.coef_     # 回归系数b =  linear_model.intercept_   # 截距x = np.linspace(train_X.min(),train_X.max(),100)y = k * x + b
# 作图plt.plot(x,y,c='red')axes.set_title(col + ':' + str(score))
plt.show()

在这里插入图片描述

总结
从以上分析可知,单独看所有特征的训练结果,并不没有得到有效信息,我们拆分各个特征与指标的关系,可以看出:

  • bmi与糖尿病的相关性非常高,bp也有一定的关系,但是是否是直接关系,还是间接关系,有待深入考察。
  • 其他血清指标多少都和糖尿病有些关系,有的相关性强,有的相关性弱。

关注公众号:『AI学习星球
回复:糖尿病预测 即可获取数据下载。
算法学习4对1辅导论文辅导核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2659352.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【linux】touch的基本使用

碎碎念 刚接触linux时候的几个最基础的命令之一,用来创建文件。如果使用touch --help的时候会发现作者对于touch的简介:Update the access and modification times of each FILE to the current time.用于修改文件的访问和时间戳 带我的leader属于那种…

PDF控件Spire.PDF for .NET【安全】演示:修改加密PDF的密码

修改PDF文件的密码确实是一个理性的选择,尤其是当密码被某人知道并且您的PDF文件不再安全时。Spire.PDF for .NET使您能够用 C#、VB.NET 修改加密 PDF 文件的密码。您可以修改所有者密码和用户密码,并设置访问 PDF 文件时的用户限制。现在请看修改加密PD…

【软件工程大题】数据流图_DFD图_精简易上手

数据流图(DFD)是一种图形化技术,它描绘信息流和数据从输人移动到输出的过程中所经受的变换。 首先给出一个数据流图样例 基本的四种图形 直角矩形:代表源点或终点,一般来说,是人,如例图的仓库管理员和采购员圆形(也可以画成圆角矩形):是处理,一般来说,是动作,是动词名词的形式…

关键字:static关键字

在 Java 编程语言中,static关键字有以下几种主要用法: 静态变量:使用static修饰的变量被称为静态变量。静态变量属于类级别,而不是属于类的实例。这意味着无论创建了多少个类的实例,只会有一个静态变量的副本被所有实…

【Spring Security】认证之案例的使用、MD5加密、CSRF防御

目录 一、引言 1、什么是SpringSecurity认证 2、为什么使用SpringSecurity之认证 3、实现步骤 二、快速实现(案例) 1、添加依赖 2、配置 3、导入数据表及相关代码 4、创建登录页及首页 5、创建配置Controller 6、用户认证 6.1、用户对象User…

如何用Python批量计算Word中的算式

一、问题的提出 到了期末,大家都在忙着写总结、改试卷、算工作量,写总结可以借助于ChatGPT,改试卷可以用星火的自动批阅功能,算工作量就是一项比较棘手的问题,因为它涉及很多算式,有时需要老师用计算器算来…

判断电话号码是否重复-excel

有时候重复的数据不需要或者很烦人,就需要采取措施,希望以下的方法能帮到你。 1.判断是否重复 方法一: 1)针对第一个单元格输入等号,以及公式countif(查找记录数的范围,需要查找的单元格) 2…

二叉树题目:在二叉树中分配硬币

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题:在二叉树中分配硬币 出处:979. 在二叉树中分配硬币 难度 6 级 题目描述 要求 给定一个有 n \texttt{n} n 个结点的二叉树的根结点 r…

删除数据后, redis 内存占用还是很高怎么办?

现象: reids 做了数据删除,数据量不大,使用 top 命令看,发现还是占用大量内存 原因: 1.redis 底层内存根据内存分配器分配,不会立刻释放 2.redis 释放的内存空间不是连续的,存在碎片 内存碎…

【Vulnhub 靶场】【Hms?: 1】【简单】【20210728】

1、环境介绍 靶场介绍:https://www.vulnhub.com/entry/hms-1,728/ 靶场下载:https://download.vulnhub.com/hms/niveK.ova 靶场难度:简单 发布日期:2021年07月28日 文件大小:2.9 GB 靶场作者:niveK 靶场系…

基于ssm的学生就业管理系统论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本学生就业管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息…

大数据Doris(四十二):使用物化视图

文章目录 使用物化视图 一、​​​​​​​创建物化视图

JSoup 爬虫遇到的 404 错误解决方案

在网络爬虫开发中,使用JSoup进行数据抓取是一种常见的方式。然而,当我们尝试使用JSoup来爬虫抓取腾讯新闻网站时,可能会遇到404错误。这种情况可能是由于网站的反面爬虫机制检测到了我们的爬虫行为,从而拒绝了我们的请求。 假设我…

深入探索MongoDB集群模式:从高可用复制集

MongoDB复制集概述 MongoDB复制集主要用于实现服务的高可用性,与Redis中的哨兵模式相似。它的核心作用是数据的备份和故障转移。 复制集的主要功能 数据复制:数据写入主节点(Primary)时,自动复制到一个或多个副本节…

科荣AIO UtilServlet存在任意文件读取漏洞

文章目录 产品简介漏洞概述指纹识别漏洞利用修复建议 产品简介 科荣AIO是一款企业管理软件,提供企业一体化管理解决方案。它整合了ERP(如进销存、财务管理)、OA(办公自动化)、CRM(客户关系管理&#xff09…

Solidworks中子装配不能再总装配中转动

问题: 今天在Solidworks中装配零部件的时候发现,子装配体中能实现的相对转动关系,在总装配体中无法做到。 解决方案: 上网查询,发现解决方案是: 在总装配体导航栏中,在子装配体处点击右键&am…

使用 Postman 实现 API 自动化测试

背景介绍 相信大部分开发人员和测试人员对 postman 都十分熟悉,对于开发人员和测试人员而言,使用 postman 来编写和保存测试用例会是一种比较方便和熟悉的方式。但 postman 本身是一个图形化软件,相对较难或较麻烦(如使用 RPA&am…

新建虚拟环境并与Jupyter内核连接

第一步:在cmd里新建虚拟环境,shap38是新建的虚拟环境的名字 ,python=3.x conda create -n shap38 python=3.8第二步,安装ipykernel,打开anconda powershell prompt: 虚拟环境的文件夹位置,我的如图所示: 进入文件夹并复制地址: 输入复制的文件夹地址更改文件夹:…

Spring实战系列(三)了解容器的基本实现

我们可以通过GitHub或者码云下载spring-framework源码,这边是基于5.X版本进行下载学习的。 地址:https://github.com/spring-projects/spring-framework 分析Spring源码是非常一件的难的事情,只能一步步学习,一步步记录。 前面在…

【负载均衡oj】(四) 运行模块

一.目的 主要负责运行可执行程序。通过文件名就能运行程序。 二.runner run运行模块: 不需要关心运行结果是否正确,只具备基本运行功能并只关心是否运行出错。 一个程序的时候,有三种IO需要关心,标准错误,标准输出&#xff0c…