【sklearn实战】sklearn 数据集之 Toy datasets

scikit-learn 内置的一些小型标准数据集,不需要从某个外部网站下载任何文件。

一 鸾尾花数据集(Iris Dataset)

1.1 简介

该数据集包含了 150 个鸢尾花的数据,其中每个数据点都有 4 个变量(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和一个目标变量(花的种类)。该数据集最初由 R.A. Fisher 在 1936 年发布。适用于分类任务

这个著名的鸢尾花数据库最初由R.A. Fisher博士使用,数据集来自于他的论文。请注意,这与R中的数据集相同,但与UCI机器学习仓库中的数据集不同,UCI数据集中有两个错误数据点。

这可能是图案识别文献中最著名的数据库。Fisher的论文是该领域的经典之作,至今仍经常被引用。该数据集包含了3类,每类有50个实例,每个实例代表一个鸢尾花品种。其中一类可以线性分离,另外两类之间不可线性分离。

1.2 示例

加载鸾尾花数据集:

from sklearn.datasets import load_irisiris = load_iris()
X, y = iris.data, iris.target
print(f"特征数量: {X.shape[1]}")
print(f"类别数量: {len(set(y))}")

二 糖尿病数据集(Diabetes dataset)

2.1 简介

主要包括442个实例,每个实例10个属性值,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标,Target为一年后患疾病的定量指标, 适用于回归任务

2.2 示例

from sklearn.datasets import load_diabetesdiabetes = load_diabetes()
X, y = diabetes.data, diabetes.target
print(f"特征数量: {X.shape[1]}")
print(f"患者数量: {len(y)}")

三 手写数字识别数据集(handwritten digits dataset)

3.1 简介

这个sklearn数据集是一个从0到9的手写数字的集合,存储为灰度图像。它总共包含1797个样本,每个样本是一个形状为(8,8)的二维阵列。在 Digits 数据集中有64个变量(或特征),对应于每张数字图像的64个像素。适用于分类任务

3.2 示例

from sklearn.datasets import load_digitsdigits = load_digits()
X, y = digits.data, digits.target
print(f"图像数量: {len(X)}")
print(f"每张图像的特征数量: {X[0].shape[0]}")

四 体能训练数据集(Linnerrud dataset)

4.1 简介

兰纳胡德提供的体能训练数据,data和target都是20x3,data的特征包括Chins, Situps and Jumps.(引体向上 仰卧起坐 跳跃),target的三维分别是Weight, Waist and Pulse。(体重 腰围 脉搏),适用于多元回归问题,用的少

4.2 示例

from sklearn.datasets import load_linnerud
data, target = load_linnerud(return_X_y=True)print(data.shape)           # (20, 3)
print(target.shape)         # (20, 3)

五 红酒数据集(Wine recognition dataset)

5.1 简介

这个sklearn数据集包含了对生长在意大利特定地区的葡萄酒进行化学分析的结果。共178个样本,代表了红酒的三个档次(分别有59,71,48个样本),以及与之对应的13维的属性数据,适用于分类任务

5.2 示例

from sklearn.datasets import load_wine# Load the Wine dataset
wine_data = load_wine()# Access the features and targets of the dataset
X = wine_data.data  # Features
y = wine_data.target  # Targets# Access the feature names and target names of the dataset
feature_names = wine_data.feature_names
target_names = wine_data.target_names

六 乳腺癌数据集(Breast Cancer Wisconsin Dataset)

6.1 简介

这个sklearn数据集由乳腺癌肿瘤的信息组成,最初由William H. Wolberg博士创建。创建该数据集是为了帮助研究人员和机器学习从业者将肿瘤分类为恶性(癌症)或良性(非癌症)。适用于分类任务

6.2 示例

from sklearn.datasets import load_breast_cancercancer = load_breast_cancer()
X, y = cancer.data, cancer.target
print(f"特征数量: {X.shape[1]}")
print(f"样本数量: {len(y)},其中0代表良性,1代表恶性")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3269240.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

张量Tensor

借助 PyTorch 实现深度神经网络 - 张量和数据集 - 第 1 周 | Coursera 张量概述 张量运算的本质是向量和矩阵运算。神经网络的输入、输出、参数都将采用张量进行。Pytorch中的张量可以和Python中的numpy相互转换,这使得Pytorch在GPU上应用成为可能。神经网络中的参…

等级保护测评解决方案

什么是等级保护测评? 网络安全等级保护是指对国家重要信息、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护,对信息系统中使用的信息安全产品实行按等级管理,对信息系统中发生的信息安全…

多机构发布智能锁2024半年报:德施曼上半年线上全渠道销额稳居第一

近日,权威机构奥维云网、洛图科技先后发布智能门锁2024半年报,报告均指出上半年中国智能门锁线上渠道持续增长。奥维云网数据显示,2024上半年线上渠道销量同比增长22.7%,成行业增长最快的部分;洛图科技强调&#xff0c…

Baseline_bm25实现文本检索

大一还沉迷NLP时写的第一篇笔记,才发现在草稿箱躺了这么久oO 题目来源:飞桨AI Studio - 人工智能学习与实训社区 (baidu.com) 1.解压数据集 !unzip /home/aistudio/data/data205651/wenshu_ms_dataset.zip -d dataset 如果已经解压过了出现&#xff0…

Github 2024-07-26 Java开源项目日报 Top10

根据Github Trendings的统计,今日(2024-07-26统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Java项目9HTML项目1TypeScript项目1非开发语言项目1JavaGuide - Java 程序员学习和面试指南 创建周期:2118 天开发语言:Java协议类型:Apache…

Photos框架 - 自定义媒体选择器(UI预览)

引言 在前面的博客中我们已经介绍了使用媒体资源数据的获取,以及自定义的媒体资源选择列表页。在一个功能完整的媒体选择器中,预览自然是必不可少的,本篇博客我们就来实现一个资源的预览功能,并且实现列表和预览的数据联动效果。…

不再担心数据丢失:用rsync打造你的自动化备份解决方案

在现代IT环境中,数据备份是一项至关重要的任务。无论是个人文件还是企业数据,都需要有可靠的备份机制来防止数据丢失。今天,我们将介绍一种高效的备份方案:使用rsync实现自动化备份目录。 什么是rsync? rsync 是一个开…

大学计算机专业主要课程及概要介绍

大学计算机专业主要课程及概要介绍 大学计算机专业是一门涵盖广泛领域的学科,旨在培养学生在计算机科学与技术方面的理论知识与实践能力。该专业课程设置丰富多样,涵盖了从基础理论到高级应用的多个方面。以下是一些主要的课程及其概要介绍:…

共享栈、双端队列

top指向的内存有内容 上图右图出队列受限制(右边红笔出来的箭头出来)

C语言-TCP通信创建流程

TCP通信创建流程 1. 客户端创建TCP连接 在整个流程中, 主要涉及以下⼏个接⼝socket() : 创建套接字, 使⽤的套接字类型为流式套接字connect() : 连接服务器send() : 数据发送recv() : 数据接收创建套接字 首先,我们需要创建套接字,套接字是通信的基础…

在 ArkTS 中集成 C 语言模块来管理文件描述符

文章目录 前言ArkTS模块C语言模块C模块代码 总结 前言 在现代开发中,尤其是在处理文件操作时,使用文件描述符(fd)是一种常见的方法。ArkTS提供了一种强大的方式来与底层C代码交互,使我们能够利用C语言的性能优势来管理…

C++:平衡搜索二叉树(AVL)

hello,各位小伙伴,本篇文章跟大家一起学习《C:平衡搜索二叉树(AVL)》,感谢大家对我上一篇的支持,如有什么问题,还请多多指教 ! 文章目录 :maple_leaf:AVL树:maple_leaf:…

CeoMax总裁主题最新3.8.1破解免授权版/WordPress付费资源素材下载主题

CeoMax总裁主题最新3.8.1破解免授权版,一套WordPress付费资源素材下载的主题,感觉这是做资源站唯一一个可以和ripro媲美甚至超越的模板,UI很美,功能也很强大,有想学习的可下载搭建学习一下,仅供学习研究借鉴…

活动报名小程序

#活动报名工具# # 活动报名小程序 ## 项目简介 一款通用的活动报名工具,包含活动展示,微信支付,订单管理,分享评价等功能。 品客聚精彩,有你才精彩!不只有线下活动还可以进行线上裂变活动。 …

Vue.js 2 项目实战(五):水果购物车

前言 Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架。它的设计目标是通过采用易于上手的结构和强大的功能,使前端开发变得更加简便和高效。以下是 Vue.js 的一些关键特性和优点: 核心特性 声明式渲染 Vue.js 使用声明式语法来描述用户界面&a…

OpenAI深夜丢炸弹硬杠谷歌搜索

这几年科技变革太快,AI更是飞速发展,作为一名IT老兵,使用过的搜索引擎也是一换再换。这不,刚消停了一段时间的OpenAI又丢出一个炸弹SearchGPT,直接跟谷歌掀桌子了。 1、谷歌搜索的无奈 早年只能用用百度搜索或者其余…

C++学习:C++是如何运行的

C 是一种强类型的编程语言,支持面向对象、泛型和低级内存操作。它的工作机制包括从编写源代码到生成可执行文件的一系列步骤。C与文件无关,文件只是容纳运行内容的载体,需要对文件以目标系统的规则编译后,才能在目标系统中运行。 …

JAVA SE 类和对象

类和对象 类定义和使用类的定义格式 类的实例化什么是实例化 this 引用this引用的特性 对象的构造及初始化如何初始化对象构造方法概念特性 在这里插入图片描述 **注意**: 封装封装的概念封装扩展之包导入包中的类自定义包包的访问权限控制举例 static成员static修饰…

微信小游戏之 三消(一)

首先设定一下 单个 方块 cell 类: 类定义和属性 init 方法 用于初始化方块,接收游戏实例、数据、宽度、道具类型和位置。 onWarning 方法 设置警告精灵的帧,并播放闪烁动作,用于显示方块的警告状态。 grow 方法 根据传入的方向…