[scikit-learn] 第一章 初识scikit-learn及内置数据集介绍

文章目录

  • 菜鸡镇贴!!!
    • scikit-learn 简要介绍
    • scikit-learn 安装
    • scikit-learn 数据集介绍
    • 数据集API介绍
      • Loaders
      • Samples generator
    • 导入数据集demo

菜鸡镇贴!!!

请添加图片描述

scikit-learn 简要介绍

​ Scikit learn是一个开源的机器学习库,支持有监督和无监督的学习。它还提供了用于模型拟合、数据预处理、模型选择、模型评估和许多其他实用程序的各种工具。

scikit-learn 安装

​ 本文仅提供Linux下的安装指南 其他平台可参照官网指南安装

Operating System :Linux

Packager : conda

​ 使用Anaconda或miniconda安装程序或miniorge安装程序安装conda(其中任何安装程序都不需要管理员权限)。
然后运行:

conda create -n sklearn-env -c conda-forge scikit-learn
conda activate sklearn-env

scikit-learn 数据集介绍

​ scikit-learn内置了一些标准数据集,例如用于分类的鸢尾花和数字数据集以及用于回归的糖尿病数据集。该软件包还提供了一些助手,用于获取机器学习社区常用的较大数据集,以对来自“真实世界”的数据进行算法基准测试。此外它还具有一些人工数据生成器。

​ 简而言之 scikit-learn提供了三种数据集供你来学习机器学习:测试数据集、真实数据集和数据集生成器。

数据集如下:

CategoryDataset
Toy datasetsIris plants dataset
Diabetes dataset
Optical recognition of handwritten digits dataset
Linnerrud dataset
Wine recognition dataset
Breast cancer wisconsin (diagnostic) dataset
Real world datasetsThe Olivetti faces dataset
The 20 newsgroups text dataset
The Labeled Faces in the Wild face recognition dataset
Forest covertypes
RCV1 dataset
Kddcup 99 dataset
California Housing dataset
Species distribution dataset
Generated datasetsGenerators for classification and clustering
Generators for regression
Generators for manifold learning
Generators for decomposition
Loading other datasets
Sample images
Datasets in svmlight / libsvm format
Downloading datasets from the openml.org repository
Loading from external datasets

数据集API介绍

General dataset API. 根据所需的数据集类型,有三种主要类型的数据集接口可用于获取数据集。

**The dataset loaders. **它们可用于加载小型标准数据集,如Toy数据集部分所述。

**The dataset fetchers. **它们可用于下载和加载更大的数据集,如真实世界数据集部分所述。

Loaders

datasets.clear_data_home([data_home])		删除数据主缓存的所有内容。datasets.dump_svmlight_file(X, y, f, *[, ...])		以svmlight/libsvm文件格式转储数据集。datasets.fetch_20newsgroups(*[, data_home, ...])20个新闻组数据集中加载文件名和数据(分类)。datasets.fetch_20newsgroups_vectorized(*[, ...])		加载并向量化20个新闻组数据集(分类)。datasets.fetch_california_housing(*[, ...])			加载加州住房数据集(回归)。datasets.fetch_covtype(*[, data_home, ...])			加载covertype数据集(分类)。datasets.fetch_kddcup99(*[, subset, ...])			加载kddcup99数据集(分类)。datasets.fetch_lfw_pairs(*[, subset, ...])			加载“野生(LFW)对中的已标记人脸”数据集(分类)。datasets.fetch_lfw_people(*[, data_home, ...])		加载野外标记面孔 (LFW) 人物数据集(分类)。datasets.fetch_olivetti_faces(*[, ...])				从 AT&T(分类)加载 Olivetti 面孔数据集。datasets.fetch_openml([name, version, ...])			按名称或数据集 ID 从 openml 获取数据集。datasets.fetch_rcv1(*[, data_home, subset, ...])		加载 RCV1 多标签数据集(分类)。datasets.fetch_species_distributions(*[, ...])			Phillips 等人的物种分布数据集加载器。datasets.get_data_home([data_home])						返回 scikit-learn 数据目录的路径。datasets.load_breast_cancer(*[, return_X_y, ...])		加载并返回威斯康星州乳腺癌数据集(分类)。datasets.load_diabetes(*[, return_X_y, ...])			加载并返回糖尿病数据集(回归)。datasets.load_digits(*[, n_class, ...])					加载并返回数字数据集(分类)。datasets.load_files(container_path, *[, ...])			加载以类别作为子文件夹名称的文本文件。datasets.load_iris(*[, return_X_y, as_frame])			加载并返回鸢尾花数据集(分类)。datasets.load_linnerud(*[, return_X_y, as_frame])		加载并返回体育锻炼 Linnerud 数据集。datasets.load_sample_image(image_name)					加载单个样本图像的 numpy 数组。datasets.load_sample_images()							加载示例图像以进行图像处理。datasets.load_svmlight_file(f, *[, ...])				将 svmlight / libsvm 格式的数据集加载到稀疏 CSR 矩阵中。datasets.load_svmlight_files(files, *[, ...])			从 SVMlight 格式的多个文件加载数据集。datasets.load_wine(*[, return_X_y, as_frame])			加载并返回葡萄酒数据集(分类)。

Samples generator

datasets.make_biclusters(shape, n_clusters, *)			生成用于双聚类的常量块对角结构数组。datasets.make_blobs([n_samples, n_features, ...])		生成各向同性高斯斑点以进行聚类。datasets.make_checkerboard(shape, n_clusters, *)		生成具有块棋盘结构的数组以进行双聚类。datasets.make_circles([n_samples, shuffle, ...])		在 2d 中制作一个包含小圆的大圆。datasets.make_classification([n_samples, ...])			生成随机 n 类分类问题。datasets.make_friedman1([n_samples, ...])				生成“Friedman #1”回归问题。datasets.make_friedman2([n_samples, noise, ...])		生成“Friedman #2”回归问题。datasets.make_friedman3([n_samples, noise, ...])		生成“Friedman #3”回归问题。datasets.make_gaussian_quantiles(*[, mean, ...])		生成各向同性高斯并按分位数标记样本。datasets.make_hastie_10_2([n_samples, ...])				生成 Hastie 等人使用的二元分类数据。 2009 年,例 10.2。datasets.make_low_rank_matrix([n_samples, ...])			生成一个具有钟形奇异值的低秩矩阵。datasets.make_moons([n_samples, shuffle, ...])			制作两个交错的半圆。datasets.make_multilabel_classification([...])			生成随机多标签分类问题。datasets.make_regression([n_samples, ...])				生成随机回归问题。datasets.make_s_curve([n_samples, noise, ...])			生成 S 曲线数据集。datasets.make_sparse_coded_signal(n_samples, ...)		生成信号作为字典元素的稀疏组合。datasets.make_sparse_spd_matrix([n_dim, ...])			生成稀疏对称定正矩阵。datasets.make_sparse_uncorrelated([...])				使用稀疏不相关设计生成随机回归问题。datasets.make_spd_matrix(n_dim, *[, ...])				生成随机对称正定矩阵。datasets.make_swiss_roll([n_samples, noise, ...])		生成瑞士卷数据集。

导入数据集demo

from sklearn import datasets# 调用数据集
iris = datasets.load_iris()
digits = datasets.load_digits()# 展示数据集
print(digits.data)
print(digits.target)
print(digits.images[0])

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2869488.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

RK3568平台开发系列讲解(基础篇)内核是如何发送事件到用户空间

🚀返回专栏总目录 文章目录 一、相关接口函数二、udevadm 命令三、实验沉淀、分享、成长,让自己和他人都能有所收获!😄 一、相关接口函数 kobject_uevent 是 Linux 内核中的一个函数, 用于生成和发送 uevent 事件。 它是 udev 和其他设备管理工具与内核通信的一种方式。…

SDN网络简单认识(1)——概述

一、概述 软件定义网络(Software Defined Networking,SDN)是一种网络架构理念,旨在使网络灵活和可编程,从而更好地支持动态和高度可扩展的计算环境。SDN通过抽象网络的控制层(决策层)和数据层&a…

面试经典-MySQL篇

一、MySQL组成 MySQL数据库的连接池:由一个线程来监听一个连接上请求以及读取请求数据,解析出来一条我们发送过去的SQL语句SQL接口:负责处理接收到的SQL语句查询解析器:让MySQL能看懂SQL语句查询优化器:选择最优的查询…

OpenCV 图像重映射函数remap()实例详解

OpenCV 图像重映射函数remap()对图像应用通用几何变换。其原型如下: void remap(InputArray src, OutputArray dst, InputArray map1, InputArray map2, int interpolation, int borderMode BORDER_CONSTANT, const Scalar & borde…

LeetCode 189.轮转数组

题目:给定一个整数数组 nums,将数组中的元素向右轮转 k 个位置,其中 k 是非负数。 思路: 代码: class Solution {public void rotate(int[] nums, int k) {int n nums.length;k k % n;reverse(nums, 0, n);revers…

吴恩达deeplearning.ai:使用多个决策树随机森林

以下内容有任何不理解可以翻看我之前的博客哦:吴恩达deeplearning.ai专栏 文章目录 为什么要使用树集合使用多个决策树(Tree Ensemble)有放回抽样随机森林XGBoost(eXtream Gradient Boosting)XGBoost的库实现何时使用决策树决策树和树集合神经网络 使用单个决策树的…

Spark-Scala语言实战(2)(在IDEA中安装Scala,超详细配图)

之前的文章中,我们学习了如何在windows下下载及使用Scala,但那对一个真正想深入学习Scala的人来说,是不够的,今天我会给大家带来如何在IDEA中安装Scala。同时,希望我的文章能帮助到你,如果觉得我的文章写的…

Javaweb--CSS

一:概述 CSS (Cascading Style Sheet(层叠样式表))是一门语言,用于控制网页表现。 W3C标准规定了网页是由以下组成: 结构:HTML 表现:CSS 行为:JavaScrip…

分布式文件存储与数据缓存(一)| FastDFS

目录 分布式文件系统FastDFS概述_简介FastDFS特性:分布式文件服务提供商 FastDFS概述_核心概念trackerstorageclientgroup FastDFS概述_上传机制内部机制如下 FastDFS概述_下载机制内部机制如下 FastDFS环境搭建_Linux下载安装gcc下载安装FastDFS下载安装FastDFS依赖…

sqllab第二十五A关通关笔记

知识点: 数值型注入双写绕过 oorranand这里不能用错误注入(固定错误回显信息)联合注入 测试发现跟25关好像一样,就是过滤了and or # 等东西 构造payload:id1/0 发现成功运算了,这是一个数值型的注入 构造payload:id…

音频的录制及播放

在终端安装好pip install pyaudio,在pycharm中敲入录音的代码,然后点击运行可以在10s内进行录音,录音后的音频会保存在与录音代码同一路径项目中,然后再新建项目敲入播放的代码,点击运行,会把录入的录音进行…

Java学习笔记------常用API(五)

爬虫 从网站中获取 import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; import java.util.regex.Matcher; import java.util.reg…

浏览器如何进行静态资源缓存?—— 强缓存 协商缓存

在平时使用浏览器排查问题的过程中,我们有时会看到浏览器网络请求中出现304状态码,那么是什么情况下出现304呢?下面是关于这一现象的解释: 浏览器如何进行静态资源缓存?—— 强缓存 & 协商缓存 状态码 304浏览器如…

python的opencv最最基础初学

localhost中详解OpenCV的函数imread()和函数imshow(),并利用它们实现对图像的读取和显示_opencv imshow-CSDN博客 其实以下均为numpy 显示一张图片 import cv2 ####opencv读取的格式是BGR import matplotlib.pyplot as plt import numpy as np %matplotlib inline imgcv2.…

k8s之图形界面DashBoard【九】

文章目录 9. DashBoard9.1 部署Dashboard9.2 使用DashBoard 镇场 9. DashBoard 之前在kubernetes中完成的所有操作都是通过命令行工具kubectl完成的。其实,为了提供更丰富的用户体验,kubernetes还开发了一个基于web的用户界面(Dashboard&…

java小型人事管理系统

开发工具: MyEclipseJdkTomcatSQLServer数据库 运行效果视频: https://pan.baidu.com/s/1hshFjiG 定制论文,联系下面的客服人员

Mac版Jmeter安装与使用模拟分布式环境

Mac版Jmeter安装与使用&模拟分布式环境 1 安装Jmeter 1.1 安装Java环境 国内镜像地址:https://repo.huaweicloud.com/java/jdk/11.0.29/jdk-11.0.2_osx-x64_bin.dmg 下载dmg后,双击进行安装。 配置环境变量: # 1 打开环境变量配置文件…

微信小程序关闭首页广告

由于之前微信小程序默认开启了首页广告位。导致很多老人误入广告页的内容,所以想着怎么屏蔽广告。好家伙,搜索一圈,要么是用户版本的屏蔽广告,或者是以下一个模棱两可的答案,要开发者设置一下什么参数的,如…

牛客网-SQL大厂面试题-1.各个视频的平均完播率

题目:各个视频的平均完播率 DROP TABLE IF EXISTS tb_user_video_log, tb_video_info; CREATE TABLE tb_user_video_log (id INT PRIMARY KEY AUTO_INCREMENT COMMENT 自增ID,uid INT NOT NULL COMMENT 用户ID,video_id INT NOT NULL COMMENT 视频ID,start_time dat…

机器学习之客户违约预测模型搭建之案例实战

1. 决策数模型搭建 1.1 数据预处理 客户违约预测模型的目的是通过已有的客户信息和违约表现来搭建合适的模型,从而预测之后的客户是否会违约。首先通过pandas库读取数据相关知识读取客户的证信数据以及其交易表现,即是否违约记录,代码如下&…