2. KNN分类算法与鸢尾花分类任务

鸢尾花分类任务

  • 1. 鸢尾花分类步骤
    • 1.1 分析问题,搞定输入和输出
    • 1.2 每个类别各采集50朵花
    • 1.3 选择一种算法,完成输入到输出的映射
    • 1.4 第四步:部署,集成
  • 2. KNN算法原理
    • 2.1 基本概念
    • 2.2 核心理念
    • 2.3 训练
    • 2.4 推理流程
  • 3. 使用 sklearn 完成分类任务
    • 3.1 代码实现
    • 3.2 输出结果
  • 4. 距离度量
      • 计算内积
      • 计算模
      • 计算余弦相似度

上一篇博客:1.人工智能核心概念

1. 鸢尾花分类步骤

1.1 分析问题,搞定输入和输出

  • 输入:花;
  • 输出:类别
  • 如何数字化一个实体(entity)?
    • 用这个实体的特征/属性来刻画这个实体!!!
    • 四个属性:花瓣长,花瓣宽,花萼长,花萼宽
  • 输出:从零开始编号:0, 1, 2 …(zero index),鸢尾花一共3类
  • 一个样本:花瓣长,花瓣宽,花萼长,花萼宽,类别编号

1.2 每个类别各采集50朵花

  • 花瓣长1,花瓣宽1,花萼长1,花萼宽1,类别编号1
  • 花瓣长2,花瓣宽2,花萼长2,花萼宽2,类别编号2
  • 花瓣长3,花瓣宽3,花萼长3,花萼宽3,类别编号3
  • 花瓣长150,花瓣宽150,花萼长150,花萼宽150,类别编号150

1.3 选择一种算法,完成输入到输出的映射

  • 分类算法
    • KNN:K紧邻算法
    • GNB:高斯贝叶斯
    • DT:决策树算法
    • SVM:支持向量机
    • RF:随机森林算法
    • 集成学习算法

1.4 第四步:部署,集成

2. KNN算法原理

2.1 基本概念

  • KNN: K-Nearest Neighbors K个最近的邻居,所以也叫 K-近邻 算法

2.2 核心理念

  • 近朱者赤,近墨者黑
  • 跟什么样的人在一起,你就会变成什么样的人!!!

2.3 训练

  • 惰性计算算法
  • 规则 + 数据,不是严格意义上的人工智能算法

2.4 推理流程

  • 给定一朵花,如何判定它是第几类?
  • 第一步:找出这朵花 K 个最近的邻居(最好的兄弟,闺蜜)
    • 相似度的度量
      几何视角: 1. 欧式空间,距离计算,2. 勾股定理
      • 向量视角:1. 余弦相似度
  • 第二步:K个邻居进行投票,选出类别出现次数最多的类

3. 使用 sklearn 完成分类任务

3.1 代码实现

  • knn_demo
from sklearn.datasets import load_iris
# 加载数据
X,y = load_iris(return_X_y=True)
print(X.shape,y.shape)
# 数据集切分
from sklearn.model_selection import train_test_split
# 参数:shuffle=True:打乱数据集,random_state=0 指定随机种子,方便复现结果
X_train,X_test,y_train,y_test =  train_test_split(X,y,test_size=0.2,shuffle=True,random_state=0)# 引入一个模型
from sklearn.neighbors import KNeighborsClassifier  
# 1.构建模型
knn=KNeighborsClassifier(n_neighbors=3)
# 2.训练模型
knn.fit(X_train,y_train)
# 3.预测
y_pred=knn.predict(X_test)
print(y_pred)
print(y_test)
print(y_pred==y_test)
# 4.评估模型
acc = (y_pred==y_test).mean()
print(acc)# 决策树
from sklearn.tree import DecisionTreeClassifier
# 构建模型
dtc = DecisionTreeClassifier()
# 训练模型
dtc.fit(X_train,y_train)
# 预测
y_pred = dtc.predict(X_test)
# 评估模型
acc = (y_pred==y_test).mean()
print(acc)# 支持向量机
from sklearn.svm import SVC
svc = SVC()
svc.fit(X_train,y_train)
y_pred = svc.predict(X_test)    
acc = (y_pred==y_test).mean()
print(acc)# 以下是自己手动写一个KNN的过程
import joblib
joblib.dump(value=knn, filename="knn.aura")class MyKNeighborsClassifier(object):"""自定义KNN分类器算法"""def __init__(self, n_neighbors=5):"""初始化方法:- 输入:- 超参 Hyper-Parameter(人为置顶的,不是系统学习的)- 输出:- 没有输出"""# 超参设置self.n_neighbors = n_neighborsdef fit(self, X, y):"""训练过程- 输入:- X:训练集的特征(矩阵)- y:训练集的标签(向量)- 输出:- 无输出"""import numpy as np# 类型转换X = np.array(X)y = np.array(y)# 形状校验if X.ndim != 2 or y.ndim != 1 or X.shape[0] != y.shape[0]:raise ValueError("入参有误")# 把训练集挂载到模型上self.X = Xself.y = ydef predict(self, X):"""预测过程:- 输入:- X:待预测的样本的特征(批量)- 输出:- y:预测的类别"""import numpy as npfrom collections import Counter# 类型转换X = np.array(X)# 形状校验if X.ndim != 2 or X.shape[1] != self.X.shape[1]:raise ValueError("入参有误")# 推理过程results = []for x in X:distances = np.sqrt(((self.X - x) ** 2).sum(axis=-1))idxes = np.argsort(distances)[:self.n_neighbors]labels = self.y[idxes]label = Counter(labels).most_common(1)[0][0]results.append(label)return np.array(results)# 1, 构建模型
my_knn = MyKNeighborsClassifier()# 2,训练
my_knn.fit(X=X_train, y=y_train)# 3, 预测
y_pred = my_knn.predict(X=X_test)print(y_pred)
print(y_test)acc = (y_pred == y_test).mean()
print(acc)
  • 模型部署
import joblib
knn = joblib.load(filename="knn.aura")# 预测  数据都是批量预测的,所以要写成二维结构,就算是一个数据,也要假装是多个
import numpy as np
X = np.array([[6.3,3.3,6.,2.5]])
print(X.shape)
result = knn.predict(X=X)
print(result)

3.2 输出结果

在这里插入图片描述

4. 距离度量

计算内积

计算模

计算余弦相似度

import numpy as np
a = np.array([2, 5])
b = np.array([1, 8])
d = np.sqrt(((a - b) ** 2).sum())
d

3.1622776601683795

# 手动计算 a 和 b 的内积
(a * b).sum()

42

# 计算内积更优雅的方式
a @ b

42

# 这样也能计算内积
np.dot(a, b)

42

# 同样是计算内积
a.dot(b)

42

# 手动计算 a 的模
np.sqrt((a ** 2).sum())

5.385164807134504

# 计算 a 的模更优雅的方式,使用 numpy 效率更高
np.linalg.norm(a)

5.385164807134504

# 余弦相似度
cosine_similarity = a @ b / np.linalg.norm(a) / np.linalg.norm(b)
cosine_similarity

0.9673722233802454

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3248360.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

路由数据获取及封装方法

数据库设计 自联表 定义tree字段 public class LabelValue{public int label { get; set; }public string? value { get; set; }public List<LabelValue> children { get; set; }}获取路由方法 public Response<object> getMenuList() {Response<object>…

spark 事件总线listenerBus

事件总线基本流程 图片来源&#xff1a;https://blog.csdn.net/sinat_26781639/article/details/105012302 LiveListenerBus创建 在sparkContext初始化中创建LiveListenerBus对象。 主要变量有两个 queues&#xff1a;事件队列&#xff0c;里面存放四个队列&#xff0c;每…

零基础学习Python(三)

1. 多重继承 一个子类可以继承多个父类&#xff0c;这与一些编程语言的规则不通。 如果多个父类中有同名的变量和方法&#xff0c;子类访问的顺序是按照继承时小括号里书写的顺序进行访问的。 可以用issubclass(B, A)方法判断B是否为A的子类。 2. 绑定 类中的方法通过参数s…

Unity 导入MRTK,使用URP 升级材质,MRTK的材质还是洋红色

控制台显示信息 ToggleBackground material was not upgraded. There’s no upgrader to convert Mixed Reality Toolkit/Standard shader to selected pipeline UnityEditor.Rendering.Universal.UniversalRenderPipelineMaterialUpgrader:UpgradeProjectMaterials() (at 点击…

Windows 电脑部署 ollama3 并安装模型

Windows 电脑部署 ollama3 并安装模型 部署中为了尽可能减少对本地环境的污染&#xff0c;使用 Docker 安装&#xff01; github: https://github.com/ollama/ollama 准备部署文件 version: 3.8services:ollama:volumes:- ./models:/root/.ollama # 将本地文件夹挂载到容器中…

window11 部署llama.cpp并运行Qwen2-0.5B-Instruct-GGUF

吾名爱妃&#xff0c;性好静亦好动。好编程&#xff0c;常沉浸于代码之世界&#xff0c;思维纵横&#xff0c;力求逻辑之严密&#xff0c;算法之精妙。亦爱篮球&#xff0c;驰骋球场&#xff0c;尽享挥洒汗水之乐。且喜跑步&#xff0c;尤钟马拉松&#xff0c;长途奔袭&#xf…

AWS与其他友商云相比的优势

亚马逊网络服务(AWS)作为全球领先的云计算平台,在激烈的市场竞争中一直保持着领先地位。尽管其他云服务提供商如微软Azure和谷歌云平台也在不断发展,但AWS仍然拥有一些显著的优势。本文将结合九河云的分析探讨AWS相较于其他友商云服务的主要优势。 1. 全面的服务生态系统 AWS…

spring boot(学习笔记第十三课)

spring boot(学习笔记第十三课) 传统后端开发模式和前后端分离模式的不同&#xff0c;Spring Security的logout&#xff0c;invalidateHttpSession不好用&#xff0c;bug&#xff1f; 学习内容&#xff1a; 传统后端开发模式 vs 前后端分离模式Spring Security的logout功能inv…

初学者如何通过建立个人博客盈利

建立个人博客不仅能让你在网上表达自己&#xff0c;还能与他人建立联系。通过博客&#xff0c;可以创建自己的空间&#xff0c;分享想法和故事&#xff0c;并与有相似兴趣和经历的人交流。 本文将向你展示如何通过建立个人博客来实现盈利。你将学习如何选择博客主题、挑选合适…

[C/C++入门][ifelse]19、制作一个简单计算器

简单的方法 我们将假设用户输入两个数字和一个运算符&#xff08;、-、*、/&#xff09;&#xff0c;然后根据所选的运算符执行相应的操作。 #include <iostream> using namespace std;int main() {double num1, num2;char op;cout << "输入 (,-,*,/): &quo…

git镜像链接

镜像链接https://registry.npmmirror.com/binary.html?pathgit-for-windows/ CNPM Binaries Mirror 1.git init 2.克隆 IDEA集成git git分支

springboot助农电商系统-计算机毕业设计源码 08655

基于移动端的助农电商系统的设计与实现 XXX专业XX级XX班&#xff1a;XXX 指导教师&#xff1a;XXX 摘要 近年来&#xff0c;电子商务的快速发展引起了行业和学术界的高度关注。基于移动端的助农电商系统旨在为用户提供一个简单、高效、便捷的农产品购物体验&#xff0c;它不…

SpringCloud教程 | 第九篇: 使用API Gateway

1、参考资料 SpringCloud基础篇-10-服务网关-Gateway_springcloud gateway-CSDN博客 2、先学习路由&#xff0c;参考了5.1 2.1、建了一个cloudGatewayDemo&#xff0c;这是用来配置网关的工程&#xff0c;配置如下&#xff1a; http://localhost:18080/aaa/name 该接口代码如…

关于思维和智能体模型的思考(3)

在前面的讨论中我们已经提出&#xff0c;基于Agent 的AI 应用软件是由一组Agent 和环境信息构成的。其中环境信息非常重要&#xff0c;它们是大模型完成目标的重要依据。他决定了大模型思维的脉络。本文我们讨论环境信息。 环境信息的主要内容 每一次对话而言&#xff0c;大语…

LLaMA-Factory

文章目录 一、关于 LLaMA-Factory项目特色性能指标 二、如何使用1、安装 LLaMA Factory2、数据准备3、快速开始4、LLaMA Board 可视化微调5、构建 DockerCUDA 用户&#xff1a;昇腾 NPU 用户&#xff1a;不使用 Docker Compose 构建CUDA 用户&#xff1a;昇腾 NPU 用户&#xf…

9款初学者也能上手的电脑录音软件,高质量录制不是梦

市面上的电脑录音软件多如牛毛&#xff0c;我们该如何挑选最适合自己的电脑录音软件呢&#xff1f;挑选录音软件其实是有技巧的&#xff0c;今天小编整理了2024年十款用户较为熟悉的电脑录音工具。通过软件兼容系统、产品功能特性、用户评价反馈这三种方面。轻松帮助大家解决电…

一、网络通信和tcp协议

一、网络协议 1、计算机网络 简单类说就是利用通信线路实现计算机和通信设备进行信息交互的系统&#xff1b; 2、网络分类 局域网&#xff08;LAN&#xff09;&#xff1a;一般为几十米到及时公里 域域网&#xff08;MAN&#xff09;&#xff1a;介于LAN与WAN之间 广域网&…

Gettler‘s Screep World 笔记 Ⅰ

夏促时候刚刚入坑&#xff0c;写个笔记叭~ 环境配置 参考 HoPGoldy 大佬的简书&#xff0c;先配置下开发环境 萌新去看大佬的详细教程&#xff0c;我这里比较简单&#xff0c;有前端基础的可以直接抄 VSCode 跳过 node 我配的是v18.18.2 换源 npm config set registry h…

【查看WIFI密码】:在window操作系统上查看已连接过的WIFI密码(两种方式)

前言 通常情况下&#xff0c;我们想要将已经连接过的wifi分享给好友&#xff0c;但不知道怎么查看&#xff0c;废话不多说&#xff0c;直接上干货 方式一&#xff1a;通过cmd命令 Step01&#xff1a;打开cmd WIN r 弹出运行框 输入&#xff1a;cmd&#xff0c;点击确定&…

打靶记录——靶机easy_cloudantivirus

靶机下载地址 链接&#xff1a;https://pan.baidu.com/s/1OfrqdNKbabAkMvmoM70gbQ?pwdgz0m 提取码&#xff1a;gz0m Vulnhub 的靶机都有一个特点&#xff0c;通常导入到 VMware Workstation 时都会获取不到 IP 地址&#xff0c;虽然可以进紧急模式中修改&#xff0c;但是太麻…