【Python机器学习】朴素贝叶斯——使用朴素贝叶斯进行文档分类(理论基础)

机器学习的一个重要应用就是文档的自动分类。在文档分类中,整个文档(比如电子邮件)是实例,而电子邮件中的某些元素则构成特征。虽然电子邮件是一种会不断增加的文本,但我们同样也可以对新闻报道、用户流言、公文等其他任意类型的文本进行分类。我们可以观察文档中出现的词,并把每个词的出现或者不出现作为一个特征,这样得到的特征数目就会跟词汇表中的词目一样多。朴素贝叶斯是贝叶斯分类器的一个扩展,适用于文档分类的常用算法。

使用每个词作为特征并观察他们是否出现,这样得到的特征数目会非常非常多。据估计,仅在英语中,单词总数就有500000之多,为了进行英文阅读,估计需要掌握数千单词。

朴素贝叶斯的一般过程:

1、收集数据

2、准备数据:需要数值型或者布尔型数据

3、分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好

4、训练算法

5、测试算法

6、使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。

假设词汇表中有1000个单词。要得到好的概率分布,就需要足够的数据样本,假定样本数为N。由统计学知,如果每个特征需要N个样本,那么对于10个特征将需要N^{10}个样本,对于包含1000个特征的词汇表将需要N^{1000}个样本。可以看到,所需要的样本数会随着特征数目增大而迅速增长。

如果特征之间相互独立,那么样本数就可以从N^{1000}减少到1000*N。所谓独立指的是统计意义上的独立,即一个特征或单词出现的可能性与它和其他单词相邻没有关系。举个例子,假设单词bacon出现在unhealthy后面与出现在delicious后面的概率相同。当然,我们知道这种假设并不成立,bacon尝尝出现在delicious附近,很少出现在unhealthy附近,这个假设正式朴素贝叶斯中朴素一词的含义。朴素贝叶斯分类器中的另一个假设是:每个特征同等重要。其实这个假设也有问题。

如果要判断留言板的留言是否得当,那么可能不需要看完所有1000个单词,而只需要看10~20个特征就足可以做出判断了。尽管上述假设存在一些小的瑕疵,但朴素贝叶斯的实际效果很好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3269140.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

如何获得一个MySQL 5.7 社区版数据库

已有一个OCI计算实例,Oracle Linux 7.9,1OCPU,16G内存: $ cat /etc/redhat-release Red Hat Enterprise Linux Server release 7.9 (Maipo)$ lscpu Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Byte O…

jdk版本区别

JDK(Java Development Kit)是 Java 开发工具包,它包括了 Java SE(Standard Edition)、编译器、调试器和其他开发工具。Oracle 公司是 JDK 的主要供应商,它提供了多个版本的 JDK,每个版本都有自己…

C++之栈和队列使用及模拟实现

目录 栈的使用 队列的使用 栈的模拟实现 队列的模拟实现 deuqe容器介绍 在C语言中我们已经学习了栈和队列的相关性质,今天我们主要来学习C语法中栈和队列的相关概念。 栈的使用 在C中栈是一种容器适配器,在其内部适配了其它的容器,其相…

【数据结构】——双链表的实现(赋源码)

双链表的概念和结构 双链表的全称叫做:带头双向循环链表 它的结构示意图如下 注意:这⾥的“带头”跟前⾯我们说的单链表的“头结点”是两个概念,实际前⾯的在单链表阶段称呼不严谨,但是为了读者们更好的理解就直接称为单链表的头…

【计算机毕设论文】基于SpringBoot成绩管理系统

💗博主介绍:✌全平台粉丝5W,高级大厂开发程序员😃,博客之星、掘金/知乎/华为云/阿里云等平台优质作者。 【源码获取】关注并且私信我 感兴趣的可以先收藏起来,同学门有不懂的毕设选题,项目以及论文编写等相…

学习测试13-车载测试

车的发展 1,动力 VCU 是实现整车控制决策的核心电子控制单元 汽车驱动控制:车都是有VCU发出,驱动控制,电池,电机都是执行器。比如: 汽车启动:启动,发车,VCU发送指令到齿轮这些,开始转动启动&a…

C语言程序设计15

程序设计15 问题15_1代码15_1结果15_1 问题15_2代码15_2结果15_2 问题15_3代码15_3结果15_3 问题15_1 在 m a i n main main 函数中将多次调用 f u n fun fun 函数,每调用一次,输出链表尾部结点中的数据,并释放该结点,使链表缩短…

Shell脚本学习教程(菜鸟从入门到精通)

前言 这本教程是写给那些在UNIX环境下发现必须写些Shell 脚本,以利于工作进行的计算机用户与软件开发人员。例如,你可能是正在念计算科学的学生,手上有学校给你的第一个UNIX系统账号,你想知道在UNIX下更多的东西,例如…

T-CNN——利用张量 CNN 增强缺陷检测

1. 摘要 缺陷检测是制造业中一个重要而具有挑战性的问题。本研究引入了张量卷积神经网络(T-CNN),并在罗伯特-博世制造工厂生产的超声波传感器组件缺陷检测的实际应用中验证了其性能。与同类 CNN 模型相比,作者的量子启发 T-CNN 通…

飞凌嵌入式亮相第七届全国大学生嵌入式芯片与系统设计竞赛北部赛区决赛现场

7月20日,2024年第七届全国大学生嵌入式芯片与系统设计竞赛北部赛区决赛在保定大学科技园正式开赛。本次大赛由全国大学生嵌入式芯片与系统设计竞赛组委会、北部赛区执委会主办,保定国家大学科技园与北京邮电大学联合承办,飞凌嵌入式作为本土嵌…

chrome浏览器驱动(所有版本)

chrome浏览器驱动 114之前版本 https://chromedriver.storage.googleapis.com/index.html 125以后 125以后版本下载链接在此,只有后面status是绿色对勾的才可以下载,驱动大版本一致就可以使用,不需版本号一模一样;下载所需版本只…

谨防评论插件暴露服务器 IP

不少评论区插件支持邮件推送,当有新评论的时候会发送邮件,这样就能及时知道有评论了。例如我使用的 Twikoo 就支持邮件推送(还有其他方式,这里不展开)。 但是,这个会暴露真实的服务器 IP。为此&#xff0c…

与Zoom集成获取会议开始和结束事件

一、注册一个Zoom免费帐号(需要在国外注册,国内不允许) 二、进入Zoom应用市场创建一个应用 点击”发展”(开发)菜单,选择构建应用。 同意条款: 选择应用类型: 设置应用信息&#x…

【第四天】计算机网络知识 HTTP1.0,HTTP1.1与HTTP2.0的区别 HTTP3.0

HTTP1.0,HTTP1.1与HTTP2.0的区别 HTTP1.0 默认是短链接,可以强制开启长连接。HTTP1.1默认长连接。HTTP2.0采用多路复用。 HTTP1.0: 默认使用短链接,每次请求都需要建立一个TCP连接。它可以设置:Connection: keep-aliv…

Spring Boot 与 MongoDB 整合指南

MongoDB MongoDB 是一种基于文档的NoSQL数据库,以其高性能、高可用性和易扩展性而著称。它使用 BSON(类似 JSON 的二进制格式)来存储数据,提供了灵活的数据模型,使得开发者可以更轻松地存储和查询复杂的数据结构。将M…

夯实数字经济的“新基建”-基于大数据与区块链技术的新型基础设施

随着我国数据市场的蓬勃发展,构建契合数据特性、加速数据流通与价值释放的新型数据基础设施变得尤为关键。数字基础设施作为数字经济蓬勃发展的基石,其完善与否直接关系到数据能否有效存储、顺畅流通及高效利用,进而促进数据资源向数据资产的…

Python 教程(四):Python运算符合集

目录 专栏列表前言1. 算术运算符2. 比较运算符3. 逻辑运算符4. 位运算符5. 赋值运算符6. 成员运算符7. 身份运算符总结 在前三篇教程中,我们学习了 Python 的基本语法和数据结构以及字符串的特性。本篇教程,我们将深入探讨 Python 中的运算符合集。 专栏…

【docker】部署证书过期监控系统mouday/domain-admin

证书过期了再去部署证书容易被骂,就找了一个开源的证书过期系统来部署一下 过程 官方文档:https://domain-admin.readthedocs.io/zh-cn/latest/manual/install.html#docker 直接下载镜像是超时的,切换一下文档推荐的镜像源 新建docker配置…

ERROR: Cannot find command ‘git’- do you have ‘git’ installed and in your PATH?

ERROR: Cannot find command ‘git’- do you have ‘git’ installed and in your PATH? 目录 ERROR: Cannot find command ‘git’- do you have ‘git’ installed and in your PATH? 【常见模块错误】 【解决方案】 欢迎来到英杰社区https://bbs.csdn.net/topics/61780…

Linux安装TrueNAS(网络附加存储)教程 –第1部分

TrueNAS CORE(原名FreeNAS)是一款流行的存储系统,可帮助您构建自己的高质量存储设置,而无需支付软件费用。您可以将其安装在计算机硬件或虚拟机 (VM) 上,以获得开源存储的好处。 您可以在家中、办公室或数据中心使用T…