TextCNN:文本分类卷积神经网络

模型原理

  • 1、前言
  • 2、模型结构
  • 3、示例
      • 3.1、词向量层
      • 3.2、卷积层
      • 3.3、最大池化层
      • 3.4、Fully Connected层
    • 4、总结

1、前言

TextCNN 来源于《Convolutional Neural Networks for Sentence Classification》发表于2014年,是一个经典的模型,Yoon Kim将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似统计语言模型的N-Gram),从而能够更好地捕捉局部相关性。TextCNN的核心思想是将卷积神经网络 (CNN) 应用到文本分类中,从而提取文本特征。本文将逐步对TextCNN做详细介绍。

2、模型结构

在这里插入图片描述

  • Embedding层:这一层将输入的自然语言文本编码成分布式表示,可以使用预训练好的词向量,如word2vec,或者直接在训练过程中训练出一套词向量。对于没有出现在训练好的词向量表中的词,可以采取使用随机初始化为0或者偏小的正数表示。

  • Convolution层:这一层通过卷积操作提取不同的n-gram特征。输入的文本通过embedding层后,会转变成一个二维矩阵,然后通过卷积核进行卷积操作,得到一个向量。在TextCNN网络中,需要同时使用多个不同类型的kernel,同时每个size的kernel又可以有多个。

  • Pooling层:这一层通过池化操作,如最大池化,得到更高级别的特征表示。

  • Fully Connected层:最后,将卷积池化得到的特征向量通过全连接层映射到标签域,并通过Softmax层得到文本属于每一类的概率,取概率最大的类作为文本的标签。

3、示例

在这里插入图片描述
在这里插入图片描述

3.1、词向量层

首先通过分词工具将"这是个经典的模型。"这句话分成“这\是\个\经典\的\模型\。”再将其转换为词向量。得到一个输入层为n × \times ×d的矩阵,其中n为句子的词数,d为词的维度。在以上例子为了方便演示词的维度设定为d=5。

词向量的获取一般是通过预训练的词嵌入模型(如Word2Vec)来实现的,它可以将每个单词映射到一个高维空间中的向量,这些向量能够捕捉单词之间的语义关系。

3.2、卷积层

TextCNN与CNN在卷积操作上存在一些差异,主要体现在输入数据的维度和卷积核形状上。具体分析如下:

输入数据维度:CNN通常处理的是二维数据,例如图像,其卷积核是在二维空间内从左到右、从上到下滑动以进行特征提取。而TextCNN处理的是一维的文本数据,其卷积核只在一维空间内滑动(即纵向滑动),这是因为文本数据通常是序列化的单词或字符,不具有二维结构。

卷积核形状:在TextCNN中,卷积核不是正方形的,而是与词向量的维度相等,这意味着卷积核的宽度与词嵌入的维度相同,而长度则代表了n-gram的窗口大小。这与CNN中用于图像处理的正方形卷积核不同,后者的宽度和高度通常是相等的,以便捕捉图像中的局部特征。

在以上例子中使用了3种卷积核分别为2,3,4,每种卷积核为2个,每种卷积核提取2个特征矩阵。

3.3、最大池化层

通过最大池化层分别提取2个更高级别的特征,共计6个特征向量,并将其串联起来。

3.4、Fully Connected层

最后,将卷积池化得到的特征向量通过全连接层映射到标签域,并通过Softmax函数得到文本属于每一类的概率。

4、总结

TextCNN作为一种基于卷积神经网络的文本分类模型,具有以下优缺点:

优点:

  • 网络结构简洁:TextCNN的网络结构相对简单,这使得模型容易理解和实现。

  • 训练速度快:由于网络结构的简单性,TextCNN的训练速度较快,这对于需要快速迭代的场景非常有利。

  • 特征提取能力强:TextCNN能够有效地捕捉文本中的上下文信息,这得益于其卷积层的设计,可以处理不同长度的文本,避免了传统文本分类模型需要对文本进行固定长度截断的问题。

  • 适应性强:通过引入预训练好的词向量,TextCNN即使在网络结构简洁的情况下也能取得不错的效果,在多项数据集上超越了基准模型。

缺点:

  • 不适合长文本:TextCNN的卷积核尺寸通常不会设置得很大,这限制了模型捕获长距离特征的能力,因此它不太适合处理长文本数据。

  • 池化操作局限:TextCNN中使用的最大池化层会丢失一些有用的特征,因为它只保留了最显著的特征,而忽略了其他可能同样重要的特征。

  • 丢失词汇顺序信息:卷积和池化操作可能会丢失文本序列中的词汇顺序和位置信息,这可能会影响模型对文本语义的理解。

在实际运用中选择不同的词嵌入模型,会影响模型对词汇语义的理解能力,卷积核的大小决定了模型能够捕捉的上下文窗口的大小。一般来说,卷积核大小的合理值范围在1到10之间,但如果处理的语料中句子较长,可能需要使用更大的卷积核。

参考文献
[Kim, Yoon. “Convolutional Neural Networks for Sentence Classification.” EMNLP (2014).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2810205.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

B站UP视频播放数据分析之然冉创业说

【背景介绍】 几年前做过类似的分析,但是B站数据加密了,刚好最近在用selenium,就顺手用它爬一下数据。 df pd.read_excel("然冉创业说_13.2万_output.xlsx") df.head() 以上数据在视频播放页面就可以获取到。 【数据分析】 从数…

sqli-labs(less-46)order by 注入

我们打开sql-labs的第46关然后在输入框内输入?id1时会发现页面没有任何的变化,此时我们用Visual Studio Code查看第46关的代码 此时我们发现sql语句是$sql "SELECT * FROM users ORDER BY $id"; ,所以现在我们需要了解一下order by语句的作…

Helm vs Kustomize 深度比较

Helm和Kustomize都是流行的Kubernetes集群部署管理工具,本文比较了两者的优缺点,方便读者根据项目实际情况采用适合的方案。原文: Helm vs Kustomize: why, when, and how[1] 挑战 开始讨论之前,先来看看为什么要使用 Helm 或 Kustomize。 这…

AI数字人SadTalker实战

1.概述 AI数字人在营销和品牌推广中扮演着至关重要的角色,许多企业和个人正积极利用数字技术来打造属于自己的财富。有没有一种简单而免费的方式来创建自己的数字人呢?本篇博客笔者将为大家介绍如何搭建属于自己的AI数字人。 2.内容 2.1 什么是SadTalker…

Windows部署WebDAV服务并映射到本地盘符实现公网访问本地存储文件

文章目录 前言1. 安装IIS必要WebDav组件2. 客户端测试3. 使用cpolar内网穿透,将WebDav服务暴露在公网3.1 安装cpolar内网穿透3.2 配置WebDav公网访问地址 4. 映射本地盘符访问 前言 在Windows上如何搭建WebDav,并且结合cpolar的内网穿透工具实现在公网访…

【DL】深度学习之语音识别

目录 1 核心概念 2 安装依赖库 3 实践 语音信号处理(Speech Signal Processing)简称语音处理。 语音识别(ASR)和自然语言处理(NLP):语音识别就是将语音信号转化成文字文本,简单实…

解决启动服务报./nginx -s reload nginx: [emerg] unknown directive “错误

重启服务报错 bug: ./nginx -s reload nginx: [emerg] unknown directive "? 原因: 一、可能打开没有关闭 二、刚刚编辑的没成功,乱码了,格式问题,重新配置

汇标网系统搭建,让知识产权保护更智能、更便捷!

据国家商标局统计发布,2023年四季度我国商标申请量达到了6,988,704件,有效商标注册量为44,047,071件! 商标作为企业的重要资产,现在不仅企业、个体户、个人等等,都想在商标市场分得一杯羹。 目前,国家和社会…

多模态表征中的里程碑—CLIP及中文版Chinese-CLIP:理论揭秘、代码微调与论文阅读 (视觉与语义的奇妙共舞~)

我之前一直在使用CLIP/Chinese-CLIP,但并未进行过系统的疏导。这次正好可以详细解释一下。相比于CLIP模型,Chinese-CLIP更适合我们的应用和微调,因为原始的CLIP模型只支持英文,对于我们的中文应用来说不够友好。Chinese-CLIP很好地…

【深度学习笔记】深度学习训练技巧

深度学习训练技巧 1 优化器 随机梯度下降及动量 随机梯度下降算法对每批数据 ( X ( i ) , t ( i ) ) (X^{(i)},t^{(i)}) (X(i),t(i)) 进行优化 g ∇ θ J ( θ ; x ( i ) , t ( i ) ) θ θ − η g g\nabla_\theta J(\theta;x^{(i)},t^{(i)})\\ \theta \theta -\eta g g…

leetcode:491.递增子序列

1.误区:不能直接对数组排序再求解子集,因为那样就改变了原有数组的顺序 2.树形结构:一个一个取数,然后保证是递增序列,且不能重复。(数层上不可以重复取,树枝上可以重复取)收集的结…

[蜥蜴书Chapter2] -- 下载和加载数据

目录 一、下载和加载数据的函数代码 二、代码说明 1、urllib.request.urlretrieve 2、extractall 三、如何调用函数 四、查看数据的结构 1、head函数: 2、info函数: 3、describe函数: 4、绘制柱状图: 一、下载和加载数据…

迁移学习帮大忙!成都理工大学搭建 SCDUNet++ 模型进行滑坡测绘

滑坡是最常见的自然灾害之一,通常由地震和降雨引发,会造成严重的财产损失和人员伤亡。由地震触发的山体滑坡所造成的破坏,有时会比地震本身造成的破坏更为严重。大型地震发生之后,快速、准确地开展滑坡测绘工作 (landslide mappin…

ABAP - Function ALV 05 添加选择框列、全选、取消全选

很多用户不习惯原生GRID的选择模式,所以业务需要用到自定义的选择框来进行数据的操作,显示效果如图所示,增加一条选择列,且配置全选和全选全选的按钮功能,如下图所示。 实现这种功能需要用到Fieldcat的参数控制以及GUI…

18 SpringMVC实战

18 SpringMVC实战 1. 课程介绍2. Spring与Spring MVC环境配置 1. 课程介绍 2. Spring与Spring MVC环境配置

Vue 卸载eslint

卸载依赖 npm uninstall eslint --save 然后 进入package.json中,删除残留信息。 否则在执行卸载后,运行会报错。 之后再起项目。

git之分支管理

一.理解分支 我们看下面这张图片: 在版本回退⾥,你已经知道,每次提交,Git都把它们串成⼀条时间线,这条时间线就可以理解为是⼀个分⽀。截⽌到⽬前,只有⼀条时间线,在Git⾥,这个分⽀…

如何使用Lychee+cpolar搭建本地私人图床并实现远程访问存储图片

文章目录 1.前言2. Lychee网站搭建2.1. Lychee下载和安装2.2 Lychee网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4.公网访问测试5.结语 1.前言 图床作为图片集中存放的服务网站,可以看做是云存储的一部分,既可…

短链接的背后故事:为互联网用户带来的便捷与安全

title: 短链接的背后故事:为互联网用户带来的便捷与安全 date: 2024/2/26 14:58:58 updated: 2024/2/26 14:58:58 tags: 短链接技术起源长URL问题解决链接分享便利性链接跟踪与分析链接管理效率提升链接安全保障应用领域广泛 一、短链接的起源 短链接是一种将长UR…

高效备考2025年AMC8数学竞赛:做熟2000-2024年AMC8真题

这段时间,有小学生的家长朋友问,想给孩子学点数学拓展的知识,不局限于课堂所学。有什么可以推荐的活动或比赛。我个人的建议是可以了解下AMC8美国数学竞赛。主要有以下几个原因: 一是这个竞赛是美国数学协会(MAA&…