Baseline_bm25实现文本检索

大一还沉迷NLP时写的第一篇笔记,才发现在草稿箱躺了这么久oO

题目来源:飞桨AI Studio - 人工智能学习与实训社区 (baidu.com)

1.解压数据集

!unzip /home/aistudio/data/data205651/wenshu_ms_dataset.zip -d dataset

如果已经解压过了出现,但是在.py里面不能输出!

 所以跑到终端去试试,但是显示 “!unzip: event not found”【雾,待解决】

 2.定义一个读取数据集的函数

主要作用是收集【wenshu_dataset, wenshu_keys】这两个列表

每行代码都有非常详细的解释!因为我真的太菜了!

from tqdm import tqdm    #进度条模块
import os, json
# 读取数据集
def load_dataset(dataset_path):wenshu_dataset = []                     #创建空列表wenshu_keys = []       dataset_dir = os.listdir(dataset_path)  #使用os模块的listdir函数,获取dataset_path参数指定的目录下的所有文件名,并将其存储变量dataset_dirfor dir in tqdm(dataset_dir):           #对dataset_dir中的每个文件名进行遍历,并使用tqdm模块的函数来显示循环的进度#以只读模式(r)和指定的编码(utf-8)打开dataset_path和dir拼接后的文件路径,并将其赋值给变量fwith open(os.path.join(dataset_path, dir), 'r', encoding='utf-8') as f:  data = json.load(f)             #使用json模块的load函数,从打开的文件中读取JSON格式的数据,并将其赋值给变量datawenshu_dataset.append(data)     #将读取到的数据添加到wenshu_dataset列表的末尾wenshu_keys.append(dir[:-5])    #保存keyf.close()                       #with会默认文件使用完毕后自动关闭return wenshu_dataset, wenshu_keys      #返回了两个列表:包含所有数据集的列表和包含所有key的列表

3.预处理——停用词&分词

import sys                                   #system
sys.path.append("../utils")                  #添加utils文件夹
from utils.BM25 import BM25Okapi as bm25     #导入BM25
import jieba                                 #导入jieba——中文分词
import numpy as np                           #导入numpy——基础数值计算
from tqdm import tqdm                        #导入进度条模块
stopwords = []                               #定义停止词列表
with open(r'utils/stopwords.txt', encoding='utf-8') as file:  #打开文件,读取停止词for line in file.readlines():            #遍历文件,读取每一行stopwords.append(line.strip('\n'))   #使用numpy来创建numpy矩阵,其形状为(wordSize)with open(r'utils/stopword.txt', encoding='utf-8') as file:for line in file.readlines():stopwords.append(line.strip('\n'))   #去掉字符串末尾的换行符
stopwords = list(set(stopwords))             #将一个列表中的重复元素去重,set将列表转换为集合(去重),list再把集合转换回列表def token_split(data):#cut_all为True时,表示使用全模式进行分词,即把文本中所有可能的词语都扫描出来,对于存在歧义的词语,会进行所有可能的切分,速度较快,但精度较低;#cut_all为False时,表示使用精确模式进行分词,即根据前缀词典和后缀词典进行切分,精度较高,但速度较慢data_cut = [jieba.lcut(i, cut_all=False) for i in data]  # lcut对输入的每一条文本数据进行分词result_cut = [[i for i in d if not i in stopwords] for d in data_cut]  # 去停用词return result_cutdef get_scores_bm25(text_q: str, texts_c: list):    #计算一个查询文本和多篇文本之间的BM25相似度分数q_cut = token_split([text_q])[0]                # 清洗、分词c_cut = token_split(texts_c)                    # 清洗、分词model_bm25 = bm25(c_cut)                        # 使用bm25()方法计算出文本集合的BM25模型score = np.array(model_bm25.get_scores(q_cut))return score
token_split(["你好世界"])

结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3269236.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Github 2024-07-26 Java开源项目日报 Top10

根据Github Trendings的统计,今日(2024-07-26统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Java项目9HTML项目1TypeScript项目1非开发语言项目1JavaGuide - Java 程序员学习和面试指南 创建周期:2118 天开发语言:Java协议类型:Apache…

Photos框架 - 自定义媒体选择器(UI预览)

引言 在前面的博客中我们已经介绍了使用媒体资源数据的获取,以及自定义的媒体资源选择列表页。在一个功能完整的媒体选择器中,预览自然是必不可少的,本篇博客我们就来实现一个资源的预览功能,并且实现列表和预览的数据联动效果。…

不再担心数据丢失:用rsync打造你的自动化备份解决方案

在现代IT环境中,数据备份是一项至关重要的任务。无论是个人文件还是企业数据,都需要有可靠的备份机制来防止数据丢失。今天,我们将介绍一种高效的备份方案:使用rsync实现自动化备份目录。 什么是rsync? rsync 是一个开…

大学计算机专业主要课程及概要介绍

大学计算机专业主要课程及概要介绍 大学计算机专业是一门涵盖广泛领域的学科,旨在培养学生在计算机科学与技术方面的理论知识与实践能力。该专业课程设置丰富多样,涵盖了从基础理论到高级应用的多个方面。以下是一些主要的课程及其概要介绍:…

共享栈、双端队列

top指向的内存有内容 上图右图出队列受限制(右边红笔出来的箭头出来)

C语言-TCP通信创建流程

TCP通信创建流程 1. 客户端创建TCP连接 在整个流程中, 主要涉及以下⼏个接⼝socket() : 创建套接字, 使⽤的套接字类型为流式套接字connect() : 连接服务器send() : 数据发送recv() : 数据接收创建套接字 首先,我们需要创建套接字,套接字是通信的基础…

在 ArkTS 中集成 C 语言模块来管理文件描述符

文章目录 前言ArkTS模块C语言模块C模块代码 总结 前言 在现代开发中,尤其是在处理文件操作时,使用文件描述符(fd)是一种常见的方法。ArkTS提供了一种强大的方式来与底层C代码交互,使我们能够利用C语言的性能优势来管理…

C++:平衡搜索二叉树(AVL)

hello,各位小伙伴,本篇文章跟大家一起学习《C:平衡搜索二叉树(AVL)》,感谢大家对我上一篇的支持,如有什么问题,还请多多指教 ! 文章目录 :maple_leaf:AVL树:maple_leaf:…

CeoMax总裁主题最新3.8.1破解免授权版/WordPress付费资源素材下载主题

CeoMax总裁主题最新3.8.1破解免授权版,一套WordPress付费资源素材下载的主题,感觉这是做资源站唯一一个可以和ripro媲美甚至超越的模板,UI很美,功能也很强大,有想学习的可下载搭建学习一下,仅供学习研究借鉴…

活动报名小程序

#活动报名工具# # 活动报名小程序 ## 项目简介 一款通用的活动报名工具,包含活动展示,微信支付,订单管理,分享评价等功能。 品客聚精彩,有你才精彩!不只有线下活动还可以进行线上裂变活动。 …

Vue.js 2 项目实战(五):水果购物车

前言 Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架。它的设计目标是通过采用易于上手的结构和强大的功能,使前端开发变得更加简便和高效。以下是 Vue.js 的一些关键特性和优点: 核心特性 声明式渲染 Vue.js 使用声明式语法来描述用户界面&a…

OpenAI深夜丢炸弹硬杠谷歌搜索

这几年科技变革太快,AI更是飞速发展,作为一名IT老兵,使用过的搜索引擎也是一换再换。这不,刚消停了一段时间的OpenAI又丢出一个炸弹SearchGPT,直接跟谷歌掀桌子了。 1、谷歌搜索的无奈 早年只能用用百度搜索或者其余…

C++学习:C++是如何运行的

C 是一种强类型的编程语言,支持面向对象、泛型和低级内存操作。它的工作机制包括从编写源代码到生成可执行文件的一系列步骤。C与文件无关,文件只是容纳运行内容的载体,需要对文件以目标系统的规则编译后,才能在目标系统中运行。 …

JAVA SE 类和对象

类和对象 类定义和使用类的定义格式 类的实例化什么是实例化 this 引用this引用的特性 对象的构造及初始化如何初始化对象构造方法概念特性 在这里插入图片描述 **注意**: 封装封装的概念封装扩展之包导入包中的类自定义包包的访问权限控制举例 static成员static修饰…

微信小游戏之 三消(一)

首先设定一下 单个 方块 cell 类: 类定义和属性 init 方法 用于初始化方块,接收游戏实例、数据、宽度、道具类型和位置。 onWarning 方法 设置警告精灵的帧,并播放闪烁动作,用于显示方块的警告状态。 grow 方法 根据传入的方向…

磨煤机加载油站系统比例阀放大器

磨煤机液压系统是火力发电厂中不可或缺的重要组成部分,它主要负责为磨煤机提供并调节必须的碾磨压力。这一系统的核心功能是通过BEUEC比例放大器配套比例溢流阀精确控制,以适应煤炭处理过程中对压力的不同需求,确保煤炭的有效碾磨及火力发电的…

C语言 | Leetcode C语言题解之第275题H指数II

题目&#xff1a; 题解&#xff1a; int hIndex(int* citations, int citationsSize) {int left 0, right citationsSize - 1;while (left < right) {int mid left (right - left) / 2;if (citations[mid] > citationsSize - mid) {right mid - 1;} else {left mi…

Jenkins持续集成软件

1.什么是jenkins? jenkins是一个开源软件项目&#xff0c;是基于Java开发的一种持续集成工具&#xff0c;用于监控持续重复的工作&#xff0c;提供一个开放易用的软件平台&#xff0c;时软件项目可以进行持续集成。 通俗来说&#xff1a;Jenkins软件就是自动拉取git远程仓库所…

Java 面试相关问题(下)——JVM相关问题GC相关问题

1. 类加载1.1 类的生命周期说一下&#xff1f;1.2 介绍下生命周期中的加载&#xff1f;1.3 介绍下生命周期中的验证&#xff1f;1.4 介绍下生命周期中的准备&#xff1f;1.5 介绍下生命周期中的解析&#xff1f;1.6 介绍下生命周期中的初始化&#xff1f;1.7 介绍下生命周期中的…