使用AI大模型统计英语四六级试题高频词汇

引子

前些年我做过商品搜索,当时为了优化一些搜索词和搜索关联提示,接触到一点NLP的知识。所以后来有一场非全日制的研究生考试,为了高效的复习英语单词,我爬取了往年的历史真题数据,以及其他模拟等各种试题的数据。然后再通过python去分词、计算词频、词权以及各种优化,还有一些语气词辅助词的分析去除等。大概用了差不多一周的时间,才完整弄出来一个高频词汇的结果。

传统的分析方式

这里先介绍下,使用传统的方式如何去分析和计算。
github地址:https://github.com/Kingsea442/nlp_word/tree/master
原始真题数据:在这里插入图片描述
结果:
分析出来每个单词的权重之后,再调用百度的API做了下翻译,结果如下图:
在这里插入图片描述

最后使用词云的sdk工具生成了一个云图。
在这里插入图片描述

使用ChatGPT分析

其实以上做了很多数据处理和优化的工作,最近在学习大模型提示词工程,偶然想到如果使用大模型来处理和分析,是不是很快就能拿到结果,不用自己再逐步去分析和计算数据了。

这里使用的是豆包大模型进行分析:https://www.doubao.com

Step1: 数据上传

将试题中的文本内容,放到一起上传到ChatGPT,这里方便演示,只复制一份试题数据进行演示。
在这里插入图片描述

Step2 根据提示词工程原则,描述要求

clickable Avatar: undefined
这份文件中的内容是一份英语试题数据,文件中的----------------------------作为文档的分隔符,将文件内容分割成多个文档,文档用于后面的逆文档频率计算。
目标:要求统计试题中出现的高频词汇
要求1:按照词汇的权重从高到底输出Top50,权重的计算按照TF-IDF方法计算
要求2:去除常见的语气词等,比如the, is, are, you, me, I 等等
要求3:去除常见的基础单词比如you,I,car,play,test等基础词汇
要求3:按照格式输出 1. 单词 翻译 权重值

Step3 结果

1. parent 父母 0.045
2. child 孩子 0.045
3. parenting 养育 0.036
4. style 风格 0.027
5. different 不同的 0.027
6. sort 种类 0.027
7. respond 回应 0.027
8. patient 耐心的 0.027
9. benefit 受益 0.027
10. maintain 保持 0.027
11. style 风格 0.027
12. happen 发生 0.027
13. lose 失去 0.027
14. patience 耐心 0.027
15. say 说 0.027
16. something 某事 0.027
17. child 孩子 0.027
18. only 仅仅 0.027
19. human 人类 0.027
20. sometimes 有时 0.027
21. kids 孩子(复数) 0.027
22. little 一点 0.027
23. far 远 0.027
24. then 然后 0.027
25. either 要么 0.027
26. scream 尖叫 0.027
27. wish 希望 0.027
28. clock 时钟 0.027
29. start 开始 0.027
30. over 结束 0.027
31. all 所有 0.027
32. been 是(过去分词) 0.027
33. there 那里 0.027
34. even 甚至 0.027
35. though 尽管 0.027
36. common 常见的 0.027
37. important 重要的 0.027
38. mind 头脑 0.027
39. single 单一的 0.027
40. moment 时刻 0.027
41. fatigue 疲劳 0.027
42. can 能够 0.027
43. long 长的 0.027
44. time 时间 0.027
45. may 可能 0.027
46. damage 损害 0.027
47. relationship 关系 0.027
48. child 孩子 0.027
49. also 也 0.027
50. self-esteem 自尊 0.027

在这里插入图片描述
可以看到,使用GPT可以快速得到我们想要的结果,当然还有很多需要优化才能拿到最准确的结果。

使用AI大模型推断和汇总能力

不做过多要求,让大模型自己发挥统计重要词汇

在这里插入图片描述

假设具有一定的英语四级水平

在这里插入图片描述

具有英语六级水平

在这里插入图片描述
可以看到统计的英语单词越来越难了,说明是有效的。

总结

为什么写这篇文章呢?其实是深感大模型带来的变化很大。我以前想去学习NLP知识,然后有很多方向需要接触和研究,很多高深的算法和公式让我没有坚持下去,而现在即使我不会NLP,但是只要借助大模型API也能很顺利的完成NLP相关的任务。所以大模型给普通开发者赋予了AI能力,大模型降低了AI入门的成本,借助大模型就可以开发出各种新的AI应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3266629.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【零基础必看的前端教程】——JavaScript(八)函数

欢迎大家打开前端的新篇章——JavaScript,JavaScript与HTML、CSS合称为前端三大件,JavaScript是前端的重中之重,小洪将继续以零基础视角,带你循序渐进学习前端知识,一看就懂,小白也能转行做前端&#xff01…

【PyTorch】基于YOLO的多目标检测项目(二)

【PyTorch】基于YOLO的多目标检测项目(一) 【PyTorch】基于YOLO的多目标检测项目(二) YOLO-v3网络由跨距为2的卷积层、跳跃连接层和上采样层组成,没有池化层。网络接收一幅416 * 416的图像作为输入,并提供三…

nacos2.x作为配置中心和服务注册和发现以及springcloud使用

目录 一、nacos是什么 二、windows下安装配置nacos 1、准备 2、安装nacos 3、配置nacos 4、启动并且访问nacos 三、springcloud使用nacos作为配置中心 四、springcloud使用nacos进行服务注册与发现 五、springcloud使用nacos进行服务消费 六、nacos的一些高级配置 1…

pytorch-梯度下降

梯度下降 y x 2 ∗ s i n ( x ) y ′ 2 x s i n x x 2 c o s x x 1 x − Δ y ′ ( x ) 其中 Δ 表示学习率, y ′ ( x ) 代表 y 在 x 点处关于 x 的梯度。 y x^2 * sin(x) \\ y 2xsinxx^2cosx \\ x_1 x - \Delta y(x) \\ 其中 \Delta 表示学习率&#xff0c…

nginx 启动 ssl 模块

文章目录 前言nginx 启动 ssl 模块1. 下载2. 启动 ssl 模块 步骤3. 验证前言 如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^ _ ^。   而且听说点赞的人每天的运气都不会太差,实在白嫖的话,那欢迎常来啊!!! nginx 启动 ssl 模块 1. 下载 下载…

土耳其云手机提升TikTok电商效率

在数字化飞速发展的今天,TikTok不仅是一个社交平台,更是一个巨大的电商市场。随着TikTok电商功能在全球范围内的扩展,土耳其的商家和内容创作者正面临着前所未有的机遇。本文将详细介绍土耳其云手机怎样帮助商家抓住机遇,实现业务…

vscode回退不显示了,不方便操作

一、后退前进按钮 顶部显示&#xff0c;方便调试 <—— ——> 文件-> 首选项 -> 设置->commandcenter->勾选 Window: Title Bar Style->custom 将native —>custom

Pytorch使用教学4-张量的索引

1 张量的符号索引 张量也是有序序列&#xff0c;我们可以根据每个元素在系统内的顺序位置&#xff0c;来找出特定的元素&#xff0c;也就是索引。 1.1 一维张量的索引 一维张量由零维张量构成 一维张量索引与Python中的索引一样是是从左到右&#xff0c;从0开始的&#xff…

MSP430M03507最小系统板的keil环境搭配,用keil编辑ti单片机

转载自嘉立创MSP430M03507开发手册 这篇文章只是因为我的keil版本与嘉立创的不一样&#xff0c;所以添加了我自己遇到的问题解析 先说说为什么要用keil编辑&#xff0c;因为ti单片机自己的ccs编译环境需要对应仿真器&#xff0c;那个加芯片都240了&#xff0c;哪有那么多钱买…

谷粒商城实战笔记-踩坑-跨域问题

一&#xff0c;When allowCredentials is true, allowedOrigins cannot contain the special value “*” since that cannot be set on the “Access-Control-Allow-Origin” response header. To allow credentials to a set of origins, list them explicitly or consider u…

华东科技杂志华东科技杂志社华东科技编辑部2024年第12期目录

主编的话 造梦国际创新科技之“港” 李岩; 5 焦点 华东视界 6-7 焦点_产业风暴 新材料 8 前沿产品 8 人工智能 9 电子信息 9 生物医药 9 焦点_科技人物 Demis Hassabis&#xff1a;界定AI角色 李冲; 10-15 观点_专题策划 沪港科创“乘数效…

uniapp开发精选短视频视频小程序实战笔记20240725,实现顶部轮播图和热门短剧

创建项目 创建项目,叫video_app。 在pages.json里面修改一下标题: 新建search搜索页面和me我的页面。 此时界面预览效果如下: 引入静态资源 主要是static里面的内容,全部复制过来。 配置底部导航栏 pages.json,放到顶层,和全部样式同级: "tabBar&quo…

基于OSS前端直传的分片上传以及断点续传

一、大文件分片上传 原型 大文件如果直接上传的话由于nginx的限制会导致响应500报错&#xff0c;或者响应时间过长导致响应超时 并且大文件上传有如下缺点 上传时间长: 对于大文件&#xff0c;直接上传可能需要较长时间&#xff0c;特别是在网络速度较慢或不稳定的情况下。这…

演出票务代理需要办理哪些资质?

疫情开放之后&#xff0c;演出行业应该当属今年最火的行业了&#xff0c;你看看今年各地举办的演唱会&#xff0c;光上海今年要举办177场、北京106场、广州94场等&#xff0c;经统计&#xff0c;全国上半年演唱会场次总和为500多场&#xff0c;而下半年已开、待开的演唱会竟达1…

手机怎么设置不同的ip地址

在数字化日益深入的今天&#xff0c;智能手机已成为我们生活、工作和学习中不可或缺的设备。然而&#xff0c;随着网络应用的广泛和深入&#xff0c;我们有时需要为手机设置不同的IP地址来满足特定需求。比如&#xff0c;避免网络限制、提高网络安全、或者进行网络测试等。本文…

ROM修改进阶教程------修改rom 开机自动安装指定apk 自启脚本完整步骤解析

rom修改的初期认识 在解包修改系统分区过程中。很多客户需求刷完rom后自动安装指定apk。这种与内置apk有区别。而且一些极个别apk无法内置。今天对这种修改rom刷入机型后第一次启动后自动安装指定apk的需求做个步骤解析。 在前期博文中我有做过说明。官方系统固件解…

ChatGPT的原理和成本

ChatGPT就是人机交互的一个底层系统&#xff0c;某种程度上可以类比于操作系统。在这个操作系统上&#xff0c;人与AI之间的交互用的是人的语言&#xff0c;不再是冷冰冰的机器语言&#xff0c;或者高级机器语言&#xff0c;当然&#xff0c;在未来的十来年内&#xff0c;机器语…

喜讯!云起无垠入选《嘶吼2024网络安全产业图谱》

近日&#xff0c;嘶吼安全产业研究院正式发布了《嘶吼2024网络安全产业图谱》&#xff0c;旨在全面展示网络安全产业的构成及其重要组成部分&#xff0c;探索网络安全产业的竞争格局和发展前景。云起无垠凭借技术创新和行业影响力荣膺入选&#xff0c;证明了公司在网络安全领域…

经纬恒润与奇瑞汽车签订新能源项目重点供应商合作协议,共同开启合作新篇章

近日&#xff0c;2024年国家级芜湖经开区汽车零部件生态大会成功举行&#xff0c;经纬恒润受邀出席&#xff0c;与行业各伙伴齐聚经开区&#xff0c;同绘发展蓝图&#xff0c;助力经开区汽车产业高质量发展。会上&#xff0c;经纬恒润与奇瑞汽车签署合作协议&#xff0c;成为奇…

网络通信应用层协议-序列化与反序列化

目录 1、序列化与反序列化概念 2、正、反序列化的目的 3、添加报头的目的 4、实现正、反序列化思路 5、代码实现 6、添加报头、去除报头 结语 前言&#xff1a; 在进行网络通信时&#xff0c;应用层协议是需要程序员手动定制的&#xff0c;序列化与反序列化是对协议进…