基于Python的51job招聘数据采集与可视化项目实践

基于Python的51job招聘数据采集与可视化项目实践

news/2025/3/19 0:51:51/文章来源:https://blog.csdn.net/weixin_49081159/article/details/140295282

项目背景与目标在当今竞争激烈的就业市场中，深入分析招聘信息对于求职者和企业都具有重要意义。基于Python的51job招聘数据采集与可视化项目旨在通过自动化手段高效获取大量招聘信息，并对这些数据进行深度分析和展示。 51job作为中国领先的招聘网站，汇集了海量的招聘信息，涵盖各行各业，提供了极为丰富的数据源。通过采集这些数据，可以帮助我们了解当前的就业市场需求，岗位分布，薪资水平等关键信息。另一方面，随着数据科学和机器学习的发展，传统的人工分析方法已经无法满足大数据分析的需求。因此，使用Python进行数据采集和分析，不仅提高了效率，还可以利用多种数据分析和可视化工具，实现对招聘信息的全面解读。项目目标主要利用Python爬虫技术，自动从51job网站上获取招聘信息，包括职位名称、公司、地点、薪资、要求等数据。对采集到的数据进行清洗和整理，确保数据的完整性和一致性。运用Python的数据分析库（如Pandas、NumPy等）对招聘数据进行分析，挖掘出有价值的趋势和模式。使用Matplotlib、Seaborn等可视化工具，将分析结果以图表形式展示，便于直观理解和决策支持。通过该项目，可以为求职者提供更有针对性的求职建议，为企业制定招聘策略提供数据支持，进一步促进人力资源的合理配置。
数据采集本项目采集51招聘网站招聘数据1400条，其中1000条存入csv，400条存入json文件。采集的网页信息如下图：
数据采集项目主要使用Python的Selenium库和BeautifulSoup库来自动化抓取51job网站的招聘信息，并将其存储到本地文件csv和json文件中。首先，通过Selenium库启动Chrome浏览器，并设置一些选项来规避反爬虫机制。login函数负责打开51job网站，并根据输入的关键词（如"python"）进行搜索。在搜索结果页面，代码通过BeautifulSoup解析网页内容，提取每个招聘信息的具体细节，如岗位名称、公司名称、薪资、城市、区县、行业、标签、企业性质、企业人数和回复情况。在每一页的招聘信息提取完毕后，程序会点击“下一页”按钮，继续抓取下一页的内容，直到预定的页数（如5页）结束。提取的信息以字典形式存储，并使用json库将其保存到本地的51招聘.json文件中，确保每条数据都成功存入，存入json主要代码如下图。
存入csv主要代码如下图：
项目通过Selenium实现自动化浏览和操作，有效避免了手动数据收集的繁琐，同时使用BeautifulSoup进行网页解析，确保数据的准确提取。整个流程包括网页的加载、数据提取、翻页操作以及数据的本地存储，确保了数据采集的高效性和全面性。采集结果如下图：
数据处理
3.1 数据集成
数据集成主要通过以下几个步骤实现：首先，读取两个数据源：一个JSON文件和一个CSV文件。从存储招聘信息的JSON文件和CSV文件中读取数据。利用pandas库，将这些数据转换为DataFrame格式以便于后续操作。通过json.loads逐行读取JSON文件中的招聘数据，并将其添加到一个列表中，随后使用pd.DataFrame将列表转换为数据框。接着，代码读取CSV文件中的数据，并将两个数据框通过pd.concat合并为一个。集成后数据集信息如下图。
3.2 数据清洗通过df.drop_duplicates函数删除重复记录，并重置索引。接下来，处理缺失值和异常值。填充缺失值时，将“性质”列的缺失值填充为“未知”，然后删除所有包含缺失值的行。数据标准化方面，主要针对“薪资”列进行了单位换算，将不同格式的薪资统一转换为“万/年”的格式，并将转换后的薪资列拆分为最小值和最大值两列。数据清洗后结果如下图：
3.3 数据变换数据变换主要通过以下几个步骤实现，以便将原始数据转换为可分析的格式：针对薪资数据，定义了一个convert_salary函数，用于将各种格式的薪资统一转换为“万/年”。这个函数处理不同单位（如“万”、“千”、“元/天”）的薪资，并进行相应的换算和格式转换。转换后的薪资数据被拆分为最小值和最大值两列，以便后续分析，薪资数据变换结果如下图：
行业数据也进行了分词和统计。通过将“行业”列中的数据按“/”分割，统计每个行业的频次，生成一个包含行业和其对应频次的字典。
3.4 数据规约数据规约的实现旨在减少数据量，同时保留数据的主要特征，以便提高分析和处理的效率。数据规约具体实现如下： 1、通过删除重复数据来减少数据量。利用drop_duplicates方法，依据‘公司’和‘岗位名’两个字段去重，并重置索引。 df.drop_duplicates(subset=['公司', '岗位名'], inplace=True) df.reset_index(drop=True, inplace=True) 2、删除缺失值较多的记录。在处理缺失值时，先将“性质”列的缺失值填充为“未知”，然后删除所有包含其他缺失值的行，从而减少不完整数据的影响。 df['性质'].fillna('未知', axis=0, inplace=True) df.dropna(axis=0, inplace=True) 3、通过单位换算，将不同单位的薪资数据统一转换为“万/年”的格式，并将转换后的薪资列拆分为最小值和最大值两列。这不仅标准化了数据格式，还减少了数据的复杂性。 df['薪资_g'] = df['薪资'].apply(convert_salary) df['薪资_g'] = df['薪资_g'].str.replace('万/年', '') df['薪资_min'] = df['薪资_g'].str.split('-', expand=True)[0].astype('float').round(1) df['薪资_max'] = df['薪资_g'].str.split('-', expand=True)[1].astype('float').round(1) 4、对冗余信息进行规约，例如通过合并标签中的重复项，实现对标签列的简化。 df['标签'] = df['标签'].apply(lambda x: ' '.join(set(x.split('-'))))
数据分析与可视化 1、词云图实现实现词云图需要几个关键步骤，从文本准备到图像生成。下面详细描述了如何使用 stylecloud 库来生成词云图：步骤一：安装必要的库安装 stylecloud 和其他必要的库步骤二：准备文本数据首先，准备好生成词云的文本数据。从 DataFrame 中提取了标签并将其组合成一个文本字符串 text： # 将标签列表转换为文本 text = ' '.join(df['标签'].tolist()) 这一步将所有标签合并为一个字符串，生成词云时会根据词频来决定每个词的大小和位置。步骤三：生成词云图使用 stylecloud 库生成词云图非常简单。需要指定文本、字体路径、颜色、图标以及背景颜色等参数。代码如下： import stylecloud # 指定字体文件路径 font_path = 'simhei.ttf' # 使用本地的黑体字体文件 # 使用 stylecloud 生成词云图 stylecloud.gen_stylecloud( text=text, # 文本数据 font_path=font_path, # 字体路径 palette='cartocolors.qualitative.Bold_5', # 颜色方案 max_font_size=100, # 最大字体大小 icon_name='fas fa-yen-sign', # 图标形状 background_color='#f4f4f4', # 背景颜色 output_name='福利.jpg' # 输出文件名 ) 参数解释： text: 输入的文本数据，将会用于生成词云。 font_path: 字体文件路径，simhei.ttf 是常用的中文字体。 palette: 颜色方案，cartocolors.qualitative.Bold_5 是一个颜色方案的名字，可以根据需要调整。 max_font_size: 最大字体大小，控制词云中最大词的大小。 icon_name: 词云的形状，这里使用的是“人民币符号”，你可以更换为其他图标，例如 'fas fa-heart' (爱心)。 background_color: 词云图的背景颜色。 output_name: 输出文件的名称和格式。步骤四：保存和查看词云图词云图生成后，会自动保存为指定名称的文件（如 '福利.jpg'）。可以在输出文件中查看词云效果。如下图：
2、招聘数量前20的区县数据柱形图实现数据分组与统计: df.groupby('区县')['链接'].count() 对区县进行分组，统计每个区县的招聘链接数。排序与选取: reset_index() 重置索引，sort_values(by='链接', ascending=False) 按招聘数量降序排列，取前20个数据。柱形图绘制: plt.bar(x_data, y_data, color='skyblue') 绘制柱形图，设置柱形颜色为浅蓝色。标题与标签: plt.title、plt.xlabel和plt.ylabel 添加标题和轴标签，明确图表内容。这种方法清晰地展示了招聘数量最多的前20个区县，有助于了解招聘热点地区。如下图：
3、不同公司性质招聘数量分布实现实现不同公司性质招聘数量分布，主要步骤包括数据分组、统计数量、绘制饼图等。数据分组与统计: df.groupby('性质')['链接'].count() 对公司性质进行分组，统计每种公司性质的招聘链接数量。排序与重置索引: reset_index() 重置索引，sort_values(by='链接', ascending=False) 按招聘数量降序排列。饼图绘制: plt.pie 绘制饼图，labels 参数设置标签，autopct 参数显示百分比，colors 参数设置颜色。文本属性和标签距离: textprops={'fontsize': 12} 设置文本字体大小，labeldistance=1.05 设置标签距离。图例与标题: plt.legend(fontsize=5) 添加图例并设置字体大小，plt.title 添加标题并设置字体大小。通过这些步骤，生成了一个展示不同公司性质招聘数量分布的饼图，直观显示各类型公司在招聘市场中的占比。如下图：
总结与展望
总结

在本项目中，我们通过Python实现了51job招聘数据的采集与可视化，数据采集方面，使用json库逐行读取JSON文件，将招聘评论数据存储在列表中，并转换为Pandas DataFrame。使用pandas.read_csv读取CSV文件，并合并两种数据源，保证数据的完整性。数据处理方面，对数据进行去重、缺失值填补和处理。特别是对薪资字段进行单位转换，确保数据的一致性。提取并处理招聘信息的关键特征，包括薪资、行业、城市分类等。使用正则表达式和自定义函数处理薪资数据。数据分析与可视化方面，使用词云图展示招聘行业的分布情况，利用stylecloud库生成形象化的词云。分类和比较不同城市和行业的薪资水平，帮助用户理解薪资分布。绘制饼图展示不同公司性质的招聘数量分布，直观显示各类型公司的招聘需求。使用柱形图展示招聘数量前20的区县数据，识别招聘热点地区。

展望

未来的改进和发展方向包括：

（1）数据采集自动化:使用爬虫技术实时获取最新的招聘数据，确保数据的时效性。结合API接口，扩展数据来源，获取更多维度的招聘信息。

（2）数据处理优化:增加数据清洗的自动化程度，减少人工干预，提高处理效率。引入更多的特征工程方法，如自然语言处理技术，深入挖掘文本信息。

（3）高级数据分析:利用机器学习算法进行薪资预测、岗位匹配等高级分析，提供更具指导性的结果。引入地理信息系统（GIS）技术，进行更精细的地域分布分析。

（4）可视化改进:使用交互式可视化工具（如Plotly、Bokeh），提升用户体验。

开发Web应用或仪表盘，实现招聘数据的动态展示和分析结果的实时更新。

（5）用户定制化服务:根据用户需求，提供个性化的分析报告和数据推送服务。

结合用户反馈，不断优化数据分析模型和可视化效果。

通过这些改进，项目可以更加全面、准确地分析招聘市场动态，为求职者和招聘方提供更具价值的信息和决策支持。

参考文献

[1] 基于Python的网页数据爬取与可视化分析[J]. 田雪丽;郭志斌;刘梦贤.电脑知识与技术,2022(06)

[2] 基于Python的南京二手房数据爬取及分析[J]. 戴瑗;郑传行.计算机时代,2021(01)

[3] Python爬虫技术的网页数据抓取与分析[J]. 徐志;金伟.数字技术与应用,2020(10)

[4] Python招聘数据分析[J]. 葛琳;杨娜.计算机与网络,2020(16)

[5] 基于Python的豆瓣图书数据的爬取与分析[J]. 张娇.晋城职业技术学院学报,2023(04)．

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://xiahunao.cn/news/3223962.html

如若内容造成侵权/违法违规/事实不符，请联系瞎胡闹网进行投诉反馈，一经查实，立即删除！

相关文章

干货：高水平论文写作思路与方法

干货：高水平论文写作思路与方法

前言：Hello大家好，我是小哥谈。高水平论文的写作需要扎实的研究基础和严谨的思维方式。同时，良好的写作技巧和时间管理也是成功的关键。本篇文章转载自行业领域专家所写的一篇文章，希望大家阅读后可以能够有所收获。🌈 目录 🚀1.依托事实/证据，通过合理的逻辑，…

阅读更多...

【深度学习基础】环境搭建 linux系统下安装pytorch

【深度学习基础】环境搭建 linux系统下安装pytorch

目录一、anaconda 安装二、创建pytorch1. 创建pytorch环境：2. 激活环境3. 下载安装pytorch包4. 检查是否安装成功一、anaconda 安装具体的安装说明可以参考我的另外一篇文章【环境搭建】Linux报错bash: conda: command not found… 二、创建pytorch 1. 创建py…

阅读更多...

C++ 是否变得比 C 更流行了？

C++ 是否变得比 C 更流行了？

每年都会出现一种新的编程语言。创造一种新语言来解决计算机科学中的挑战的诱惑很难抗拒。一些资料表明，目前有多达 2,500 种语言，这并不奇怪！ 对于我们嵌入式软件开发人员来说，这个列表并不长。事实上，我们可以用一只…

阅读更多...

【Java算法】二分查找下

【Java算法】二分查找下

🔥个人主页： 中草药 🔥专栏：【算法工作坊】算法实战揭秘一.山脉数组的峰顶索引题目链接：852.山脉数组的峰顶算法原理这段代码实现了一个查找山峰数组中峰值索引的算法。山峰数组是一个先递增后递减的数组&…

阅读更多...

解决安卓tv 蓝牙遥控器配对后输入法弹不出来的问题

解决安卓tv 蓝牙遥控器配对后输入法弹不出来的问题

t972在蓝牙配对后，自带的LatinIME 输入法会出现弹不出来的现象。经过分析，主要为蓝牙的kl 文件适配存在问题。解决如下： 1.新建 kl文件Vendor_2b54_Product_1600.kl 放到 /vendor/usr/keylayout/下内容： #for bl remote add by jason 20240709 key 113 VOLUME_MUTE …

阅读更多...

来一场栈的大模拟（主要是单调栈）

来一场栈的大模拟（主要是单调栈）

一.栈模拟二.单调栈求最大矩形面积通常，直方图用于表示离散分布，例如，文本中字符的频率。现在，请你计算在公共基线处对齐的直方图中最大矩形的面积。图例右图显示了所描绘直方图的最大对齐矩形。输入格式输入包含几个测…

阅读更多...

Java内存区域与内存溢出异常（补充）

Java内存区域与内存溢出异常（补充）

2.2.5 方法区方法区(Method Area)与Java堆一样，是各个线程共享的内存区域，它用于存储已被虚拟机加载的类型信息、常量、静态变量、即时编译器编译后的代码缓存等数据。虽然《Java虚拟机规范》中把方法区描述为堆的一个逻辑部分，但是它却有一…

阅读更多...

【C++】开源：坐标转换和大地测量GeographicLib库配置使用

【C++】开源：坐标转换和大地测量GeographicLib库配置使用

😏★,:.☆(￣▽￣)/$:.★ 😏 这篇文章主要介绍坐标转换和大地测量GeographicLib库配置使用。无专精则不能成，无涉猎则不能通。——梁启超欢迎来到我的博客，一起学习，共同进步。喜欢的朋友可以关…

阅读更多...

“郑商企航”暑期社会实践赴美丽美艳直播基地开展调研

“郑商企航”暑期社会实践赴美丽美艳直播基地开展调研

马常旭文化传媒网讯（记者张明辉报道）导读：2024 年 7 月 3 日，商学院暑期社会实践团“郑商企航”在河南省郑州市新密市岳村镇美丽美艳直播基地，展开了一场意义非凡的考察活动，团队成员深度调研了直播基地的产…

阅读更多...

$关于string的‘\0‘与string，vector构造特点加部分特别知识点的讨论$

关于string的‘\0‘与string，vector构造特点加部分特别知识点的讨论

目录前言： 问题一：关于string的\0问题讨论问题二：C标准库中的string内存是分配在堆上面吗？ 问题三：string与vector的capacity大小设计的特点问题四：string的流提取问题问题五：迭代器失…

阅读更多...

c++内存管理（上）

c++内存管理（上）

目录引入分析说明 C语言中动态内存管理方式 C内存管理方式 new/delete操作内置类型 new和delete操作自定义类型引入我们先来看下面的一段代码和相关问题 int globalVar 1; static int staticGlobalVar 1; void Test() { static int staticVar 1; int localVar 1…

阅读更多...

MySQL：TABLE_SCHEMA及其应用

MySQL：TABLE_SCHEMA及其应用

MySQL TABLE_SCHEMA及其应用 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite：http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550263/ar…

阅读更多...

（2）滑动窗口算法练习：无重复字符的最长子串

（2）滑动窗口算法练习：无重复字符的最长子串

无重复字符的最长子串题目链接：3. 无重复字符的最长子串 - 力扣（LeetCode） 给定一个字符串 s ，请你找出其中不含有重复字符的最长子串的长度。输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是"a…

阅读更多...

二战架构师，拿下

二战架构师，拿下

前言已经许久更新文章了，并不是因为我懒了，而是在备考系统架构师考试。个人感觉还是比较幸运的，低分飘过。现阶段任务也算完成了，记录一下感受。什么是软考软考，全称“计算机技术与软件专业技术资格&#xff08…

阅读更多...

快速入门，springboot知识点汇总

快速入门，springboot知识点汇总

学习 springboot 应该像学习一门编程语言一样，首先要熟练掌握常用的知识，而对于不常用的内容可以简单了解一下。先对整个框架和语言有一个大致的轮廓，然后再逐步补充细节。前序: Spring Boot 通过简化配置和提供开箱即用的特性&#xff0c…

阅读更多...

解决了一个java Bug：Exception in thread “main“ java.lang.NullPointerException

解决了一个java Bug：Exception in thread “main“ java.lang.NullPointerException

写代码，遇到了个问题。很纳闷，跟着人家写的代码。只能去查资料。赶紧去找，自己的代码逆天，赶紧改！ 成功了！！！

阅读更多...

Msfvenom制作自己的专属Shell

Msfvenom制作自己的专属Shell

Msfvenom制作自己的专属Shell 如何通过Msfvenom来生成用户自己的专属Shell?有时候我们上传Shell到目标主机后，不仅我们自己可以连接，其他用户也可以连接，有时候会导致我们丢失该Shell，甚至该shell被用户发现并查杀。实验环境 …

阅读更多...

昇思MindSpore25天学习Day19：CycleGAN图像风格迁移互换

昇思MindSpore25天学习Day19：CycleGAN图像风格迁移互换

(TOC)[CycleGAN图像风格迁移呼唤] 模型介绍模型简介 CycleGAN(Cycle Generative Adversaial Network)即循环对抗生成网络，来自论文Link:Unpaired lmage-to-mage Translation using Cycle-Consistent AdvesairalNetworks该模型实现了—种在没有配对示例的情况下学…

阅读更多...

ByteMD富文本编辑器的vue3配置

ByteMD富文本编辑器的vue3配置

Git地址：GitHub - bytedance/bytemd: ByteMD v1 repository 控制面板输入 npm install bytemd/vue-next 下载成功后在src/main.ts中引用 import "bytemd/dist/index.css";引入后保存，下面是一些插件，比如说我用到gmf和hightLight&…

阅读更多...

如何压缩视频大小不改变画质，视频太大怎么压缩变小

如何压缩视频大小不改变画质，视频太大怎么压缩变小

在现代生活中，视频已经成为我们记录生活、分享快乐的重要工具。但随之而来的问题就是视频文件体积过大，不仅占用大量存储空间，还难以在社交平台上快速分享。别担心，下面我就来教大家几种简单有效的方法，让视频文件轻松…

阅读更多...

最新文章