北上广深数据分析岗位的薪资对比

目录

一、数据介绍及预处理

1、数据介绍

2、数据预处理

二、数据分析

1、岗位数量、薪资水平统计

3、企业维度岗位数量

4、top薪资岗位

三、划重点

少走10年弯路


        之前跟大家分享过BOSS直聘上base北京的数据分析职位薪资数据分析,这次爬了北上广深四个城市的数据分析职位数据,本文简单对比分析拿给大家做参考。

一、数据介绍及预处理

1、数据介绍

        数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集

图片

2、数据预处理

(1)数据筛选

        由于BOSS直聘上搜索数据分析岗位的结果中,包含一些数据开发、需求分析等其他岗位,因此按照岗位名称是否包含数据分析/商业分析来做筛选

图片

图片

(2)数据分割提取

        在job_area中包括市、行政区、乡镇三级地址,tag_list中包含经验要求、学历要求,company_tag_list中包含行业、融资阶段、员工规模,所以结合split方法、正则表达式分别进行数据提取。

import re
def get_industry(string):try:result=re.findall('(.*?)[0-9].*[0-9].*',string)[0]l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']for s in l:result=result.replace(s,'')return resultexcept:return Nonedef get_scale(string):try:result=re.findall('([0-9].*[0-9].*)',string)[0]l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']for s in l:if s in result:result=result.split(s)[1]return resultexcept:return Nonedef data_pred(data):df=data[data.job_name.str.contains('数据分析')|data.job_name.str.contains('商业分析')|data.job_name.str.lower().str.contains('bi')].reset_index(drop=True).copy()df=df[~df.salary.str.contains('时')][~df.salary.str.contains('周')].reset_index(drop=True).copy()df['district']=df.job_area.str.split('·').str[1]df['town']=df.job_area.str.split('·').str[2]df['experience']=df.tag_list.str.split('\\n').str[0]df['education']=df.tag_list.str.split('\\n').str[1]df['industry']=df.company_tag_list.apply(get_industry)
#     df['scale']=df.company_tag_list.apply(lambda x:re.findall('([0-9].*[0-9].*)',x)).str[0]df['scale']=df.company_tag_list.apply(get_scale)df['base_salary']=df.salary.str.split('-').str[0]df.base_salary=df.base_salary.astype(float)df.loc[df.salary.str.contains('元/月'),'base_salary']=df.base_salary/1000  # 标准化工资单位为kreturn df

(3)薪资数据处理

        考虑到薪资待遇下限更贴近实际,因此提取左边界作为base_salary用于分析,此外发现大部分salary单位是k、但是还有部分为元,所以进行标准化处理、统一为k,对于部分时薪、周薪的兼职岗位直接剔除。

图片

二、数据分析

1、岗位数量、薪资水平统计

        按照经验要求进行分组统计岗位数量、薪资水平,对北上广深四个城市进行对比。从数据结果来看,北京上海薪资还是略高一些、并且对数据分析岗位的需求量也更大一些。

(1)北京

图片

图片

(2)上海

图片

图片

(3)广州

图片

图片

(4)深圳

图片

图片

3、企业维度岗位数量

        不同城市各企业招聘情况取决于企业职场地域分布,从招聘数量数据也可以看出部分企业(职能部门)办公地区的情况。

北京

图片

上海

图片

广州

图片

深圳

图片

4、top薪资岗位

        除个别极端例子外(如华为应届博士95k、广州市创星体育发展机构应届生50k),整体来看,北京和上海在平均薪资待遇和top待遇上都略高于广州和深圳,几千块的差异还是很明显的。

(1)应届生top薪资

图片

图片

图片

图片

(2)1-3年top薪资

图片

图片

图片

图片

三、划重点

少走10年弯路

        关注威信公众号 Python风控模型与数据分析,回复 北上广深数据分析 获取本篇数据及代码

        还有更多理论、代码分享等你来拿

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2809723.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【MySQL面试复习】详细说下事务的特性

系列文章目录 在MySQL中,如何定位慢查询? 发现了某个SQL语句执行很慢,如何进行分析? 了解过索引吗?(索引的底层原理)/B 树和B树的区别是什么? 什么是聚簇索引(聚集索引)和非聚簇索引…

GEE数据集——全球无缝高分辨率温度数据集(GSHTD)

全球无缝高分辨率温度数据集(GSHTD) 本研究中介绍的全球无缝高分辨率温度数据集(GSHTD)为各领域的研究人员提供了全面而宝贵的资源。该数据集涵盖 2001 年至 2020 年,主要关注陆地表面温度 (Ts) 和近地面气温 (Ta)。GS…

camunda7流程平台技术架构概述

Camunda Platform 是一个基于 Java 的BPMN(流程引擎)、DMN(规则引擎)、CMMN(案例管理)的开源框架。主要组件是用 Java 编写的,主要专注于为 Java 开发人员提供在 JVM 上设计、实现和运行业务流程和工作流所需的工具&am…

【AIGC大模型】跑通wonder3D (windows)

论文链接:https://arxiv.org/pdf/2310.15008.pdf windows10系统 显卡:NVIDIA rtx 2060 一、安装anaconda 二、安装CUDA 11.7 (CUDA Toolkit 11.7 Downloads | NVIDIA Developer) 和 cudnn 8.9.7(cuDNN Archive | NVIDIA Developer)库 CUDA选择自定…

接口自动化测试用例如何设计

说到自动化测试,或者说接口自动化测试,多数人的第一反应是该用什么工具,比如:Python Requests、Java HttpClient、Apifox、MeterSphere、自研的自动化平台等。大家似乎更关注的是哪个工具更优秀,甚至出现“ 做平台的 &…

前后端分离Vue+node.js在线学习考试系统gqw7o

与其它应用程序相比,在线学习平台的设计主要面向于学校,旨在为管理员和学生、教师、院系提供一个在线学习平台。学生、教师、院系可以通过系统及时查看公告信息等。 在线学习平台是在Windows操作系统下的应用平台。为防止出现兼容性及稳定性问题&#xf…

多输入时序预测|WOA-CNN|鲸鱼算法优化的卷积神经网络时序预测(Matlab)

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、部分程序: 四、完整程序数据下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matalb平台编译&…

无人集群试验评估现状及技术方法综述

源自:系统工程与电子技术 作者:赵蕊蕊, 于海跃, 游雅倩, 张涛, 陶敏, 姜江 “人工智能技术与咨询” 发布 摘 要 试验评估是促进装备系统作战能力生成和实战化应用的重要手段。无人集群依靠自组网实现复杂交互, 具备典型的智能性和涌现性, 开展无人集…

【大数据】Flink SQL 语法篇(四):Group 聚合

Flink SQL 语法篇(四):Group 聚合 1.基础概念2.窗口聚合和 Group 聚合3.SQL 语义4.Group 聚合支持 Grouping sets、Rollup、Cube 1.基础概念 Group 聚合定义(支持 Batch / Streaming 任务):Flink 也支持 G…

复制策略深入探讨

在之前的博客中,我们讨论了复制最佳实践和不同类型的复制,例如批量、站点和存储桶。但是,随着所有这些不同类型的复制类型的出现,人们不得不想知道在哪里使用哪种复制策略?从现有 S3 兼容数据存储迁移数据时&#xff0…

SV-6301 IP网络可视对讲报警柱简介

SV-6301 IP网络可视对讲报警柱简介 18123651365微信 功能特点: 1.全金属外壳,户外防风雨,坚固耐用,易于识别 2.单键呼叫,可通过软件指定呼叫目标,双向可视对讲广播喊话 3.终端内置扬声器和话筒眯头&…

GZ036 区块链技术应用赛项赛题第10套

2023年全国职业院校技能大赛 高职组 “区块链技术应用” 赛项赛卷(10卷) 任 务 书 参赛队编号: 背景描述 养老保险是对于老年人的最基本的生活保障。各种数据显示,当前的养老金市场规模庞大。2016年美国的养老金资…

SpringCloud-Docker原理解析

Spring Cloud和Docker的结合为微服务架构的部署和管理提供了强大的支持。本文深入剖析Spring Cloud与Docker的集成原理,从服务注册与发现、配置管理、负载均衡到容器化部署等方面展开详细解析。探讨Spring Cloud如何利用Docker容器技术实现服务的弹性伸缩&#xff0…

Linux系统中前后端分离项目部署指南

目录 一.nginx安装以及字启动 解压nginx 一键安装4个依赖 安装nginx 启动 nginx 服务 开放端口号 并且在外部访问 设置nginx自启动 二.配置负载均衡 1.配置一个tomact 修改端口号 8081端口号 2.配置负载均衡 ​编辑 三.部署前后端分离项目 1.项目部署后端 ​编辑…

SpringBoot3——核心特性——快速入门(三)

4、核心技能 4.1、常用注解 SpringBoot摒弃XML配置方式,改为全注解驱动 4.1.1、组件注册 Configuration、SpringBootConfiguration Bean、Scope Controller、 Service、Repository、Component Import ComponentScan 步骤: 1、Configuration 编写一个配置…

MFC由初值终值步长生成数值序列

matlab的冒号运算符可以生成数值序列; 下面来生成自己的数值序列; vc6新建一个对话框工程; 放几个控件;添加成员变量如下; void CMycolonDlg::OnButton1() {// TODO: Add your control notification handler code hereUpdateData(TRUE);double d1, d2;CString str1, …

Linux基础命令—进程管理

基础知识 linux进程管理 什么是进程 开发写代码->代码运行起来->进程 运行起来的程序叫做进程程序与进程区别 1.程序是一个静态的概念,主要是指令集和数据的结合,可以长期存放在操作系统中 2.进程是一个动态的概念,主要是程序的运行状态,进程存在生命周期,生命周期结…

YOLO算法改进Backbone系列之:EfficientViT

EfficientViT: Memory Effificient Vision Transformer with Cascaded Group Attention 摘要:视觉transformer由于其高模型能力而取得了巨大的成功。然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在这篇论文中&#x…

ChatGPT/GPT4科研应用与AI绘图及论文高效写作

原文:ChatGPT/GPT4科研应用与AI绘图及论文高效写作 第一:2024年AI领域最新技术 1.OpenAI新模型-GPT-5 2.谷歌新模型-Gemini Ultra 3.Meta新模型-LLama3 4.科大讯飞-星火认知 5.百度-文心一言 6.MoonshotAI-Kimi 7.智谱AI-GLM-4 第二:…

【CT成像】VGSTUDIO MAX最小系统要求检查缺少支持OpenGL3.3的解决办法

【CT成像】VGSTUDIO MAX最小系统要求检查缺少支持OpenGL3.3的解决办法 1.背景2.分析3.解决办法4.资源 1.背景 我把自己的台式机电脑进行了VMware ESXi 虚拟化。 在vmware ESXi系统中安装了windows系统, 并在windows系统中安装了VGSTUDIO MAX软件。 在运行VGSTUDIO…