BOSS直聘上算法岗位的薪资分析

        

目录

一、数据介绍及预处理

1、数据介绍

2、数据预处理

二、数据分析

1、缺失值统计

2、岗位数量、薪资水平统计

3、企业维度岗位数量

4、top薪资岗位

三、划重点

少走10年弯路


        元旦抽空爬取了一下BOSS直聘上base北京的算法岗位的相关数据,本文简单分析拿给大家做参考,看完才发现算法薪资原来这么高啊、轻松秒掉数据分析。

        在PC端上打开BOSS直聘网页搜索算法,只会显示10页岗位(每页30条),所以我按照工作经验要求对应届生、 1年以内、 1-3年、 3-5年、 5-10年、 10年以上分别爬了10页数据,总共1770条(漏了30条也不是算法岗位,就不补了)。

一、数据介绍及预处理

1、数据介绍

        数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集

图片

2、数据预处理

(1)数据筛选

        由于BOSS直聘上搜索算法岗位的结果中,包含一些数据开发、AI产品等其他岗位,因此按照岗位名称是否包含算法/机器学习等来做筛选,剩余1411条

图片

(2)数据分割提取

        在job_area中包括市、行政区、乡镇三级地址,tag_list中包含经验要求、学历要求,company_tag_list中包含行业、融资阶段、员工规模,所以结合split方法、正则表达式分别进行数据提取。

图片


import re
def get_industry(string):
    try:
        result=re.findall('(.*?)[0-9].*[0-9].*',string)[0]
        l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']
        for s in l:
            result=result.replace(s,'')
        return result
    except:
        return None

def get_scale(string):
    try:
        result=re.findall('([0-9].*[0-9].*)',string)[0]
        l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']
        for s in l:
            if s in result:
                result=result.split(s)[1]
        return result
    except:
        return None
    
def dat_pred(data):
    df=data[data.job_name.str.contains('算法')|data.job_name.str.contains('机器学习')|data.job_name.str.contains('深度学习')|data.job_name.str.contains('自然语言')|data.job_name.str.contains('NLP')|data.job_name.str.contains('图像识别')].reset_index(drop=True).copy()
    df['district']=df.job_area.str.split('·').str[1]
    df['town']=df.job_area.str.split('·').str[2]
    
    df['experience']=df.tag_list.str.split('\\n').str[0]
    df['education']=df.tag_list.str.split('\\n').str[1]
    
    df['industry']=df.company_tag_list.apply(get_industry)
#     df['scale']=df.company_tag_list.apply(lambda x:re.findall('([0-9].*[0-9].*)',x)).str[0]
    df['scale']=df.company_tag_list.apply(get_scale)
    
    df['base_salary']=df.salary.str.split('-').str[0]
    df.base_salary=df.base_salary.astype(float)
    return df


df_all_copy=df_all.pipe(dat_pred)
df_all_copy

(3)薪资数据处理

        考虑到薪资待遇下限更贴近实际,因此提取左边界作为base_salary用于分析,此外发现大部分salary单位是k、但是还有部分为元,所以进行标准化处理、统一为k。

图片

二、数据分析

1、缺失值统计

        由于BOSS直聘上的数据格式规范,所以爬取的数据质量尚可,整体缺失率低

图片

2、岗位数量、薪资水平统计

        对地域、学历、经验、员工规模等进行分组统计岗位数量、薪资水平

(1)行政区分组统计

        不出所料,海淀和朝阳的算法岗位数量远超其他地区,在海淀确实有很多互联网大厂的职场,在这个数据集中直接按行政区分组统计base_salary平均水平最高的反而是顺义(同数据分析),而顺义的数据量少、所以结果仅供参考

图片

图片

(2)经验要求分组统计

        从数据结果来看,相对于数据分析岗位而言、企业对应届生的算法岗位招聘量比较可观,当然应届生的面试难度可能更大;算法岗位基本起薪都在20k了,而且随着工作经验增加,算法岗位的薪资待遇增长也很稳定,3年基本就能拿到30k了

图片

图片

(3)学历要求分组统计

        从数据结果来看,企业对学历还是有一定要求的,大多本科起步;随着学历提高,薪资差异虽然没有那么大、但也还是明显的单调关系

图片

图片

3、企业维度岗位数量

图片

4、top薪资岗位

        分别对不同经验要求的算法岗位排序的到最高的top10薪资,可以看到在不同经验要求下最高的一批薪资都是很可观的、尤其是top岗位薪资是超乎想象的高,所以加油吧朋友们,钱途可期啊

图片

图片

图片

图片

三、划重点

少走10年弯路

        关注威信公众号 Python风控模型与数据分析,回复 BOSS直聘算法 获取本篇数据及代码

        还有更多理论、代码分享等你来拿

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/285881.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux 系统拉取 Github项目

一、安装Git 在Linux上拉取GitHub项目可以使用Git命令。首先确保已经安装了Git。如果没有安装,可以通过包管理器(比如apt、yum)来进行安装。 sudo yum install git #查看安装版本 git -version二、关联GitHub 配置本地账户和邮箱 >>…

HarmonyOS4.0系统性深入开发08服务卡片架构

服务卡片概述 服务卡片(以下简称“卡片”)是一种界面展示形式,可以将应用的重要信息或操作前置到卡片,以达到服务直达、减少体验层级的目的。卡片常用于嵌入到其他应用(当前卡片使用方只支持系统应用,如桌…

《师兄啊师兄》:以“稳健”诠释修仙,反套路喜剧动画赢麻了!

在众多动画题材中,修仙动画一直以其独特的东方神秘色彩和热血的打斗场景深受观众喜爱,可以说是国漫中最具本土特色的题材之一。近年来,大量的修仙题材爆款IP被改编成动画,整体反响非常热烈。动画男主角们通过不断地修炼&#xff0…

深度学习——PIL和OpenCV

PIL 官方文档 格式互转 opencv cv2.imread() 参数: filepath:读入imge的完整路径 flags:标志位,{cv2.IMREAD_COLOR,cv2.IMREAD_GRAYSCALE,cv2.IMREAD_UNCHANGED} cv2.IMREAD_COLOR:默认参数&…

Cypress安装与使用教程(3)—— 软测大玩家

😏作者简介:博主是一位测试管理者,同时也是一名对外企业兼职讲师。 📡主页地址:【Austin_zhai】 🙆目的与景愿:旨在于能帮助更多的测试行业人员提升软硬技能,分享行业相关最新信息。…

计算商场优惠

#include<stdio.h> #include<string.h> #include<math.h> double amount(double list[], int n, double min) {int i;double sum 0, cheap list[0];for (i 0; i < n; i){sum sum list[i];if (list[i] < cheap) //找出最小的cheap list[i];}if (n…

Rust赋值语句和数字类型

赋值语句 在Rust中&#xff0c;使用let关键字定义变量。格式是let 变量名:变量类型 变量值;&#xff0c;下边是个例子&#xff1a; let age:i32 18;这就是定义一个有符号32位的数字变量age&#xff0c;而其中的值是18。 而在C语言定义变量的语句格式是类型 变量名 变量值。…

Tinker 环境下数据表的用法

如果我们要自己手动创建一个模型文件&#xff0c;最简单的方式是通过 make:model 来创建。 php artisan make:model Article 删除模型文件 rm app/Models/Article.php 创建模型的同时顺便创建数据库迁移 php artisan make:model Article -m Eloquent 表命名约定 在该文件中&am…

【软件工程】设计概念

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a; 软件工程 ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 前言 正文 软件工程中的设计概念 概念&#xff1a; 结语 我的其他博客 前言 在数字时代的浪潮中&#xff0c;软件工程设计成为塑造创新…

钡铼案例 污水处理远程监控系统的应用介绍

背景 这几年以来&#xff0c;随着国家对环保方面的重视&#xff0c;各地纷纷建立了自己的污水处理站。如何才能保护水资源让其循环利用达到节能减排&#xff0c;是目前急需解决的&#xff0c;正是污水处理项目对水资源的改善以及人民生活水平的提高有着重大的意义。 污水处理…

AC——对HTTPS数据进行行为审计时的解密方式

目录 SSL中间人解密 客户端代理解密&#xff08;准入插件解密&#xff09; 深信服的AC提供两种SSL解密技术用于对https行为进行解密 中间人解密和准入插件解密 SSL中间人解密 解密工作原理 当内网PC端发起SSL连接请求的时候&#xff0c;AC会以代理服务器的身份&#xff0…

vba抓取网页数据

哈喽&#xff0c;哈喽&#xff0c;大家好&#xff01;大家2024发大财啦&#xff01; 不知道&#xff0c;平时大家爱不爱看电影呢&#xff1f;从今年的贺岁档的拍片来看&#xff0c;今年的电影还挺多&#xff0c;而且国产优秀电影居多&#xff0c;元旦假期期间我也去看了部喜剧…

【数据库原理】(4)数据模型介绍

在数据库中&#xff0c;数据不仅包含数据本身的内容&#xff0c;还包括数据之间的关系。这是因为计算机无法直接处理现实世界中的具体事物&#xff0c;因此必须将这些事物抽象成数据模型&#xff0c;以便计算机处理。 数据处理的三个领域 数据从现实世界到数据库里的具体表示…

【C++学习】:命名空间、输入输出和缺省参数全面解析

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; C入门到进阶 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一. 命名空间1.1 为什么需要命名空间&#xff1f;1.2 命名空间的定义1.3 命名空间特性1…

3个值得推荐的WPF UI组件库

WPF介绍 WPF 是一个强大的桌面应用程序框架&#xff0c;用于构建具有丰富用户界面的 Windows 应用。它提供了灵活的布局、数据绑定、样式和模板、动画效果等功能&#xff0c;让开发者可以创建出吸引人且交互性强的应用程序。 HandyControl HandyControl是一套WPF控件库&…

图像分割实战-系列教程9:U2NET显著性检测实战1

&#x1f341;&#x1f341;&#x1f341;图像分割实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 U2NET显著性检测实战1 1、任务概述

如何本地快速部署Apache服务器并使用内网穿透工具实现公网访问内网服务

文章目录 前言1.Apache服务安装配置1.1 进入官网下载安装包1.2 Apache服务配置 2.安装cpolar内网穿透2.1 注册cpolar账号2.2 下载cpolar客户端 3. 获取远程桌面公网地址3.1 登录cpolar web ui管理界面3.2 创建公网地址 4. 固定公网地址 前言 Apache作为全球使用较高的Web服务器…

深度学习|2.4 梯度下降

如上图&#xff0c; J ( w , b ) J(w,b) J(w,b)是由w和b两个参数共同控制的损失函数&#xff0c;损失是不好的东西&#xff0c;所以应该求取合适的w和b使得损失最小化。 为了简单考虑&#xff0c;可以先忽略参数b。 斜率可以理解成在朝着x正方向移动单位距离所形成的损失值的变…

【Linux驱动】设备树模型的LED驱动 | 查询方式的按键驱动

&#x1f431;作者&#xff1a;一只大喵咪1201 &#x1f431;专栏&#xff1a;《Linux驱动》 &#x1f525;格言&#xff1a;你只管努力&#xff0c;剩下的交给时间&#xff01; 目录 &#x1f36e;设备树模型的LED驱动&#x1f369;设备树文件&#x1f369;驱动程序 &#x1…

【数据结构】树的遍历

树的遍历 前序遍历 前序遍历是按照根节点->左子树->右子树的顺序进行遍历 图片来源维基百科深度优先遍历&#xff08;前序遍历&#xff09;: F, B, A, D, C, E, G, I, H. 代码实现 递归 # class TreeNode: # def __init__(self, x): # self.val x # …