基于Python网络爬虫的IT招聘就业岗位数据分析可视化推荐系统

文章目录

  • 基于Python网络爬虫的IT招聘就业岗位数据分析可视化推荐系统
    • 项目概述
    • 招聘岗位数据爬虫分析
    • 系统展示
      • 用户注册登录
      • 系统首页
      • IT招聘数据开发岗-java
      • IT招聘数据开发岗-Python
      • IT招聘数据开发岗-Android
      • IT招聘数据开发岗-其它招聘岗位数据分析
      • 算法方面
      • 运维方面
      • 测试方面
      • 招聘岗位薪资多维度精准预测
      • 招聘岗位分析推荐
    • 结语

基于Python网络爬虫的IT招聘就业岗位数据分析可视化推荐系统

项目概述

本项目旨在开发一个基于Python网络爬虫技术的IT招聘就业岗位可视化分析推荐系统。数据来源于Boss直聘招聘网站,采集到的各种岗位数据信息量合计在70万左右,数据精确真实可靠,本项目主要利用selenium、requests爬虫以及BeautifulSoup、numpy和Pandas等库进行数据的获取与分析处理。除此之外,项目还包括词云生成、数据分析、精准分析岗位算法推荐以及多维度薪资预测等功能,旨在为求职者提供全面的就业信息支持。

1.数据爬取与清洗:利用selenium和requests等库,结合BeautifulSoup解析HTML页面,从boss直聘等招聘网站上抓取相关数据。爬取的数据包括岗位名称、薪资、公司名称、公司规模、职位描述等。爬取后的数据需要进行清洗和预处理,确保数据的准确性和完整性。

2.词云生成:利用爬取的职位描述等文本数据,使用词云生成技术,将关键词可视化展示,帮助用户快速了解招聘岗位的主要特点和需求。

3.数据分析与可视化:利用Python的数据分析库(如Pandas、NumPy等)对爬取的数据进行分析,探索招聘市场的趋势、热门岗位、薪资水平等多维度、多层次招聘数据岗位关键信息。同时,利用可视化库(如Matplotlib、Echarts、Seaborn、Plotly等)生成直观、易于理解的图表和图形,提供给用户参考。

4.岗位算法推荐:根据用户输入的个人信息、技能和求职偏好,结合爬取的岗位数据,设计并实现精准分析岗位推荐给用户,为用户推荐匹配度较高的岗位,提高求职效率。

5.机器学习算法薪资预测:基于爬取的历史薪资数据以及其他相关因素,建立机器学习算法薪资预测模型,为用户提供对于不同岗位薪资水平的预测,帮助他们更好地评估职位的吸引力。

通过以上功能,本项目旨在为求职者提供一个综合性的就业信息平台,帮助他们更好地了解市场需求、制定求职策略,并通过推荐系统和薪资预测模型提供个性化的职位推荐和薪资参考,从而促进求职过程的顺利进行。

招聘岗位数据爬虫分析

通过selenium爬虫模块,能够快速准确的爬取所需要的详细招聘信息,可以精准爬取所需要的招聘岗位地区,城市,岗位名称,如’python’, ‘算法’, ‘测试’,'python’等不同IT岗位通过关键字都可以精确爬取。

然后将爬虫和数据处理接口全部封装到runtest脚本,完成所需要的招聘岗位数据爬虫及数据清洗。

#数据爬虫
 spider = bosszp_spider.Spider()
 spider.run()


#数据清洗
# #
handle = datahandle.DataHandle()
handle.run()

selenium爬取招聘岗位详细信息并进行数据清洗,这里我的chromedriver.exe版本是v110,一定选择浏览器所兼容支持的版本号。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

看下我之前爬取到的C语言招聘岗位详细数据信息
在这里插入图片描述

部分核心代码:

from selenium import webdriver
from bs4 import BeautifulSoup
import mysql


class Spider(object):

    def __init__(self):
        # 创建数据库对象
        self.__sql = mysql.MySql()
        # 无头浏览器开启
        self.__driver = webdriver.Chrome('spider/chromedriver.exe')
        # 隐式等待
        self.__driver.implicitly_wait(20)
        # 设置需要爬取的 【关键词】
        self.__keyword = ['c', 'java', 'python', 'web前端', '.net', 'u3d', 'c#', 'c++', '算法', 'ios', 'Android']
        #self.__keyword = ['.net', 'u3d', 'c#', 'c++', '算法', 'ios', 'Android']
        #self.__keyword = ['测试', '运维','算法', 'ios', 'Android']
        # self.__keyword = ['python']
        # self.__keyword = ['python', '算法', '测试']
        # self.__keyword = ['Android']

    def __del__(self):
        # 关闭无头浏览器,减少内存损耗
        self.__driver.quit()

    # 设置爬取关键词
    def setKeyword(self, keyword):
        self.__keyword = []
        if isinstance(keyword, list):
            self.__keyword = keyword
        else:
            var = str(keyword)
            var.strip()
            if " " in var:
                keyword_list = var.split(' ')
                self.__keyword = keyword_list
            else:
                self.__keyword.append(var)

    # 获取所有关键词
    def getKeyword(self):
        return self.__keyword

    # 爬虫方法
    def run(self):

        print(">>>开始获取...")

        # 城市json
        # 在下方设置需要爬取的【城市】

        cities = [{"name": "北京", "code": 101010100, "url": "/beijing/"},
                  {"name": "上海", "code": 101020100, "url": "/shanghai/"},
                  {"name": "广州", "code": 101280100, "url": "/guangzhou/"},
                  {"name": "深圳", "code": 101280600, "url": "/shenzhen/"},
                  # {"name": "杭州", "code": 101210100, "url": "/hangzhou/"},
                  # {"name": "天津", "code": 101030100, "url": "/tianjin/"},
                  # {"name": "西安", "code": 101110100, "url": "/xian/"},
                  # {"name": "苏州", "code": 101190400, "url": "/suzhou/"},
                  # {"name": "武汉", "code": 101200100, "url": "/wuhan/"},
                  # {"name": "厦门", "code": 101230200, "url": "/xiamen/"},
                  # {"name": "长沙", "code": 101250100, "url": "/changsha/"},
                  # {"name": "成都", "code": 101270100, "url": "/chengdu/"},
                  # {"name": "郑州", "code": 101180100, "url": "/zhengzhou/"},
                  # {"name": "重庆", "code": 101040100, "url": "/chongqing/"},
                  # {"name": "佛山", "code": 101280800, "url": "/foshan/"},
                  # {"name": "合肥", "code": 101220100, "url": "/hefei/"},
                  # {"name": "济南", "code": 101120100, "url": "/jinan/"},
                  # {"name": "青岛", "code": 101120200, "url": "/qingdao/"},
                  # {"name": "南京", "code": 101190100, "url": "/nanjing/"},
                  # {"name": "东莞", "code": 101281600, "url": "/dongguan/"},
                  # {"name": "福州", "code": 101230100, "url": "/fuzhou/"}
                  ..............................................
                  ]
        # 总记录数
        all_count = 0
        # 关键词爬取
        for key in self.__keyword:
            print('>>>当前获取关键词: "{}"'.format(key))
            # 单个关键词爬取记录数
            key_count = 0
            # 每个城市爬取
            for city in cities:
                print('>>>当前获取城市: "{}"'.format(city['name']))
                # 记录每个城市爬取数据数目
                city_count = 0
                # 只获取前十页
                urls = ['https://www.zhipin.com/c{}/?query={}&page={}&ka=page-{}'
                            .format(city['code'], key, i, i) for i in range(1, 11)]
                # 逐条解析
                for url in urls:
                    self.__driver.get(url)
                    # 获取源码,解析
                    html = self.__driver.page_source
                    bs = BeautifulSoup(html, 'html.parser')
                    # 获取搜索框,用于判断是否被异常检测
                    flag = bs.find_all('div', {'class': 'inner home-inner'})
                    # 主要信息获取
                    job_all = bs.find_all('div', {"class": "job-primary"})


                    # 解析页面
                    for job in job_all:
                        # 工作名称
                        job_name = job.find('span', {"class": "job-name"}).get_text()
                        # 工作地点
                        job_place = job.find('span', {'class': "job-area"}).get_text()
                        # 工作公司
                        job_company = job.find('div', {'class': 'company-text'}).find('h3', {'class': "name"}).get_text()
                        # 公司规模
                        job_scale = job.find('div', {'class': 'company-text'}).find('p').get_text()
                        # 工作薪资
                        job_salary = job.find('span', {'class': 'red'}).get_text()
                        # 工作学历
                        job_education = job.find('div', {'class': 'job-limit'}).find('p').get_text()[-2:]
                        # 工作经验
                        job_experience = job.find('div', {'class': 'job-limit'}).find('p').get_text()
                        # 工作标签
                        job_label = job.find('a', {'class': 'false-link'}).get_text()
                        # 技能要求
                        job_skill = job.find('div', {'class': 'tags'}).get_text().replace("\n", " ").strip()
                        # 福利
                        job_welfare = job.find('div', {'class': 'info-desc'}).get_text().replace(",", " ").strip()

                        #职位类型 追加
                        type=key

                        # 数据存储
                        self.__sql.saveData(job_name, job_place, job_company, job_scale, job_salary, job_education,
                                             job_experience,
                                             job_label,
                                             job_skill,
                                             job_welfare,type)
                            .......

最后爬取不同城市的详细真实IT招聘岗位数据大约70万条,爬的时间也挺久。

在这里插入图片描述

系统展示

启动项目 进入系统

http://127.0.0.1:8080/login.html

在这里插入图片描述

用户注册登录

在这里插入图片描述

系统首页

在这里插入图片描述

在这里插入图片描述

IT招聘数据开发岗-java

在这里插入图片描述

IT招聘数据开发岗-Python

在这里插入图片描述

IT招聘数据开发岗-Android

在这里插入图片描述

IT招聘数据开发岗-其它招聘岗位数据分析

其它 IT招聘岗位数据分析这里就不一一截图了。

非开发岗我这里爬取了3个,想爬取更多岗位,可以直接修改爬虫代码里面参数信息就行。

算法方面

在这里插入图片描述

运维方面

在这里插入图片描述

测试方面

在这里插入图片描述

招聘岗位薪资多维度精准预测

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

招聘岗位分析推荐

在这里插入图片描述

在这里插入图片描述

结语

后面有时间和精力也会分享更多关于大数据领域方面的优质项目内容,感谢各位的喜欢与支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/415075.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

redis是单线程,为什么这么快?

redis是纯内存操作,C语言编写,执行速度非常快。 采用单线程,避免不必要的上下文切换,不用考虑线程安全问题。 采用I/O多路复用模型,非阻塞I/O。 例如:bgsave和bgrewriteaof都是在后台执行操作&#xff0…

农业四情监测设备为什么符合高标准农田建设

TH-Q3随着科技的不断进步,智慧农业正逐渐成为现代农业发展的重要方向。其中,农业四情监测系统以其独特的功能和优势,在高标准农田建设中发挥着越来越重要的作用。 一、农业四情监测系统的概念及功能 农业四情监测系统,顾名思义&am…

C++之queue和dqueue

1、queue queue(队列),一种数据结构,可以让某些数据结构的操作变得简单。队列(queue)最大的特点就是先进先出。就是说先放入queue容器的元素一定是要先出队列之后,比它后进入队列的元素才能够出…

算法沉淀——动态规划之回文串问题(上)(leetcode真题剖析)

算法沉淀——动态规划之回文串问题 01.回文子串02.最长回文子串03.分割回文串 IV04.分割回文串 II05.最长回文子序列06.让字符串成为回文串的最少插入次数 01.回文子串 题目链接:https://leetcode.cn/problems/palindromic-substrings/ 给你一个字符串 s &#xf…

08 MyBatis之查询专题(返回对象/Map/List封装Map/Map封装Map)+列名与属性名映射的三种方法

准备: INSERT INTO t_car (id, car_num, brand, guide_price, produce_time, car_type) VALUES (165, 6666, 丰田霸道, 32.00, 2020-11-11, 燃油车); INSERT INTO t_car (id, car_num, brand, guide_price, produce_time, car_type) VALUES (166, 1202, 大众速腾, 30.00, 2020…

IntelliJ IDEA 2023:创新不止步,开发更自由 mac/win版

IntelliJ IDEA 2023激活版是一款强大而智能的集成开发环境(IDE),为开发者提供了一系列先进的功能和工具,帮助他们更高效地编写、调试和测试代码。 IntelliJ IDEA 2023 软件获取 IntelliJ IDEA 2023继承了其前代版本的优秀基因,并在此基础上进…

基于AMDGPU-ROCm的深度学习环境搭建

在风起云涌的AI江湖,NVIDIA凭借其CUDA生态和优秀的硬件大杀四方,立下赫赫战功,而另一家公司AMD也不甘示弱,带着他的生态解决方案ROCm开始了与不世出的NVIDA的正面硬钢,"ROCm is the answer to CUDA", AMD官网…

177基于matlab的基于S函数的变步长自适应滤波算法

基于matlab的基于S函数的变步长自适应滤波算法,比传统的算法收敛速度更快。传统的LMS算法中,权值向量实时地被更新。这些更新可能会由于噪声的影响而变得不稳定。SVSLMS算法是一种改进的LMS算法,它采用了矢量处理的概念,利用信号和…

分布式锁的应用与疑惑

文章目录 一、为什么需要用分布式锁二、Redis实现分布式锁三、Zookeeper实现分布式锁 一、为什么需要用分布式锁 集群下,普通的锁,无法解决问题 集群下,保证安全需要使用分布式锁 二、Redis实现分布式锁 Redisson内部封装的RedLock实现分…

yolov9,使用自定义的数据训练推理

[源码 🐋]( GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information) [论文 📘](arxiv.org/pdf/2402.13616.pdf) 论文摘要:本文介绍了一种新的目标检测…

Web服务器群集:OpenEuler 部署 LAMP(LNMP) 基础服务

目录 一、实验 1.环境 2. 网络配置 3. MobaXterm远程连接 4. apache 2.4.58 源码编译安装 5. php 8.3.1源码编译安装 6.配置httpd 连接 php-fpm 6. nginx 1.24.0源码编译安装 7. mysql 8.0.36安装 二、问题 1.MobaXterm设置右键复制粘贴 2.OpenEuler如何查看CPU的核…

网络防御保护3

一、双击热备 1,根据网段划分配置IP地址和安全区域 2,配置双机热备场景 主备场景配置 抢占延时仅对主设备生效。 hello报文周期时间--- 默认为1S,可以修改,但是,主备设备需要同时修改为相同值。 同步配置 双机热备的…

【网站项目】424学报稿件管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

一个注解实现频率控制

1.概述 抹茶项目是一个即时的IM通信项目,并且有着万人大群。但凡有几个人刷屏,那消息爆炸的场景,都不敢想象。如果我们需要对项目特定的接口进行频率控制,不仅是业务上的功能,同样也保护了项目的监控运行。而频控又是…

幻兽帕鲁(1.5.0)可视化管理工具(0.5.7 docker版)安装教程

文章目录 局域网帕鲁服务器部署教程帕鲁服务可视化工具安装配置服务器地址(可跳过)使用工具管理面板 1.5.0服务端RCON错误1.5.0服务端无法启动RCON端口 解决方法第一步:PalWorldSettings.ini配置第二步:修改PalServer.sh配置 局域…

数据结构--二叉排序树(Binary Search Tree,简称BST)

这里写自定义目录标题 二叉排序树二叉排序树与排序数组没有排序数组,链式存储链表的对比二叉排序树概念对于搜索操作,对于插入操作,对于删除操作, 分析删除节点代码运行结果 二叉排序树 二叉排序树与排序数组没有排序数组&#x…

python自动化管理和zabbix监控网络设备(防火墙和python自动化配置部分)

目录 前言 一、ssh配置 1.FW1 2.core-sw1 3.core-sw2 二、python自动化配置防火墙 三、验证DNAT 四、验证DNAT 前言 视频演示请访问b站主页 白帽小丑的个人空间-白帽小丑个人主页-哔哩哔哩视频 一、ssh配置 给需要自动化管理的设备配置ssh服务端用户名和密码 1.FW1 …

Linux NFC 子系统剖析

1.总览 linux源码中NFC在net/nfc下,文件结构如下图: hci:Host Controller Interface 主要是针对NFC的主机-控制器接口协议 nci:NFC Controller Interface 主要是NFC的控制器接口协议,用于NFCC(NFC Controller)和DH(…

进程的控制

文章目录 进程退出进程等待进程程序替换 正文开始前给大家推荐个网站,前些天发现了一个巨牛的 人工智能学习网站, 通俗易懂,风趣幽默,忍不住分享一下给大家。 点击跳转到网站。 进程退出 进程的退出一共有三种场景。 程序跑完…

nacos开启鉴权+springboot配置用户名密码

nacos默认没有开启鉴权,springboot无需用户名密码即可连接nacos。从2.2.2版本开始,默认控制台也无需登录直接可进行操作。 因此本文记录一下如何开启鉴权,基于nacos2.3.0版本。 编辑nacos服务端的application.properties: # 开…