python实战项目76:51job数据采集与分析

python实战项目76:51job数据采集与分析

  • 一、数据采集
  • 二、数据预处理
    • 2.1 导入相关库、读取数据
    • 2.2 查看数据
    • 2.3 处理数据、删除重复值、删除空值
    • 2.4 处理薪资水平字段数据
  • 三、数据可视化
    • 3.1 不同公司规模招聘岗位数量分布
    • 3.2 不同公司性质招聘岗位数量分布
    • 3.3 不同年限要求招聘岗位数量分布
    • 3.4 不同学历要求招聘数量占比饼图
  • 四、完整代码

一、数据采集

在51job官网搜索上海地区的大数据开发工程师岗位,url地址。
在这里插入图片描述
接下来,进行抓包、寻找数据接口,然后编写代码,发送请求、获取数据,解析数据以及保存数据,这些步骤不再赘述,直接上代码。

from pprint import pprint
import requests
import csvcookies = 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/468.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OPENGLPG第九版学习 - 纹理与帧缓存 part1

文章目录 6.1 纹理综述6.2 基木纹理类型6.3 创建并初始化纹理代理纹理 6.4 指定纹理数据6.4.1 显式设置纹理数据将静态数据载入到纹理对象 6.4.2 从缓存(目标对象GL_PIXEL_UNPACK_BUFFER)中加载纹理6.4.3 从文件加载图像(DDS为例)读取一个图像文件并返回内存中的纹素数据将纹素…

Redis 持久化机制详解:RDB、AOF 原理与面试最佳实践(AOF篇)

在上一章我们深入学习了 Redis 中重要的数据持久化机制 ——RDB(Redis Database),了解了其通过周期性快照将数据以二进制文件形式保存到磁盘的原理,包括触发条件、文件结构以及优缺点等核心内容。 Redis 持久化机制详解&#xff…

NumPy数组操作详解

在现代数据科学与工程计算领域,高效的数组操作是实现复杂算法的基础。NumPy作为Python的核心科学计算库,提供了一套强大的多维数组对象及操作机制。本文深入探讨NumPy数组的各种操作,旨在帮助读者全面掌握其功能与应用场景。 数组创建与属性查…

ER图:数据库设计的可视化语言 - 搞懂数据关系的基石

在数据库设计和数据建模领域,ER图(实体-关系图) 绝对是最基础、最核心的可视化工具之一。它用最直观的方式描绘了现实世界中的数据及其关系,是构建可靠数据库的蓝图。今天,我们就来聊聊这个技术基石。 本文来自「大千A…

图像特征检测算法ORB

ORB(Oriented FAST and Rotated BRIEF)是一种在计算机视觉领域广泛应用的特征检测与描述算法。 算法原理 特征点检测 :ORB 算法结合了 FAST(Features from Accelerated Segment Test)特征点检测方法和 Harris 特征点检…

docker 目录更改,必须做数据迁移才能启动

要修改 Docker 镜像的存储位置 并迁移数据(如从 /var/lib/docker 迁移到 /mnt/data/docker),需要以下步骤: 1. 停止 Docker 服务 在修改配置和迁移数据前,先停止 Docker 服务: sudo systemctl stop docke…

springboot入门之路(一)

文章目录 1.Spring Boot介绍2.开发你的第一个Spring Boot应用2.1创建POM2.2yml和properties的配置区别yml配置properties配置 2.3springbootDemo代码2.4创建一个可执行jar 参考文档:SpringBoot参考指南;SpringBoot实战 1.Spring Boot介绍 Spring Boot使…

设计模式之责任链模式

责任链模式是一种经典的设计模式,属于行为型设计模式,他的核心思想是:将请求的发起者与接受者进行解耦,让多个对象都有机会处理请求,从而避免了请求发送者与接受者之间的耦合关系。这些对象连接形成一条链,…

使用YOLO模型进行线程安全推理

概述 在多线程环境中运行YOLO 模型时需要特别注意线程安全问题。Python threading 模块允许同时运行多个线程,但在这些线程中使用YOLO 模型时,需要注意一些重要的安全问题。 Python 线程是一种并行计算形式,允许程序同时运行多个操作。不过…

对抗性提示:进阶守护大语言模型

人工智能模型正快速进化 —— 变得更具帮助性、更流畅,并且更深入地融入我们的日常生活和商业运营中。但随着其能力的提升,风险也在增加。在维护安全可信的人工智能方面,最紧迫的挑战之一是对抗性提示:这是一种微妙且通常富有创意…

RNN为什么不适合大语言模型

在自然语言处理(NLP)领域中,循环神经网络(RNN)及衍生架构(如LSTM)采用序列依序计算的模式,这种模式之所以“限制了计算机并行计算能力”,核心原因在于其时序依赖的特性&a…

C语言中errno错误码定义及使用

一.概述 1.介绍 在 C 语言中&#xff0c;errno是一个用于标识程序运行时错误的全局变量。当系统调用或库函数执行失败时&#xff0c;通常会设置errno以指示具体的错误类型。 2.errno的基本定义 头文件&#xff1a;#include <errno.h> 类型&#xff1a;int 用途&#x…