【爬虫】实战-爬取Boss直聘信息数据

 专栏文章索引:爬虫

所用工具:

  • 自动化工具:DrissionPage

目录

一、找到目标数据(2个确定)​

1.确定目标网页

2.确定目标网址

二、编写代码​

三、查看数据​

五、总结


一、找到目标数据(2个确定)

1.确定目标网页

  •  打开目标网站

网站:「南京招聘网」海量南京人才招聘信息 - BOSS直聘(自动定位所在地点,我是南京)

  • 通过关键字搜索

  • 观察页面上是否有想要的数据

2.确定目标网址

我们直接用浏览器网网址输入框中的网址即可

  • 切换网页并复制粘贴网址

由于网址(域名+参数),域名不会变,参数可能会随着页面的变化而变化

我们可先翻到第2页

可以看到网址也发生了改变

我们可以切换不同的页码并将网址赋值粘贴下来(一般3-4个即可)

注意最后再重新翻到第一页

可以看到当重新翻到第一页的时候网址发生了变化,第一页用这个网址即可

  • 观察网址

可以看到只有page参数有变化,显然page参数对应的是页码数

二、编写代码

  • 导入所需库
# 导入WebPage库
from DrissionPage import WebPage
# 导入动作链
from DrissionPage.common import Actions
# 导入时间库
import time
# 导入读取和写入文件库
import csv
  • 查找元素获取数据
ele1 = page.eles('.job-card-body clearfix')
for i in range(len(ele1)):
    ele2 = ele1[i].ele('.job-card-left')
    ele3 = ele2.ele('.job-title clearfix')
    # title 岗位名称
    title = ele3.ele('.job-name').text
    # area 公司地址
    ele4 = ele3.ele('.job-area-wrapper')
    area = ele4.ele('.job-area').text
    ele5 = ele2.ele('.job-info clearfix')
    # salary 薪水
    salary = ele5.ele('.salary').text
    ele6 = ele5.ele('.tag-list')
    ele7 = ele6.eles('tag:li')
    # time 工作时限
    time = ele7[0].text
    # education 学历
    education = ele7[1].text
    ele8 = ele1[i].ele('.job-card-right')
    ele9 = ele8.ele('.company-info')
    # name 公司名称
    name = ele9.ele('tag:a').text
    
    print(title, area, salary, time, education, name)
  • 切换到下一页
ac.click('.ui-icon-arrow-right')
  • 保存数据
with open('招聘信息.csv', 'a', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    # 写入数据
    writer.writerows(date_list)
  • 完整代码

【免费】爬取Boss直聘招聘信息数据资源-CSDN文库

三、查看数据

  • 控制台

  • 文件

五、总结

直接用DrissionPage即可,没有特别的地方


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/480228.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Llama 2 模型

非常清楚!!!Llama 2详解 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/649756898?utm_campaignshareopn&utm_mediumsocial&utm_psn1754103877518098432&utm_sourcewechat_session一些补充理解: 序列化&#xff…

Git学习笔记之标签

Git 可以给仓库历史中的某一个提交打上标签,以示重要。 比较有代表性的 是人们会使用这个功能来标记发布结点( v1.0 、 v2.0 等等)。 1、列出标签 列出已有的标签: git tag按照通配符列出标签需要 -l 或 --list 选项。如果你只想要完整的标…

真机笔记(1)第一阶段知识讲解

目录 第一阶段讲解: 1.1 机房 1.2 分类: 1.3 机房建设标准 1.3.1 安全性: 1.3.2 供电: 1.3.3 空气调节:(恒温恒湿) 1.3.4 电磁防护: 2.1 机柜 2.2 分类 2.3 机柜的高度单位 3.1 设备…

VUE3.0(一):vue3.0简介

Vue 3 入门指南 什么是vue Vue (发音为 /vjuː/,类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和JavaScript 构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。无论是简单还是复杂的界…

故障诊断模型 | 环境基于健康指标(Health indicator)的滚动轴承故障诊断

文章目录 效果一览文章概述模型描述源码设计参考资料效果一览 文章概述 故障诊断模型 | 环境基于健康指标(Health indicator)的滚动轴承故障诊断 基于健康指标的滚动轴承故障诊断方法是一种重要的机械故障诊断技术,它通过对滚动轴承运行过程中的健康指标进行监测和分析,来判…

asp.net mvc 重新引导视图路径,改变视图路径

asp.net mvc 重新引导视图路径,改变视图路径 使用指定的控制器上下文和母版视图名称来查找指定的视图 通过本文学习,你可以根据该技法,去实现,站点自定义皮肤,手机站和电脑站,其他设备站点,在不…

创龙教仪基于瑞芯微3568的ARM Cortex A-55教学实验箱 适用于人工智能 传感器 物联网等领域

适用课程 Cortex-A55 ARM嵌入式实验箱主要用于《ARM 系统开发》、《ARM 应用开发》《物联网通信技术》、《嵌入式系统设计》、《移动互联网技术》、《无线传感器网络》、《物联网设计方法与应用》、《人工智能》等课程。 适用专业 Cortex-A55 ARM嵌入式实验箱主要面向电子信…

python拍卖行系统的设计与实现flask-django-nodejs-php

此系统设计主要采用的是python语言来进行开发,采用django/flask框架技术,框架分为三层,分别是控制层Controller,业务处理层Service,持久层dao,能够采用多层次管理开发,对于各个模块设计制作有一…

OpenAI GPT商店面临质量与合规问题;黄仁勋预测:十年内AI将实时生成游戏画面

🦉 AI新闻 🚀 OpenAI GPT商店面临质量与合规问题 摘要:OpenAI旗下的GPT商店因存在大量涉嫌侵权内容、助长学术不诚实行为及违规内容等问题而引起关注。其中包括未经授权使用迪士尼、漫威角色生成内容的GPT模型,以及声称能绕过剽…

PointNet++论文复现(一)【PontNet网络模型代码详解 - 分类部分】

PontNet网络模型代码详解 - 分类部分 专栏持续更新中!关注博主查看后续部分! 分类模型的训练: ## e.g., pointnet2_ssg without normal features python train_classification.py --model pointnet2_cls_ssg --log_dir pointnet2_cls_ssg python test_classification.py…

【测试开发学习历程】MySQL增删改操作 + 备份与还原 + 索引、视图、存储过程

前言: SQL内容的连载,到这里就是最后一期啦! 如果有小伙伴要其他内容的话,我会追加内容的。(前提是我有学过,或者能学会) 接下来,我们就要开始python内容的学习了 ~ ~ 目录 1 …

Airgorah:一款功能强大的WiFi安全审计工具

关于Airgorah Airgorah是一款功能强大的WiFi安全审计工具,该工具可以轻松发现和识别连接到无线接入点的客户端,并对特定的客户端执行身份验证攻击测试,捕捉WPA握手包,并尝试破解接入点的密码。在该工具的帮助下,广大研…

.NET Core 服务实现监控可观测性最佳实践

前言 本次实践主要是介绍 .Net Core 服务通过无侵入的方式接入观测云进行全面的可观测。 环境信息 系统环境:Kubernetes编程语言:.NET Core ≥ 2.1日志框架:Serilog探针类型:ddtrace 接入方案 准备工作 DataKit 部署 DataK…

平衡隐私与效率,Partisia Blockchain 解锁数字安全新时代

原文:https://cointelegraph.com/news/exploring-multiparty-computations-role-in-the-future-of-blockchain-privacy; https://medium.com/partisia-blockchain/unlocking-tomorrow-outlook-for-mpc-in-2024-and-beyond-cb170e3ec567 编译&#xff1…

Jupyter R绘图 汉字显示乱码的解决办法

1.Jupyte中,R绘图,汉字显示乱码 2.如何解决? (1)R中安装showtext 登录linux服务器 #R > install.packages(“showtext”) … 出错 (2)退出R,安装freetype-config #apt install libfreetype6-dev 出错 (3)进入R&…

么样才能用最便捷的方式为Mac提速呢?

Mac是现代人日常工作时必不可少的工具,尤其是在居家办公已经屡见不鲜的当下。视频会议、文档传送、视频剪辑等等。它在工作中扮演的角色越来越重要,所以也导致了它的流畅程度可以在很大程度上影响人们一整天的工作效率和心情。 但是影响Mac的运行和响应速…

excel文件可以转成word文件吗?汇帮PDF转换器帮你实现excel转word

将Excel文件转换为Word文档是一个相对简单的任务,但在执行过程中需要注意一些细节,以确保转换后的文档格式正确、内容清晰。下面将详细介绍用汇帮PDF转换器将Excel转Word的步骤和注意事项。 一、Excel文件准备 在进行转换之前,首先确保Excel…

新能源汽车BMS应用设计

新能源汽车BMS应用设计 电池管理系统(BMS) 概述 电池管理系统(BMS)为一套保护动力电池使用安全的控制系统,时刻监控电池的使用状态,通过必要措施缓解电池组的不一致性,为新能源车辆的使用安全…

ideaSSM 学员信息管理系统bootstrap开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 idea 开发 SSM 学员信息管理系统是一套完善的信息管理系统,结合SSM框架和bootstrap完成本系统,对理解JSP java编程开发语言有帮助系统采用SSM框架(MVC模式开发),系统具有完整的源代码和数据库&#xff…

Qt 项目使用visual studio 进行开发调试

https://marketplace.visualstudio.com/items?itemNameTheQtCompany.QtVisualStudioTools2015 https://devblogs.microsoft.com/cppblog/bring-your-existing-qt-projects-to-visual-studio/ 正常Qt开发中,使用Qt Creator 进行windows下MSVC编译器的调试是一件挺麻…
最新文章