【爬虫基础1.1课】——requests模块上

目录索引

  • ==requests模块的作用:==
    • 实例引入:
  • ==特殊情况:==
    • 锦囊1:
    • 锦囊2:

这一个栏目,我会给出我从零开始学习爬虫的全过程。感兴趣的小伙伴可以关注一波,用于复习和新学都是不错的选择。
那么废话不多说,就让我们开始吧。
请跟我念口号:
爬虫,爽!
在这里插入图片描述

requests模块的作用:

一句话概括:用于发送和接受网站的响应。

Tips: 你给谁发请求,接收到的就是哪个网页传回来的响应。所以想学好爬虫,第一步就是向正确的网址发送响应。

实例引入:

  1. 比如说我们拿京东网站来举例。里面有非常多的数据,包括一切动态加载的数据。那如果我要只想要当前网页的静态数据,该怎么获取呢?

在这里插入图片描述
2.打开网页检查

在这里插入图片描述

这里面最重要的两个按钮就是:元素和网络。
其中,元素是整个网页的html代码。
而网络是我们爬虫的重点。

3.进入到网络界面后,找到对应的url

记得要刷新一下,这里面有各种各样的数据,包括动态的。我们需要将当前网页的网址复制到搜索框里进行检索。

在这里插入图片描述

那么跳出来的响应,就是我们要的当前网页返回的数据

4.检查url是否正确

从响应里面的response查看、搜索里面是否有我们需要的数据

在这里插入图片描述

特殊情况:

我们在实际使用爬虫的过程中,经常会遇到内容不在该页面或者压根找不到的情况。非常麻烦,那该怎么办呢?
莫慌,吾有良计!

锦囊1:

利用search按钮,对全页面的response数据进行总检索。

例子展示:

我们首先要拿出最经典的豆瓣电影网来做参考:
在这里插入图片描述

功夫是一个相当经典的电影。看上述图片,我们用本文开篇提到的搜索方法,发现功夫这个词条根本就不存在当前网页的response中。这时候我们就需要用到search按钮。

在这里插入图片描述

控制台中左上角的这个小放大镜,就是我们提到的search按钮。它的功能是在所有的response中检索相应的词条。

在这里插入图片描述

这下我们就能找到相应的url了,是不是非常简便呢。

锦囊2:

利用翻页的异步请求方式。如果锦囊1依旧找不到对应的url的话,我们就需要使用异步请求来查看对应的url。

1.首先清空网页内容,点击红框按钮即可。

在这里插入图片描述
2.我们都知道前端页面的设计具有规律性,网页中第2页获取请求的方式,跟第一页是一样的。所以我们会通过查看第二页的方式来获取对应的url。

在这里插入图片描述
3.寻找页码规律就可以找出对应的url了。最后,我们会得到一个json格式的数据。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/619081.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

接搭建仿美团、代付系统源码搭建教程

最近很多粉丝催更、分享一下地球号:xiaobao0214520(WX) 现在大家都很流行搞网恋,我们搭建一个跟美团相似的系统 然后开发一个好友代付,我们在点单的时候转发链接让网恋对象付钱 若只是单点外卖的话,能榨出的油水还是太少。 所以…

Redis的数据淘汰策略——Java全栈知识(19)

Redis的数据淘汰策略 什么是数据淘汰策略 数据过期策略是 redis 中设置了 TTL 的数据过期的时候 Redis 的处理策略。数据淘汰策略是 Redis 内存不够的时候, 数据的淘汰策略:当 Redis 中的内存不够用时,此时在向 Redis 中添加新的 key, 那么…

免费思维13招之八:跨行业思维

免费思维13招之八:跨行业思维 免费思维的另一大战略思维——跨行业型思维。 跨行业型思维有两种:一种是通过跨行业,把自己的产品免费掉,从而赚取其他行业的利润。另一种是通过跨行业,把别人的主流产品免费掉,从而增大自己产品的销量。 第一种,把自己的产品免费,从而赚…

ONES 功能上新 | 近期产品新功能一览

支持在 ONES Project 中通过弹窗查看、编辑 ONES Wiki 页面。 应用场景: 当需要在 ONES Project 中查看 ONES Wiki 的页面内容时,可以直接点击工作项关联的 ONES Wiki 页面或项目文档组件中的页面,即可在 ONES Project 中通过弹窗查看 ONES W…

问题解决记录 | 内存溢出

报错截图: 处理方式: 增大PDI工具的内存 打开Spoon.bat配置文件 修改配置

【Linux 网络】网络编程套接字 -- 详解

⚪ 预备知识 1、理解源 IP 地址和目的 IP 地址 举例理解:(唐僧西天取经) 在 IP 数据包头部中 有两个 IP 地址, 分别叫做源 IP 地址 和目的 IP 地址。 如果我们的台式机或者笔记本没有 IP 地址就无法上网,而因为…

与 Apollo 共创生态:Apollo 七周年大会带我体会自动驾驶技术的发展

前言 自动驾驶技术作为当今科技领域的热门话题,吸引着无数开发者和企业的目光。而在这个风起云涌的行业中,Apollo开放平台作为自动驾驶领域的领军者之一,扮演着不可或缺的角色。七年前,当Apollo开放平台刚刚起步时,也…

STM32串口通信入门

文章目录 一、串口协议和RS-232标准,以及RS232电平与TTL电平的区别1.串口通信协议2.RS-232标准3.RS232电平与TTL电平的区别4.USB/TTL转232“模块(CH340芯片为例) 二、补充实验(一)几个常见的库函数、结构体1.时钟配置函…

java入门-面向对象的三大特性

面向对象三大特性 封装 什么是封装 封装 是将代码及其处理的数据绑定在一起的一种编程机制,该机制保证了程序和数据都不受外部干扰且不被误用。 封装的作用 访问控制符 方法传参-值传递 传参类型是基本类型 程序案例: public static void main(St…

Spring Boot 自动装配

本篇主要介绍Spring Boot 自动装配的相关内容。 目录 一、什么是自动装配 二、Bean的扫描方式 ComponentScan Import ImportSelector接口 三、Spring Boot自动装配原理 一、什么是自动装配 在我们在创建Spring Boot项目时往往会根据项目需求,引入很多第三方…

Spring高手之路18——从XML配置角度理解Spring AOP

文章目录 1. Spring AOP与动态代理1.1 Spring AOP和动态代理的关系1.2 AOP基本术语 2. 通过XML配置实现Spring AOP2.1 添加Spring依赖2.2 定义业务接口和实现类2.3 定义切面类2.4 配置XML 1. Spring AOP与动态代理 1.1 Spring AOP和动态代理的关系 Spring AOP使用动态代理作为…

AI 问答 API 对接说明

我们知道,市面上一些问答 API 的对接还是相对没那么容易的,比如说 OpenAI 的 Chat Completions API,它有一个 messages 字段,如果要完成连续对话,需要我们把所有的上下文历史全部传递,同时还需要处理 Token…

Matlab/simulink永磁直驱风机的建模仿真

Matlab/simulink直驱永磁同步风机的建模仿真,跟随风速波动效果好,可以作为后期科研的基础模型

【recast-navigation-js】通过websocket获取navmesh数据并初始化

目录 说在前面目录结构websocket服务器前端结果 说在前面 操作系统:windows 11浏览器:edge版本 124.0.2478.97recast-navigation-js版本:0.29.0golang版本:1.21.5 目录结构 D:. │ go.mod │ go.sum │ main.go // websocket …

电视剧电影原声背景音乐,经典影视配乐片段音效合集

一、素材描述 本套影视配乐素材,大小1.89G,27个压缩文件。 二、素材目录 宰相刘罗锅配乐片段.rar 影视配乐65首.rar 太极张三丰原声.rar 东邪西毒原声配乐15首.rar 东方不败之风云再起配乐24首.rar 东方不败原声配乐16首.rar 电影大话西游原声配…

Ubuntu18.04解决有线网卡连接问题(不更新内核成功版)

https://www.realtek.com/Download/List?cate_id584 (需要翻一下) 不想自己去下载,直接去我资源里下载我上传的包就好啦(😂😂😂刚刚看了下别人下载要VIP还是自己去网站下很快的) 下载后解压,在…

Spring MVC(建立连接 + 请求)

文章目录 一、建立客户端和服务器的连接二、如何构造请求(传参)2.1 构造请求方式 参数通用注解2.2 传递单个参数2.3 传递多个参数2.4 传递数组/集合2.5 传递对象2.6 传递JSON 三、相关的其他请求操作3.1 获取URL中的参数 PathVariable3.2 上传文件 Requ…

HCIP-Datacom-ARST自选题库_07_割接【35道题】

一、单选题 1.在割接的测试阶段,符合以下哪一种情况的可以判断为割接成功? 网络承载的上层应用业务测试正常 网络设备的配置查看结果正常 网络流量路径正常 路由协议运行正常 2.在割接的测试阶段中,表明已经完成测试的标准是: IP设备的配置查看结…

Docker 直接运行一个 Alpine 镜像

由于镜像很小,下载时间往往很短,读者可以直接使用 docker run 指令直接运行一个 Alpine 容器,并指定运行的 Linux 指令,例如: PS C:\Users\yhu> docker run alpine echo 123 Unable to find image alpine:latest lo…

QTreeView学习 branch 虚线设置

1、方法一&#xff1a; #include <QStyleFactory> ui.treeView->setStyle(QStyleFactory::create("windows")); 2、方法二&#xff1a; QString strtyle2 R"( QTreeView::branch:has-siblings:!adjoins-item { border-image: url(:/TreeViewDe…