爬虫的笔记整理

网络爬虫首先要认识http和https协议

在浏览器中发送一个http请求:

1.输入一个URL地址之后,向http服务器发送请求,主要分为GET和POST两种方法

2.输入URL之后,发送一个request请求,这时候服务器把response文件对象发送回浏览器

3.浏览器中解析返回的HTML,其中引用了许多的其他文件,images,css文件,JS文件等,再次法中request去获取这些内容

4.所有的文件都下载成功之后,就完整的显示出来

 URL:统一资源定位符

常用的请求方法

 1.get,只将内容从服务器获取下来

2,post,发送数据登录,上传文件等

两种视情况而定,有可能因为反爬虫机制而使用不同的请求方法

请求头常见的参数:

1.User-Agent :浏览器名称

2.Referer :表明当前这个请求是从哪个 url 过来的。

3.Cookie : http 协议是无状态的,需要登录时候使用

网页抓包工具

1.elements,源代码

2,console,控制台

3,sources,所有的源代码

4,network,浏览器发动的所有请求

urillb

1,是python中的一个基本网络请求库,模拟浏览器行为,相关的网络请求都被集中到urllib.request中。

2.urlopen函数.

3.cookie.http请求是无状态的 cookie第一次登录后服务器返回的数据(cookie)到浏览器,保存在本地 ,第二次就会被浏览器自动识别了

cookie的格式:
Set-Cookie: NAME=VALUE; Expires/Max-age=DATE Path=PATH Domain=DOMAIN_NAME ;SECUR
NAME cookie 的名字。
VALUE cookie 的值。
Expires cookie 的过期时间。
Path cookie 作用的路径。
Domain cookie 作用的域名。
SECURE :是否只在 https 协议下起作用
requests库
发送get的请求
1.用requests.get来调用
2. 添加 headers 和查询参数:
如果想添加 headers ,可以传入 headers 参数来增加请求头中的 headers 信息。如果要将参数
放在 url 中传递,可以利用 params 参数。
发送post的请求:
1.用requests。post来获取
2.传入data数据,传入字典进去(data数据是在需要传入其他内容时使用)
使用代理:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/548.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Win11 安装 Visual Studio(保姆教程 - 更新至2025.07)

Visual Studio 安装(保姆教程 - 更新至2025.07) 前言安装须知安装过程1. 下载安装包2. 安装3. 注册4. 创建桌面快捷方式 前言 本教程针对 非计算机相关专业的小白用户 ,手把手教你如何基于 win11 操作系统 安装 Visual Studio 2022。安装搭载…

【Linux网络编程】Socket - UDP

目录 V1版本 - Echo Server 初始化服务器 启动服务器 客户端 本地测试 网络测试 优化代码 V2版本 - Dict Server 服务器的调整 字典 网络模块与业务模块耦合 V3版本 - 简单聊天室 简单聊天室概述 消息转发模块 数据接收模块 重定向观察 补充细节 在这一篇文章…

【STM32】通用定时器PWM

STM32 通用定时器 PWM 输出完全解析(以 TIM3_CH1 为例) PWM 输出基本原理 PWM(Pulse Width Modulation)即脉冲宽度调制,是由定时器通过比较 CNT 与 CCR 寄存器实现的。 信号产生原理: ARR 决定周期&#…

重塑数学边界:人工智能如何引领数学研究的新纪元

目录 一、人工智能如何重新定义数学研究的边界 (一)数学与AI的关系:从基础理论到创新思维的回馈 (二)AI的创造力:突破传统推理的局限 (三)AI对数学研究的潜在贡献:创…

eNSP中实现vlan间路由通信(路由器)

eNSP中实现vlan间路由通信(路由器) 拓扑图 PC配置 pc1:192.168.10.1255.255.255.0192.168.10.254pc2:192.168.20.1255.255.255.0192.168.20.254pc3: 192.168.10.2255.255.255.0192.168.10.254pc4:192.168.20.2255.25…

Android PNG/JPG图ARGB_8888/RGB_565‌解码形成Bitmap在物理内存占用大小的简单计算

Android PNG/JPG图ARGB_8888/RGB_565‌解码形成Bitmap在物理内存占用大小的简单计算 Android的Bitmap 是一个用于表示图像数据的核心类,代表一张图片在内存中的存储,Bitmap存储了图像的像素信息数据。 Bitmap把图像理解为像素点组成的二维矩阵&#xff…

python实现简单的地图绘制与标记20250705

用python语言绘制显示范围不大于上海地区的地图 您的代码实现了一个 上海武馆地理信息系统,主要功能是通过可视化地图展示上海各区的传统武术馆信息。 通过和deeps对话一晚上实现的,我就是描述修改 高德的api key我搞了一会,平时很少接触密…

Kafka消息积压全面解决方案:从应急处理到系统优化

Kafka消息积压全面解决方案:从应急处理到系统优化 一、问题诊断与监控 1.1 确认积压情况 基础检查命令: # 查看消费者组滞后情况 kafka-consumer-groups.sh --bootstrap-server kafka:9092 \ --describe --group file-transcode-group# 查看主题详情…

MAX3485在MCU芯片AS32S601-485通信外设中的应用

在工业通信领域,RS-485 总线因其良好的抗干扰性、长传输距离和多节点通信能力而被广泛应用。MAX3485 作为一款 3.3V 供电的半双工 RS-485/RS-422 收发器芯片,在构建 485 通信外设时具有重要价值。本文将详细介绍 MAX3485 芯片的核心特性、硬件设计要点、…

基于区块链的物联网(IoT)安全通信与数据共享的典型实例

以下是一个基于区块链的物联网(IoT)安全通信与数据共享的典型实例,结合技术实现原理和实际应用场景: 实例:冷链药品物流监控系统 背景需求 某医药企业需运输高价值疫苗(如新冠疫苗)&#xff0…

【机器学习3】机器学习(鸢尾花分类)项目核心流程与企业实践差异分析

文章目录 一、机器学习项目的核心流程1、数据理解与准备:项目成败的关键2、 模型训练与评估:让数据说话3、模型验证与部署:确保真实世界的可靠性 二、学术实验与企业实践的核心差异1、最关键差异:问题复杂度的数量级差异2、次要但…

【阿里巴巴JAVA开发手册】IDE的text file encoding设置为UTF-8; IDE中文件的换行符使用Unix格式,不要使用Windows格式。

问题:当使用 IDEA SSH 远程开发时,SFTP 同步的 Windows 本地编辑的 config/plugin_config 文件文本内容中 “换行符”与 Unix、Linux 的文件文本内容换行符字符集不一致,导致 docker 容器中自定义 /opt/seatunnel/bin/install_plugin 在执行以…