走近Python爬虫(二):常见反爬虫机制的应对措施

文章目录

  • 一、应对—异步加载
    • 1.一般措施
    • 2.Selenium
  • 二、应对—登录验证
    • 1.使用Selenium模拟登录
    • 2.使用Cookies登录
    • 3.使用Session模拟表单登录
  • 三、应对—验证码

本文是Python爬虫系列博客的第二篇,内容概览如下:

在这里插入图片描述

一、应对—异步加载

1.一般措施

  • AJAX技术介绍:

AJAX是Asynchronous JavaScript And XML的首字母缩写,意为异步JavaScript与XML。使用AJAX技术,可以在不刷新网页的情况下更新网页数据。使用AJAX技术的网页,一般会使用HTML编写网页的框架。在打开网页的时候,首先加载的是这个框架。剩下的部分将会在框架加载完成以后再通过JavaScript从后台加载。

网页上面存在的某些文字,在源代码中却不存在的情况,绝大部分都是使用了异步加载技术。

  • 应对思路:
    +++当我们发现某个接口获取数据的前提是向服务器发起GET或POST请求,然后在response中获取网页数据。我们可以使用Python模拟浏览器(使用浏览器的请求头和请求体)发送GET或POST请求。
    +++有一些网页,显示在页面上的内容要经过多次异步请求才能得到。第1个AJAX请求返回的是第2个请求的参数,第2个请求的返回内容又是第3个请求的参数,只有得到了上一个请求里面的有用信息,才能发起下一个请求。像这种情况,解决思路也是通过构造一个又一个的请求来获取最终数据。不过在这个过程中需要有深厚的代码功底,否则难以看懂经过了混淆的源代码。
    +++包括基于异步加载的简单登录,也可以通过这种方式来实现,从而获得相应的通过口令。

2.Selenium

虽然在网页的源代码中无法看到被异步加载的内容,但是在Chrome的开发者工具的“Elements”选项卡下却可以看到网页上的内容,这就说明Chrome开发者工具“Elements”选项卡里面的HTML代码和网页源代码中的HTML代码是不一样的。在开发者工具中,此时显示的内容是已经加载完成的内容。如果能够获得这个被加载的内容,那么就能绕过手动构造的过程,可以直接使用XPath来获得想要的内容。

这种情况下,就需要使用Selenium操作浏览器来解析JavaScript,再爬取被解析以后的代码。

  • 安装:
    pip install selenium

下载ChromeDriver,根据自己的系统选择合适的版本,并安装。

  • 代码:
    可以根据实际情况修改until条件。
    from selenium import webdriver
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.common.by import By
    from selenium.webdriver.support import expected_conditions as EC
    
    driver = webdriver.Chrome('./chromedriver')
    
    # 获取页面
    try:
      WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.CLASS_NAME, "content")))
    except Exception as _:
      print(’网页加载太慢,不想等了。')
      
	# 查找资源
    print(driver.page_source)
    comment = driver.find_element_by_xpath('//div[@class="content"]')
    print(comment.text)
    comment = driver.find_elements_by_xpath('//p[starts-with(@id, "content_")]')
    for each in comment:
      print(each.text)

二、应对—登录验证

1.使用Selenium模拟登录

优点是简单有效,缺点是它的速度太慢了,不适合用于大规模的爬虫开发。

(1)初始化ChromeDriver。
(2)打开知乎登录页面。
(3)找到用户名的输入框,输入用户名。
(4)找到密码输入框,输入用户名。
(5)手动单击验证码。
(6)按下Enter键。

  • 示例代码:
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    import time
    
    driver = webdriver.Chrome('./chromedriver') #填写你的chromedriver的路径
    driver.get("https://www.zhihu.com/#signin")
    
    elem = driver.find_element_by_name("account") #寻找账号输入框
    elem.clear()
    elem.send_keys("xxx@gmail.com") #输入账号
    password = driver.find_element_by_name('password') #寻找密码输入框
    password.clear()
    password.send_keys("12345678") #输入密码
    
    input(’请在网页上点击倒立的文字,完成以后回到这里按任意键继续。')
    elem.send_keys(Keys.RETURN) #模拟键盘回车键
    
    time.sleep(10)#这里可以直接sleep,也可以等待某个条件出现
    print(driver.page_source)
    
    driver.quit()

2.使用Cookies登录

为了不让用户每次访问网站都进行登录操作,浏览器会在用户第一次登录成功以后放一段加密的信息在Cookies中。下次用户访问,网站先检查Cookies有没有这个加密信息,如果有并且合法,那么就跳过登录操作,直接进入登录后的页面。通过已经登录的Cookies,可以让爬虫绕过登录过程,直接进入登录以后的页面。

使用Cookie来登录网页,不仅可以绕过登录步骤,还可以绕过网站的验证码。

3.使用Session模拟表单登录

因为某些网站的登录过程中涉及到了页面跳转,但是我们却无法感知到中间的某些跳转,因此仅仅是模拟一步GET/POST请求无法实现模拟登陆,可能需要分多步进行。

在这种情况下,使用python requests的Session模块来模拟这个登录。

  • 代码示例:
import requests

login_url='xxx'
login_success='xxxx'

data={
    'username':'111',
    'password':'1111'
}

session=requests.Session()
# step1
session.post(login_url,data=data).text
# step2
after_login=session.get(login_success).text
print(after_login)

三、应对—验证码

对于一次登录就可以长时间使用的情况,只需要识别一次验证码即可。这种情况下,与其花时间开发一个自动识别验证码的程序,不如直接肉眼识别。

  • 借助浏览器肉眼识别:

对于需要输入验证码才能进行登录的网站,可以手动在浏览器登录网站,并通过Chrome获取Cookies,然后使用Cookies来访问网站。这样就可以实现人工输入一次验证码,然后很长时间不再登录。有一些网站的验证码是通过单击或者拖动滑块来验证的。对于这种网站,目前最简单的办法就是使用Cookies来登录,其他方式都不好用。

  • 借助代码Session肉眼识别:

(1)爬虫访问登录页面。
(2)分析网页源代码,获取验证码地址。
(3)下载验证码到本地。
(4)打开验证码,人眼读取内容。
(5)构造POST的数据,填入验证码。
(6)POST提交。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/113743.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序怎么制作?【小程序开发平台教学】

随着移动互联网的快速发展,微信小程序已经成为了人们日常生活中不可或缺的一部分。从购物、支付、出行到社交、娱乐、教育,小程序几乎涵盖了我们生活的方方面面。那么,对于有营销需求的企业商家来说,如何制作一个自己的微信小程序…

Servlet 上下文参数

7)Servlet上下文对象:ServletContext生活中的例子:张三和李四在不远处窃窃私语,并且频繁的对着你坏笑。你肯定会跑过去问:你们俩在聊什么?注意:此处的聊什么,其实就是你在咨询他们聊天的上下文&…

excel利用正则匹配和替换指定内容

上班中, 突然接到电话, 屋里的上司大人发来个excel, 说要替换里面x-x-xxx列的内容为x栋x单元xxx. 大致表格如下, 原表格我就不发了 身为程序猿的我, 肯定第一就想到了 正则! 打开excel-开始-查找和替换, 我擦, 只能完全匹配和替换 比如一次只能替换1-1- -> 为1栋1单元 1-2…

205. 同构字符串

205. 同构字符串 Java代码&#xff1a; class Solution {public boolean isIsomorphic(String s, String t) {Map<Character, Character> s2t new HashMap<Character, Character>();Map<Character, Character> t2s new HashMap<Character, Character&g…

并发编程-CPU缓存架构详解 Disruptor的高性能设计方案

1.CPU缓存架构详解 1.1 CPU高速缓存概念 CPU缓存即高速缓冲存储器&#xff0c;是位于CPU与主内存间的一种容量较小但速度很高的存储器。CPU高 速缓存可以分为一级缓存&#xff0c;二级缓存&#xff0c;部分高端CPU还具有三级缓存&#xff0c;每一级缓存中所储存的全部数 据都…

嵌入式linux常用的文件传输方式

做嵌入式就避免不了移植工作&#xff0c;所谓移植就是将交叉编译生成的可执行程序&#xff0c;库&#xff0c;配置文件等传输到开发板上进行工作。 常用传输方式有以下几种&#xff1a;1.串口传输 就是使用串口传输工具rz/sz; 该工具通过串口传输在SRT串口工具…

SRAM型FPGA空间应用的抗单粒子翻转

1 SRAM型FPGA内部结构 目前&#xff0c;SRAM 型 FPGA 在星载电子产品中应用较多的是Xilinx公司的FPGA。 图1所示为Xilinx系列FPGA器件的内部结构。从图中可以看出&#xff0c;FPGA内部由3 部分组成&#xff0c;分别为&#xff1a; 1&#xff09;用于实现用户逻辑的可编程阵…

【MySQL】MVCC机制(undo log,read view)

文章目录 前言一. 预备知识二. 模拟MVCC三. Read View四. RC与RR的本质区别结束语 前言 MVCC&#xff08;多版本并发控制&#xff09;是一种用来解决读-写冲突的无锁并发控制 MVCC为事务分配单向增长的事务ID&#xff0c;为每个修改保存一个版本&#xff0c;版本与事物ID相关联…

74X138元件怎么找——错误解决方法

1.在做74X138的时候根据课本&#xff0c;无法在现有的库中找到74X138&#xff0c;搜索了老师发的库中&#xff0c;都是集成库打不开&#xff0c;那我该怎么办? 根据这个课本P343&#xff0c;&#xff08;即机械工业出版社&#xff0c;刘超&#xff0c;包建荣&#xff0c;俞优姝…

CTF-Reverse---VM虚拟机逆向[HGAME 2023 week4]vm题目复现【详解】

文章目录 前言0x1[HGAME 2023 week4]vm提取汇编指令mov指令push指令&pop指令运算操作cmp指令jmp指令je 和 jne exp 前言 没有前言。终于搞定第二题了。费劲是真的费。 题目在nssctf上有。 这一题写完才看到有提示&#xff0c;是关于构建结构体的&#xff0c;下次试试。 0x…

1360. 日期之间隔几天

1360. 日期之间隔几天 Java代码&#xff1a; 【DateFormat】DateFormat用于实现日期的格式化 import java.text.DateFormat; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; // 好像已过时class Solution {public int daysBet…

vue3+ts 提取公共方法

因为好多页面都会使用到这个效验规则&#xff0c;封装一个校检规则&#xff0c;方便维护 封装前 封装后

【机器学习】四、计算学习理论

1 基础知识 计算学习理论&#xff08;computational learning theory&#xff09;&#xff1a;关于通过“计算”来进行“学习”的理论&#xff0c;即关于机器学习的理论基础&#xff0c;其目的是分析学习任务的困难本质&#xff0c;为学习算法体统理论保证&#xff0c;并根据结…

frp-内网穿透部署-ubuntu22服务器-windows server-详细教程

文章目录 1.下载frp2.Ubuntu修改root用户3.配置服务器3.1.配置frps.ini文件3.2.设置服务文件3.3.设置开机自启和服务操作3.4.后台验证3.5.服务器重启 4.配置本地window4.1.frpc配置4.2.添加开机计划启动4.3.控制台启动隐藏窗口 5.centos防火墙和端口5.1.开放端口5.2.查看端口 6…

【电路笔记】-相量图和相量代数

相量图和相量代数 文章目录 相量图和相量代数1、概述2、相量图3、相量代数3.1 加减3.2 差异化与整合 4、总结 1、概述 交流电信号可以用三种不同的方法来表示&#xff0c;以便表征和实现代数运算。 前面的文章中已经介绍了两种方法&#xff0c;本文稍后将介绍一种新的图形方法…

Pytorch 注意力机制解析与代码实现

目录 什么是注意力机制1、SENet的实现2、CBAM的实现3、ECA的实现4、CA的实现 什么是注意力机制 注意力机制是深度学习常用的一个小技巧&#xff0c;它有多种多样的实现形式&#xff0c;尽管实现方式多样&#xff0c;但是每一种注意力机制的实现的核心都是类似的&#xff0c;就…

【计算机网络】(谢希仁第八版)第一章课后习题答案

1.计算机网络可以向用户提供哪些服务&#xff1f; 答&#xff1a;例如音频&#xff0c;视频&#xff0c;游戏等&#xff0c;但本质是提供连通性和共享这两个功能。 连通性&#xff1a;计算机网络使上网用户之间可以交换信息&#xff0c;好像这些用户的计算机都可以彼此直接连…

036-第三代软件开发-系统时间设置

第三代软件开发-系统时间设置 文章目录 第三代软件开发-系统时间设置项目介绍系统时间设置演示效果QML 实现小伙伴自创 TumblerQt 家 Tumbler C 端实现 总结一下 关键字&#xff1a; Qt、 Qml、 Time、 时间、 系统 项目介绍 欢迎来到我们的 QML & C 项目&#xff01;…

【VPX630】青翼 基于KU115 FPGA+C6678 DSP的6U VPX通用超宽带实时信号处理平台

板卡概述 VPX630是一款基于6U VPX总线架构的高速信号处理平台&#xff0c;该平台采用一片Xilinx的Kintex UltraScale系列FPGA&#xff08;XCKU115&#xff09;作为主处理器&#xff0c;完成复杂的数据采集、回放以及实时信号处理算法。采用一片带有ARM内核的高性能嵌入式处理器…

Nginx负载均衡 以及Linux前后端项目部署

一、Nginx简介 Nginx是一款高性能的开源Web服务器和反向代理服务器。它由俄罗斯的程序设计师Igor Sysoev创建&#xff0c;旨在解决传统Web服务器的性能限制问题。 Nginx采用事件驱动的架构和异步非阻塞的处理方式&#xff0c;使其能够处理大量并发连接&#xff0c;并具备良好…