Day:007(3) | Python爬虫:高效数据抓取的编程技术(scrapy框架使用)

Scrapy 保存数据案例-小说保存

spider

import scrapy

class XiaoshuoSpiderSpider(scrapy.Spider):
    name = 'xiaoshuo_spider'
    allowed_domains = ['zy200.com']
    url = 'http://www.zy200.com/5/5943/'
    start_urls = [url + '11667352.html']
    def parse(self, response):
        info =response.xpath("/html/body/div[@id='content']/text()").extract()
        href =response.xpath("//div[@class='zfootbar']/a[3]/@href").extract_first()

        yield {'content':info}

        if href != 'index.html':
            new_url = self.url + href
            yield scrapy.Request(new_url,callback=self.parse)

pipeline

class XiaoshuoPipeline(object):
    def __init__(self):
        self.filename = open("dp1.txt", "w",encoding="utf-8")

    def process_item(self, item, spider):
        content = item["title"] +item["content"] + '\n'
        self.filename.write(content)
        self.filename.flush()
        return item

    def close_spider(self, spider):
        self.filename.close()

Scrapy 中 CrawlSpider 使用

        在Scrapy中Spider是所有爬虫的基类,而CrawSpiders就是Spider的派生类。

        适用于先爬取start_url列表中的网页,再从爬取的网页中获取link并继续爬取的工作。运行图如下:

创建CrawlSpider 

scrapy genspider -t crawl 爬虫名 (allowed_url)

使用CrawlSpider中核心的2个类对象

Rule对象 

Rule类与CrawlSpider类都位于 scrapy.contrib.spiders 模块中

class scrapy.contrib.spiders.Rule(  
 link_extractor, 
 callback=None,
 cb_kwargs=None,
 follow=None,
 process_links=None,
 process_request=None)

参数含义:

  • link_extractor为LinkExtractor,用于定义需要提取的链接
  • callback参数:当link_extractor获取到链接时参数所指定的值作为回调函数

注意
回调函数尽量不要用parse方法,crawlspider已使用了parse方法

  • follow:指定了根据该规则从response提取的链接是否需要跟进。当callback为None,默认值为True
  • process_links:主要用来过滤由link_extractor获取到的链接
  • process_request:主要用来过滤在rule中提取到的request 

LinkExtractors

顾名思义,链接提取器 

作用

response对象中获取链接,并且该链接会被接下来爬取每个LinkExtractor有唯一的公共方法是 extract_links(),它接收一个 Response 对象,并返回一个 scrapy.link.Link 对象

使用 

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

主要参数:

  • allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。
  • deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
  • allow_domains:会被提取的链接的domains。
  • deny_domains:一定不会被提取链接的domains。
  • restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接(只选到节点,不选到属性)
  • restrict_css:使用css表达式,和allow共同作用过滤链接(只选到节点,不选到属性)

查看效果-shell中验证 

首先运行

scrapy shell'https://www.zhhbqg.com/1_1852/835564.html'

继续import相关模块

from scrapy.linkextractors import LinkExtractor

提取当前网页中获得的链接

link = LinkExtractor(restrict_xpaths=(r'//a'))

调用LinkExtractor实例的extract_links()方法查询匹配结果

link.extract_links(response)

 查看效果 CrawlSpider版本

from scrapy.linkextractors import
LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from xiaoshuo.items import XiaoshuoItem

class XiaoshuoSpiderSpider(CrawlSpider):
    name = 'xiaoshuo_spider'
    allowed_domains = ['fhxiaoshuo.com']
    start_urls =['http://www.fhxiaoshuo.com/read/33/33539/17829387.shtml']
    rules = [ Rule(LinkExtractor(restrict_xpaths=(r'//div[@class="bottem"]/a[4]')),callback='parse_item'),]

    def parse_item(self, response):
        info =
response.xpath("//div[@id='TXT']/text()").extract()
        it = XiaoshuoItem()
        it['info'] = info
        yield it

注意
callback后面函数名用引号引起
函数名不要用parse
参数的括号嵌套,不要出问题 

Scrapy 中 Request 的使用

        爬虫中请求与响应是最常见的操作,Request对象在爬虫程序中生成并传递到下载器中,后者执行请求并返回一个Response对象

Request对象 

class scrapy.http.Request(url[, callback,method='GET', headers, body, cookies, meta,
encoding='utf-8', priority=0,dont_filter=False, errback])

        一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response 

  • 参数
    • url(string) - 此请求的网址
    • callback(callable) - 将使用此请求的响应(一旦下载)作为其第一个参数调用的函数。有关更多信息,请参阅下面的将附加数据传递给回调函数。如果请求没有指定回调,
      parse()将使用spider的 方法。请注意,如果在处理期间引发异常,则会调用errback。
    • method(string) - 此请求的HTTP方法。默认为'GET'。可设置为"GET", "POST", "PUT"等,且保证字符串大写
    • meta(dict) - 属性的初始值Request.meta,在不同的请求之间传递数据使用
    • body(str或unicode) - 请求体。如果unicode传递了,那么它被编码为 str使用传递的编码(默认为utf-8)。如果body没有给出,则存储一个空字符串。不管这个参数的类型,存储的最终值将是一个str(不会是unicode或None)。
    • headers(dict) - 这个请求的头。dict值可以是字符串(对
      于单值标头)或列表(对于多值标头)。如果 None作为值
      传递,则不会发送HTTP头.一般不需要
    • encoding: 使用默认的 'utf-8' 就行
    • dont_filter:是否过滤重复的URL地址,默认为 False 过滤
    • cookie(dict或list) - 请求cookie。这些可以以两种形式发送。
      • 使用dict:
        request_with_cookies =
        Request(url="http://www.sxt.cn/index/login/login.html",)
        

      • 使用列表:
         request_with_cookies =
        Request(url="http://www.example.com",
                                       cookies=
        [{'name': 'currency',
                                              
        'value': 'USD',
                                              
        'domain': 'example.com',
                                              
        'path': '/currency'}])
        

        后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用

        request_with_cookies =
        Request(url="http://www.example.com",
                                       cookies={'currency': 'USD', 'country': 'UY'},
                                       meta={'dont_merge_cookies': True})
        

将附加数据传递给回调函数

        请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数 

def parse_page1(self, response):
    item = MyItem()
    item['main_url'] = response.url
    request =scrapy.Request("http://www.example.com/some_page.html",
                            
callback=self.parse_page2)
    request.meta['item'] = item
    return request

def parse_page2(self, response):
    item = response.meta['item']
    item['other_url'] = response.url
    return item

Scrapy 中 FormRequest 的使用

FormRequest是Request的扩展类,具体常用的功能如下:

  • 请求时,携带参数,如表单数据
  • 从Response中获取表单的数据

FormRequest类可以携带参数主要原因是:增加了新的构造函数的参数 formdata 。其余的参数与Request类相同. 

  • formdata参数类型为:dict

class scrapy.http.FormRequest(url[, formdata, ...])

class method from_response(response[,
formname=None, formid=None, formnumber=0,
formdata=None, formxpath=None, formcss=None,
clickdata=None, dont_click=False, ...])

         返回一个新FormRequest对象,其中的表单字段值已预先 <form> 填充在给定响应中包含的HTML 元素中.

参数:

  • response(Responseobject) - 包含将用于预填充表单字段的HTML表单的响应
  • formname(string) - 如果给定,将使用name属性设置为此值的形式
  • formid(string) - 如果给定,将使用id属性设置为此值的形式
  • formxpath(string) - 如果给定,将使用匹配xpath的第一个表单
  • formcss(string) - 如果给定,将使用匹配css选择器的第一个形式
  • formnumber(integer) - 当响应包含多个表单时要使用的表单的数量。第一个(也是默认)是0
  • formdata(dict) - 要在表单数据中覆盖的字段。如果响应元素中已存在字段,则其值将被在此参数中传递的值覆盖
  • clickdata(dict) - 查找控件被点击的属性。如果没有提供,表单数据将被提交,模拟第一个可点
  • 击元素的点击。除了html属性,控件可以通过其相对于表单中其他提交表输入的基于零的索引,通
  • 过nr属性来标识
  • dont_click(boolean) - 如果为True,表单数据将在不点击任何元素的情况下提交

请求使用示例

通过HTTP POST发送数据 

FormRequest(
   
url="http://www.example.com/post/action",
            formdata={'name': 'John Doe','age': '27'},
            callback=self.after_post
)

 通过FormRequest.from_response()发送数据

FormRequest.from_response(
            response,
            formdata={'username': 'john','password': 'secret'},
            callback=self.after_login
)

响应对象

class scrapy.http.Response(url[, status=200,
headers=None, body=b'', flags=None,request=None])

一个Response对象表示的HTTP响应,这通常是下载器下载后,并供给到爬虫进行处理

参数:

  • url(string) - 此响应的URL
  • status(integer) - 响应的HTTP状态。默认为200
  • headers(dict) - 这个响应的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)
  • body(bytes) - 响应体。它必须是str,而不是unicode,除非你使用一个编码感知响应子类,如TextResponse
  • flags(list) - 是一个包含属性初始值的 Response.flags列表。如果给定,列表将被浅复制
  • request(Requestobject) - 属性的初始值Response.request。这代表Request生成此响应
  • text 获取文本

 

Scrapy中下载中间件

        下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。

        通过可下载中间件,可以处理请求之前和请求之后的数据。

        每个中间件组件都是一个Python类,它定义了一个或多个以下方法,我们可能需要使用方法如下:

  • process_request()
  • process_response()

process_request(self, request, spider) 

当每个request通过下载中间件时,该方法被调用

必须返回以下其中之一 

  • 返回 None
    • Scrapy 将继续处理该 request,执行其他的中间件的相应方法,直到合适的下载器处理函数(download handler)被调用,该 request 被执行(其 response 被下载)
  • 返回一个 Response 对象
    • Scrapy 将不会调用 任何 其他的 process_request()或 process_exception()方法,或相应地下载函数; 其将返回该 response。已安装的中间件的 process_response()方法则会在每个response 返回时被调用
  • 返回一个 Request 对象
    • Scrapy 则停止调用 process_request 方法并重新调度返回的 request。当新返回的 request被执行后, 相应地中间件链将会根据下载的 response 被调用
  • raise IgnoreRequest
    • 如果抛出 一个 IgnoreRequest 异常,则安装的下载中间件的 process_exception() 方法会被调用。如果没有任何一个方法处理该异常, 则 request 的 errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常, 则该异常被忽略且不记录(不同于其他异常那样)

参数:

  • request (Request 对象) – 处理的request
  • spider (Spider 对象) – 该request对应的spider 

process_response(self, request, response, spider) 

当下载器完成http请求,传递响应给引擎的时候调用

process_response()应该是:返回一个 Response 对象,则返回一个Request 对象或引发 IgnoreRequest 例外情况。 

  • 如果它返回 Response (可能是相同的给定响应,也可能是全新的响应),该响应将继续使用 process_response() 链中的下一个中间件
  • 如果它返回一个 Request 对象时,中间件链将暂停,返回的请求将重新计划为将来下载。这与从返回请求的行为相同process_request()
  • 如果它引发了 IgnoreRequest 异常,请求的errback函数 ( Request.errback)。如果没有代码处理引发的异常,则忽略该异常,不记录该异常(与其他异常不同)。 
  • 参数
    • request (is a Request object) -- 发起响应的请求
    • response ( Response object) -- 正在处理的响应
    • spider ( Spider object) -- 此响应所针对的蜘蛛

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/551666.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

react v18 项目初始化

按照以下命令进行傻瓜式操作即可&#xff1a; 全局安装脚手架工具&#xff1a; npm install -g create-react-app创建项目my-react-app&#xff1a; create-react-app my-react-app安装 antd: yarn add antd安装 react-router-dom&#xff1a; yarn add react-router-dom启动项…

幻兽帕鲁老板公开发声:腾讯正在制作幻兽帕鲁克隆版

昨天&#xff0c;Pocketpair的老板出来指责中国游戏公司抄袭了他们的游戏Palworld&#xff0c;说这简直是太不可思议了。 Pocketpair的CEO Takuro Mizobe发布了一个叫Auroria的游戏的截图&#xff0c;然后说&#xff1a;“腾讯正在制作Palworld的克隆游戏&#xff01;在中国&a…

10个你可能没听过但很好用的建筑设计AI工具

在之前的文章中我给大家介绍了很多Midjourney、Stable Diffusion的使用方法和对应的功能&#xff1a; Midjourney vs Stable Diffusion&#xff1a;提示相同&#xff0c;出图差距竟这么大&#xff01;哪个更适配你的工作&#xff1f;https://news.vsochina.com/cn/industry/64…

Java 基于微信小程序的医院预约挂号小程序(V3)

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

基于SpringBoot的“商务安全邮箱”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“商务安全邮箱”的设计与实现&#xff08;源码数据库文档PPT) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构 收件箱效果图 草稿箱效果图 已发送…

计算机网络实验实验之VLAN的配置与分析

实验目的 了解什么是带内管理&#xff1b;熟练掌握如何使用telnet方式管理交换机&#xff1b;熟练掌握如何为交换机设置web方式管理&#xff1b;熟练掌握如何进入交换机web管理方式&#xff1b;了解交换机web配置界面&#xff0c;并能进行部分操作。 (6)了解VLAN原理&#xf…

OpenHarmony南向开发案例:【智能门锁】

一. 简介 本demo是基于Openharmony 3.1 Beta本版开发&#xff0c;不仅可以接收数字管家应用下发的指令来控制门锁开启&#xff0c;而且还可以通过数字管家设置不同的开锁密码以及一次性密码&#xff0c;实现给临时用户一个临时密码&#xff0c;保证门户安全。当然除了开锁的功…

Shopee虾皮批量上传全球产品指南

当shopee虾皮需要大量上架新产品时&#xff0c;批量工具可以更好的提升效率。通过本指南&#xff0c;你将了解如何批量上传全球商品&#xff0c;本指南适用于所有站点。 一、什么是批量上传&#xff1f; 您可以通过【中国卖家中心>>全球商品>>批量上传】功能&…

部署ssm项目时遇到的一些错误

问题一&#xff1a;项目使用maven&#xff0c;打包完之后在idea启动不了 打包完之后在idea里面运行报错&#xff0c;提示找不到springmvc.xml配置文件。 再次clean后又可以运行了。 这是因为maven打包只会打包java文件&#xff0c;配置文件不进行打包&#xff0c;导致target-…

P1157 组合的输出 (dfs深搜)

题目连接&#xff1a;P1157 组合的输出 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 思路&#xff1a; AC代码&#xff1a; #include<iostream> #include<cstring>using namespace std;const int N 30; int st[N];//用来存这个数用没用过&#xff08;1~n个…

redmibook 14 2020 安装 ubuntu

1. 参考博客 # Ubuntu20.10系统安装 -- 小米redmibook pro14 https://zhuanlan.zhihu.com/p/616543561# ubuntu18.04 wifi 问题 https://blog.csdn.net/u012748494/article/details/105421656/# 笔记本电脑安装了Ubuntu系统设置关盖/合盖不挂起/不睡眠 https://blog.csdn.net/…

智慧公厕:打造城市品质生活的必备设施

公共厕所一直是城市管理中不可忽视的一环&#xff0c;而随着智慧科技的发展&#xff0c;智慧公厕逐渐成为改善城市品质生活的利器。智慧公厕作为一种创新的公共卫生设施&#xff0c;其带来的好处不仅体现在对公共厕所的全面监测和高效智慧化管理&#xff0c;更是为市民提供了更…

蓝桥杯第十五届javab组个人总结

javab组 额今天早上打完了得对自己此次比赛做总结&#xff0c;无论是明年还参赛还是研究生蓝桥杯&#xff0c;体验感有点差&#xff0c;第一题其实一开始想手算但怕进位导致不准确还是让代码跑了&#xff0c;但跑第202420242024个数&#xff08;被20和24整除&#xff09;一直把…

算法练习第18天|111.二叉树的最小深度

111.二叉树的最小深度 111. 二叉树的最小深度 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/minimum-depth-of-binary-tree/description/ 题目描述&#xff1a; 给定一个二叉树&#xff0c;找出其最小深度。 最小深度是从根节点到最近叶子节点的最…

bootstrap-select 搜索过滤输入中文问题,前2个字母输入转成空格

bootstrap是v3.3.7的 v1.6.3版本的bootstrap-select,注释以下2行 //that.$menu.find(li).filter(:visible:not(.divider)).eq(0).addClass(active).find(a).focus(); // $(this).focus();

Dryad Girl Fawnia

一个可爱的Dryad Girl Fawnia的三维模型。她有ARKit混合形状,人形装备,多种颜色可供选择。她将是一个完美的角色,幻想或装扮游戏。 🔥 Dryad Girl | Fawnia 一个可爱的Dryad Girl Fawnia的三维模型。她有ARKit混合形状,人形装备,多种颜色可供选择。她将是一个完美的角色…

工业控制(ICS)---COTP协议

COTP 可以理解为基于TCP的工控TCP&#xff0c;主要有五种类型&#xff1a; CR Connect Request (0x0e)——握手&#xff0c;发送方发送 CC Connect Confirm (0x0d)——握手&#xff0c;接收方发送 DT Data (0x0f)——传正常数据 UD User Data (0x04)——少见&#xff0c;传…

mysql多表查询时与子表的关系

力扣题目链接 如果最后一句代码不把a与两个表都进行连接的话会出现结果重复的问题

全网短剧搜索源码+短剧API接口 短剧下载 热门短剧 全开源可二开

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 pc端h5手机端全网短剧搜索前端源码分享 内含7000短剧资源(不支持在线播放&#xff09; 搜索API接口&#xff1a;文件内查看 全部短剧API接口&#xff1a;文件内查看 每日更新API接…

《黑神话:悟空》现已正式上架PS商城,今晚或有大动作

关于《黑神话&#xff1a;悟空》的消息可谓是喜闻乐见&#xff01;今天晚上19:10可能会有相关游戏内容放出&#xff0c;让人非常期待。而海信电视推出的《黑神话&#xff1a;悟空》专属画质模式&#xff0c;让玩家可以享受到更加细腻的游戏画面。 此外&#xff0c;海信和《黑神…