爬虫入门到精通_框架篇13(PySpider框架基本使用及抓取TripAdvisor实战)_PySpider下载安装,项目实战

1 PySpider框架基本用法

PySpider框架:

  • 去重处理
  • PyQuery提取
  • 错误重试
  • 多进程处理
  • 代理简洁
  • JavaScript渲染
  • 结果监控
  • WebUI管理

安装PySpider:

pip install pyspider

报错:

在这里插入图片描述
主要是async是python3.7的保留字,pyspider库中的有些文件与之重复而出现报错,就三个文件,这三个文件的找法可以参照《windows客户端pip安装pyspider完全指南(SyntaxError:invalid syntax、async语法报错、非引用替换关键字、全局查找针对性替换、Pycharm)》,async的具体位置在pycharm中会有红色标注,替换的词可以任意选择,我就在后面加了一个下划线即“async_”;
更改:run.py中async -> async_,继续报下面的错:
在这里插入图片描述
原因分析:无法从“集合”导入名称“映射”,因为Python3.10版本以后对requests 库进行调整,collections中不能直接调用方法Mapping,MutableMapping办法就是:找到引用collections模块的__init__.py文件,调整从abc导入:
本例的路径是 D:\Program Files\Python\lib\collections_init_.py

# 将这两句
from collections import Mapping 
from collections import MutableMapping

# 替换为以下两句
from collections.abc import Mapping
from collections.abc import MutableMapping
# 即用collections.abc代替collections调用方法Mapping、MutableMapping

在这里插入图片描述
更改后,继续报错:
phantomjs not found, continue running without it.
解决:需要下载phantomjs,然后把phantomjs.exe文件复制到与python.exe文件同一目录下,继续报错:
phantomjs fetcher running on port 25555。
解决:版本太高,错误较多

更换版本:Python36

报错:
在这里插入图片描述
原因:wsgidav版本过高,
解决:执行命令
pip install wsgidav2.4.1
在这里插入图片描述
原因:werkzeug版本过高
解决:执行命令
pip install werkzeug
0.16.1
在这里插入图片描述
原因:flask版本过高
解决:执行命令
pip install flask1.0
在这里插入图片描述
查了下是因为urllib3或chardet版本过高,与支持的版本不匹配
查看对应 的__init__.py文件内的说明 :
在这里插入图片描述
解决:执行命令
pip install urllib3
1.26.0
pip install chardet==4.0
在这里插入图片描述
在这里插入图片描述

2 PhantomJS下载

在这里插入图片描述
在这里插入图片描述

3 demo示例

create:
在这里插入图片描述
效果:在这里插入图片描述

4 项目实战(抓取TripAdvisor)

爬取伦敦景点地标

在这里插入图片描述

项目说明

步骤1:创建项目
在这里插入图片描述
步骤2:输入地址
在这里插入图片描述
因为证书报错:
在这里插入图片描述
后续直接用视频里的截图。

步骤3:
点击图中位置,将所有该界面的http的链接查找(index_page())出来.
在这里插入图片描述
步骤4:
点击上述任一链接,显示tile和url。
在这里插入图片描述
步骤5:
点击web,出现浏览器上的效果
在这里插入图片描述
步骤6:
点击html,可直接查看标签元素
在这里插入图片描述
步骤7:
有些不需要的href,更改成tile查找。
在这里插入图片描述
步骤8:
更改detail_page,用选择器获取详情页信息。
在这里插入图片描述
步骤9:
存入数据库
在这里插入图片描述
效果:
在这里插入图片描述
步骤10:
点击下一页
在这里插入图片描述

更改PySpider模式

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/451446.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Stable Diffusion 模型下载:Comic Babes(漫画宝贝)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八 下载地址 模型介绍 条目内容类型大模型基础模型SD 1.5来源CIVITAI作者datmuttdoe文件名称comicBabes_v2.safet…

教你用两种方式遍历循环python中的字典

开发中经常会用到对于字典、列表等数据的循环遍历,但是python中对于字典的遍历对于很多初学者来讲非常陌生,今天就来讲一下python中字典的循环遍历的两种方式。 注意: python2和python3中,下面两种方法都是通用的。 1. 只对键的…

Python算法题集_搜索旋转排序数组

Python算法题集_搜索旋转排序数组 题33:搜索旋转排序数组1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【二分法区间判断】2) 改进版一【二分找分界标准二分法】3) 改进版二【递归实现二分法】 4. 最优算法5. 相关资源 本文为Pytho…

【libwebrtc】基于m114的构建

libwebrtc A C++ wrapper for binary release, mainly used for flutter-webrtc desktop (windows, linux, embedded).是 基于m114版本的webrtc 最新(20240309 ) 的是m122了。官方给出的构建过程 .gclient 文件 solutions = [{"name" : src,"url

MySQL Connector连接失败之SSL connection error: protocol version mismatch

调用 mysql_real_connect() 连接失败,报错为ERROR 2026 (HY000): SSL connection error: protocol version mismatch 调用mysql_error()查看失败原因,结果为 SSL connection error: protocol version …

Android APK体积优化指南:清理项目,打造更小的APK、更快的构建速度和更好的开发体验

Android APK体积优化指南:清理项目,打造更小的APK、更快的构建速度和更好的开发体验 在任何软件项目中,开发是一个持续的过程,随着时间的推移,代码库会变得越来越复杂。这种复杂性可能导致构建时间变慢、APK体积变大&…

前端页面访问后台hiveserver2,阶段性报错

1、运行环境 Windows11下安装VMware,VMware下安装CentOS7 Linux系统,三台虚拟机集群部署hadoop,安装hive; 在Linux下安装Eclipse,创建maven工程,使用hive-jdbc-2.3.2访问hiveserver2 2、在windows11下&…

双环PID控制详细讲解

参考博客: (1)PID双环控制(速度环和位置环) (2)PID控制(四)(单环与双环PID) (3)内外双环pid算法 0 单环PID 目标位置→系…

git撤回代码提交commit或者修改commit提交注释

执行commit后,还没执行push时,想要撤销之前的提交commit 撤销提交 使用命令: git reset --soft HEAD^命令详解: HEAD^ 表示上一个版本,即上一次的commit,也可以写成HEAD~1 如果进行两次的commit&#xf…

【Redis】Redis 缓存重点解析

Redis 缓存重点解析 推荐文章:【Redis】Redis的特性和应用场景 数据类型 持久化 数据淘汰 事务 多机部署-CSDN博客 1. 我看你的项目都用到了 Redis,你在最近的项目的哪些场景下用到了 Redis 呢? 一定要结合业务场景来回答问题&#x…

Bitmap实现原理应用场景

Bitmap是什么? 用内存中连续的二进制位(bit),用0或1标识数据是否存在。 长度为10的bitmap,1,2,3,4 在bitmap中存在。 Bitmap实现 1、字符串 数值对应字符串的下标、二进制位0&…

【linux】冯诺依曼体系与操作系统的理解

本篇文章是进程的预备知识,但也不仅仅是进程的预备知识, 也可以更好地帮助我们理解整个计算机体系。 目录 冯诺依曼体系结构:进一步理解操作系统: 冯诺依曼体系结构: 关于这张图先进行一下必要的解释: 输…

DIY可视化整合MQTT生成UniApp源码

DIY可视化整合MQTT生成UniApp源码 MQTT协议是什么? MQTT(Message Queuing Telemetry Transport)是一种轻量级的、基于发布/订阅模式的通信协议,专门设计用于在低带宽、不稳定的网络环境下进行物联网设备之间的通信。具有以下特点&…

一篇论文回顾 Sora 文生视频技术的背景、技术和应用。

一篇论文回顾 Sora 文生视频技术的背景、技术和应用。 追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向? Sora 的技术报告披露了一些技术细节&…

【yolov8和yolov5】用命令快速着手训练

文章目录 1.yolov81.1.创建conda环境1.2.下载代码和环境1.3.YOLOv8训练、自测和预测的代码及解释1.3.1. YOLOv8 训练代码:1.3.2.yolov8 自测代码:1.3.3.yolov8 推理代码:1.3.4.注意: 2.yolov52.1.创建conda环境2.2.下载代码和环境…

小白必看,靠这几步写一份简单的产品说明书!

我们都知道,无论是新产品发布,还是老产品的推广,产品说明书都扮演着至关重要的角色。产品说明书可以帮助用户正确、高效地使用产品,也是传递企业发展理念、展示企业形象的有效途径。但作为一个小白,怎样才能写一份简单…

C语言数据结构之堆排序

青衿之志 履践致远 堆排序(Heapsort) 是指利用 堆 这种数据结构所设计的一种排序算法,它是 选择排序 的一种。它是通过堆来进行选择数据。需要注意的是排升序要建大堆,排降序建小堆。 🎥二叉堆 🎥二叉树 🔥期待小伙伴们…

K 个一组翻转链表

题目: struct ListNode{int val;ListNode* next;ListNode(): val(0), next(nullptr) {}ListNode(int _val): val(_val), next(nullptr) {}ListNode(int _val, ListNode* _next): val(_val), next(_next) {} };class Solution { public:ListNode* reverseKGroup(Li…

代码随想录训练营Day21:● 530.二叉搜索树的最小绝对差 ● 501.二叉搜索树中的众数 ● 236. 二叉树的最近公共祖先

530.二叉搜索树的最小绝对差 题目链接 https://leetcode.cn/problems/minimum-absolute-difference-in-bst/description/ 题目描述 思路 遇到在二叉搜索树上求什么最值,求差值之类的,都要思考一下二叉搜索树可是有序的,要利用好这一特点。…

第五十六回 徐宁教使钩镰枪 宋江大破连环马-飞桨图像分类套件PaddleClas初探

宋江等人学会了钩镰枪,大胜呼延灼。呼延灼损失了很多人马,不敢回京,一个人去青州找慕容知府。一天在路上住店,马被桃花山的人偷走了,于是到了青州,带领官兵去打莲花山。 莲花山的周通打不过呼延灼&#xf…