User-Agent(用户代理)是什么?

User-Agent(用户代理)是什么?

User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。

网络爬虫使用程序代码来访问网站,而非人类亲自点击访问,因此爬虫程序也被称为“网络机器人”。绝大多数网站都具备一定的反爬能力,禁止网爬虫大量地访问网站,以免给网站服务器带来压力。这里要学习的 User-Agent 就是反爬策略的第一步。

网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。如果是,网站首先对该 IP 进行预警,对其进行重点监控,当发现该 IP 超过规定时间内的访问次数, 将在一段时间内禁止其再次访问网站。

服务器只想给浏览器提供服务,而不想给爬虫程序提供服务,使用 UA 就是要伪装成浏览器向服务器发送请求并获取相应


获取User-Agent 请求头

想要知道自己的浏览器的User-Agent 请求头是什么,可以通过以下方式获得:

  • 打开 edge
  • 随便一个页面,按F12,打开开发者工具
    • image.png
  • 点击“网络”或“network”
    • image.png
  • F5 刷新页面,可以看到浏览器向服务器发送的全部请求
    • image.png
  • 随便找到一个请求,点击,找到User-Agent 后面的内容,如果需要使用,复制即可
    • image.png

爬虫程序的 UA信息

通过向 HTTP 测试网站(http://httpbin.org/)发送 GET 请求来查看请求头信息,从而获取爬虫程序的 UA。代码如下所示:

import urllib.request

response = urllib.request.urlopen('http://httpbin.org/get')
html = response.read().decode('utf-8')
print(html)

image.png
从输出结果可以看出,User-Agent 竟然是 Python-urllib/3.12,这显然是爬虫程序访问网站。因此就需要重构 User-Agent,将其伪装成“浏览器”访问网站。

注意:httpbin.org这个网站能测试 HTTP 请求和响应的各种信息,比如 cookie、IP、headers 和登录验证等,且支持 GET、POST 等多种方法,对 Web 开发和测试很有帮助。

重构爬虫UA信息

使用urllib.request.Request()方法重构 User-Agent 信息,代码如下所示:

from urllib import request

# 定义变量:URL 与 headers
url = 'http://httpbin.org/get'  # 向测试网站发送请求
# 重构请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'}
# 1、创建请求对象,包装ua信息
req = request.Request(url=url, headers=headers)
# 2、发送请求,获取响应对象
res = request.urlopen(req)
# 3、提取响应内容
html = res.read().decode('utf-8')
print(html)

image.png
上述代码重构了 User-Agent 字符串信息,这样就解决了网站通过识别 User-Agent 来封杀爬虫程序的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/323059.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Web】什么是 XSS 攻击,如何避免?

🍎个人博客:个人主页 🏆个人专栏:Web ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 常见方法: 结语 我的其他博客 前言 在当今数字化时代,网络安全成为信息技术领域中的一项至关重要的任务。X…

Mac 下载 nvm 后执行nvm -v 命令报错 nvm: command not found

1、问题:Mac 使用命令下载nvm 成功后执行 nvm -v 查看,报错:nvm command not found 2、原因:可能是系统更新后,默认的 shell 是 zsh,所以找不到配置文件 3、解决:可添加编辑.bash_profile 和 …

WebStom中代码美化工具prettier的配置

如果你的项目使用到了prettier代码美化工具之后,使用ctrlaltL调整代码格式的时候会发现,代码没有被正确格式化,这是因为prettier代码美化工具没有设置格式化vue代码的设置。在下面中的run for files的括号里面加上vue即可 最后一步就是确保es…

自媒体必备的8个素材网站,免费可商用。

自媒体必备的8个素材网站,视频、音效、音频、图片等素材非常齐全,免费下载,无需担心侵权,赶紧收藏起来吧~ 视频素材 1、菜鸟图库 https://www.sucai999.com/video.html?vNTYwNDUx 菜鸟图库可以找到设计、办公、图片、视频、音频…

11. PCL的搭建

在这里,前期已经在rk3588上搭建好了livox hap的环境,搭建好了ros环境,搭建好了rknn环境,接下来搭建PCL环境,因为后期的点云数据处理基本上都要用到PCL库处理点云数据。这里的搭建是看了下面博主的内容,抄过…

如何解决游戏显示找不到x3daudio1_7.dll,六种修复方法详解分享

一、x3daudio17.dll的作用 x3daudio17.dll是微软公司开发的一个动态链接库文件,它提供了音频处理和渲染的功能。该文件主要负责处理三维音效和多声道音频的输出,使得计算机可以提供更加逼真和立体的音频效果。因此,当x3daudio17.dll丢失时&a…

Linux系统命令 --- seq tr cut sort uniq

目录 一、seq ---- 输出序列化参数 1、seq 数字 按照顺序打印 2、-s 使用指定字符串分割数字 3、计算1-20,并求和 4、-w 在每一列数字前加零 默认补全 二、tr、对数字进行处理 1、替换 2、删除 3、压缩 4、补集 三、cut 截取 四、sort 排序 …

2023 年东北三省一区职业院校技能大赛“云计算应用(高职组)”赛项样题

2023 年东北三省一区职业院校技能大赛“云计算应用(高职组)”赛项样题 目录:需要竞赛软件包环境可练习博主! 2023 年东北三省一区职业院校技能大赛“云计算应用(高职组)”赛项样题 模块一 私有云(30 分) 任务 1. 私有云服务搭建&…

pc-lint plus 屏蔽错误的几种方式

如屏蔽错误530错误 1、全局屏蔽 修改规则文件,屏蔽530错误 2、多行屏蔽 3、单行屏蔽 4、注意项 (1) 支持C90的"// … "注释方式和C99的“/* … */”注释方式 (2) lint必须为小写且紧挨着“//”或“/*” (3) lint后可跟一个或多个Lint选项,…

Java实现二维码、条形码生成器

文章目录 前言 在数字化时代,二维码已经成为了信息交流的一种常见方式。它们被广泛用于各种应用,从产品标签到活动传单,以及电子支付。本文将向您展示如何在Spring Boot应用程序中整合ZXing库,以创建和解析QR码。无论您是想为您的…

Tiktok/抖音旋转验证码识别

一、引言 在数字世界的飞速发展中,安全防护成为了一个不容忽视的课题。Tiktok/抖音,作为全球最大的短视频平台之一,每天都有数以亿计的用户活跃在其平台上。为了保护用户的账号安全,Tiktok/抖音引入了一种名为“旋转验证码”的安…

【现代密码学】笔记5--伪随机置换(分组加密)《introduction to modern cryphtography》

【现代密码学】笔记5--伪随机置换(分组加密)《introduction to modern cryphtography》 写在最前面5 伪随机排列实践构造(块密码/分组密码) 写在最前面 主要在 哈工大密码学课程 张宇老师课件 的基础上学习记录笔记。 内容补充&…

Vue-15、Vue条件渲染

1、v-show 在Vue中&#xff0c;v-show是一个指令&#xff0c;用于根据表达式的值来控制元素的显示与隐藏。当指令的值为true时&#xff0c;元素显示&#xff1b;当指令的值为false时&#xff0c;元素隐藏。 v-show的用法如下&#xff1a; <!DOCTYPE html> <html lan…

新手做抖音小店如何选品?选什么样的品?这几点一定要记住

大家好&#xff0c;我是电商花花。 抖音小店如何选品&#xff1f;大家应该自己的选品方法和渠道&#xff0c;但是选品归根结底就是抓住用户的喜好&#xff0c;清楚他们想要什么样的商品&#xff0c;只有抓住用户的需求&#xff0c;客户才会买单&#xff0c;店铺才会出单。 所…

HTML 列表 iframe

文章目录 列表无序列表有序列表自定义列表 iframe 引入外部页面 列表 列表 是 装载 结构 , 样式 一致的 文字 或 图表 的容器 ; 列表 由于其 整齐 , 整洁 , 有序 的特征 , 类似于表格 , 但是其 组合的自由程度高于表格 , 经常用来进行布局 ; HTML 列表包括如下类型 : 无序列…

FASTQ 文件压缩格式有哪些?

FASTQ 文件压缩格式 .gz .bz2 .xz .rfq .rfq.xz FASTQ 文件是用于存储测序数据的一种格式&#xff0c;它包含了大量的文本信息&#xff0c;因此通常占用大量的存储空间。为了有效地处理和传输这些数据&#xff0c;通常需要对 FASTQ 文件进行压缩来节省存储空间及传输带宽。以下…

2024年软件测试五大趋势预测,软件测试服务商价值凸显

当今软件的高速发展对软件质量提出了更高的要求&#xff0c;而软件测试作为保证软件质量的关键环节&#xff0c;自然也成为业界关注的焦点。进入2024年&#xff0c;回顾中国软件测试的发展历程&#xff0c;我们不难发现中国市场日趋成熟&#xff0c;软件测试行业蓬勃发展&#…

vue3中,vue-echarts基本使用(柱状图、饼图、折线图)

注意&#xff1a;vue-echarts在使用前要先安装echarts&#xff0c;不要只安装vue-echarts这一个 echarts官网地址&#xff1a;Apache EChartsApache ECharts&#xff0c;一款基于JavaScript的数据可视化图表库&#xff0c;提供直观&#xff0c;生动&#xff0c;可交互&#xf…

如何设计一个低代码平台?

导语&#xff1a;如果企业想自主可控&#xff0c;从零开发一个低代码平台&#xff0c;如何技术选型&#xff1f;这篇文章或许会对你有所帮助。 一、前言 低代码平台至少包含表单建模、流程设计、报表可视化、代码生成器、系统管理、前端UI等组件&#xff0c;我们没必要重新造轮…

pve虚拟机的改名和修改ID

PVE的虚拟机名字在web界面是无法修改id和名字的。要注意id和名字不能重。 在使用备份时就发现虚拟机是以虚拟机id作为维一标识&#xff0c;如果有多台pve节点&#xff0c;但共用同一个nfs目录备份或使用同一个pbs进行备份时就必须保障id的唯一性。这时可以使用这个方法来进行补…