用Perl和HTTP::Tiny库的爬虫

HTTP::Tiny是Perl的一个轻量级HTTP客户端,适合简单的请求,但不像LWP那样功能全面,不过对于基本需求应该足够了。

首先,我需要熟悉HTTP::Tiny的基本用法。比如如何发起GET请求,设置user-agent,处理响应。用户可能还需要处理异常,比如连接错误或者超时。另外,可能需要设置超时时间,避免脚本卡住。用户代理的设置也很重要,有些网站会阻止默认的User-Agent。

在这里插入图片描述

然后,考虑用户可能需要解析HTML内容,这时候需要推荐一个模块,比如HTML::TreeBuilder或者Mojo::DOM。不过用户的问题只提到HTTP::Tiny,所以可能在回答中需要提到这些解析库作为后续步骤,但核心是抓取部分。

以下是一个使用Perl和HTTP::Tiny库编写的简单网页爬虫示例,包含详细注释和解析建议:

#!/usr/bin/perl
use strict;
use warnings;
use HTTP::Tiny;# 创建HTTP::Tiny客户端并配置参数
my $http = HTTP::Tiny->new(agent      => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',  # 伪装浏览器User-Agenttimeout    => 10,               # 10秒超时verify_SSL => 1,                # 启用SSL验证
);# 目标URL(示例使用测试网站,实际使用时请替换并遵守robots.txt)
my $url = 'https://example.com';# 发送HTTP GET请求
my $response = $http->get($url);# 检查请求是否成功
if ($response->{success}) {# 获取响应内容(注意编码处理)my $content = $response->{content};# 检测内容编码(示例:假设是UTF-8)# 实际可能需要根据响应头或<meta>标签判断# utf8::decode($content);  # 如果需要转换编码# 简单输出内容(前200字符)print "Success! Content preview:\n";print substr($content, 0, 200), "\n...\n";# 这里可以添加HTML解析代码
} else {# 输出错误信息my $status = $response->{status};my $reason = $response->{reason} || 'Unknown error';warn "Request failed: $status $reason\n";# 输出详细的响应头(调试用)if ($response->{headers}) {while (my ($k, $v) = each %{$response->{headers}}) {warn "$k: $v\n";}}
}### HTML解析示例(需额外安装模块)
# 使用HTML::TreeBuilder解析示例:
# use HTML::TreeBuilder;
# my $tree = HTML::TreeBuilder->new;
# $tree->parse($content);
# my $title = $tree->look_down('_tag', 'title')->as_trimmed_text;
# print "Page title: $title\n";# 更现代的Mojo::DOM解析示例:
# use Mojo::DOM;
# my $dom = Mojo::DOM->new($content);
# say "Links:";
# $dom->find('a')->each(sub {
#     my ($el) = @_;
#     say $el->attr('href'), ' => ', $el->text;
# });

注意事项:

  1. 合法合规

    • 始终检查目标网站的robots.txt文件(通常是/robots.txt
    • 遵守网站的服务条款
    • 设置合理的请求频率(建议添加3-5秒延迟)
  2. 性能优化:

    # 可以添加延迟(单位:秒)
    sleep 3;  # 在连续请求之间添加延迟
    
  3. 高级配置建议:

    my $http = HTTP::Tiny->new(max_redirect => 5,      # 最大重定向次数default_headers => {referer => 'https://google.com',  # 伪造来源accept  => 'text/html,application/xhtml+xml',},
    );
    
  4. POST请求示例:

    my $post_response = $http->post('https://example.com/login',{content => 'user=admin&pass=123',  # 或使用Form::Tiny模块处理headers => { 'Content-Type' => 'application/x-www-form-urlencoded' }}
    );
    
  5. 代理支持:

    my $http_with_proxy = HTTP::Tiny->new(proxy => 'http://proxy.example.com:8080',# 或者根据协议自动选择代理# proxies => {#    http  => 'http://proxy.example.com:8080',#    https => 'https://proxy.example.com:8081',# }
    );
    

建议安装的解析模块:

  • HTML::TreeBuilder:传统HTML解析器
  • Mojo::DOM(需要安装Mojolicious):更现代的CSS选择器语法
  • Web::Query:jQuery风格的HTML操作

使用前请通过CPAN安装所需模块:

cpan install HTML::TreeBuilder Mojolicious Web::Query

请根据实际需求调整代码,并始终遵守目标网站的爬取规则和相关法律法规。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/52.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue3性能优化终极指南:编译策略、运行时调优与全链路监控

一、Vue3性能优化体系框架 1.1 性能优化全景图谱 1.2 关键性能指标定义表 指标测量方式优化目标核心影响因子FCPLighthouse<1.5s资源加载速度LCPPerformance API<2.5s关键资源大小TTIWebPageTest<3.5s主线程阻塞时间Memory UsageChrome DevTools<50MB对象引用策略…

sqlite3基本语句

创建表 CREATE TABLE student ( id INTEGER PRIMARY KEY, -- 学号&#xff0c;主键 name TEXT NOT NULL, -- 姓名&#xff0c;不能为空 age INTEGER, -- 年龄 gender TEXT -- 性别 ); SQLite常用数据类型 主键 …

蓝桥杯补题

方法技巧&#xff1a; 1.进行循环暴力骗分&#xff0c;然后每一层的初始进行判断&#xff0c;如果已经不满足题意了&#xff0c;那么久直接continue&#xff0c;后面的循环就不用浪费时间了。我们可以把题目所给的等式&#xff0c;比如说有四个未知量&#xff0c;那么我们可以用…

配置与管理代理服务器

安装squid Squid软件包在标准yum存储库中可用&#xff0c;因此&#xff0c;我们正在使用yum命令安装Squid代理。 [rootserver ~]# dnf install -y squid //安装 [rootserver ~]#systemctl enable --now squid.service [rootserver ~]#systemctl status squid.serv…

《从零搭建Vue3项目实战》(AI辅助搭建Vue3+ElemntPlus后台管理项目)零基础入门系列第六篇:页面跳转功能实现(Router的引入和使用)

&#x1f91f;致敬读者 &#x1f7e9;感谢阅读&#x1f7e6;笑口常开&#x1f7ea;生日快乐⬛早点睡觉 &#x1f4d8;博主相关 &#x1f7e7;博主信息&#x1f7e8;博客首页&#x1f7eb;专栏推荐&#x1f7e5;活动信息 文章目录 《从零搭建Vue3项目实战》&#xff08;AI辅助…

Windows 图形显示驱动开发-WDDM 2.0功能_分配用法跟踪

随着分配列表的消失&#xff0c;视频内存管理器 (VidMm) 不再能够查看特定命令缓冲区中引用的分配。 因此&#xff0c;VidMm 不再能够跟踪分配使用情况和处理相关同步。 此责任现在由用户模式驱动程序 (UMD) 承担。 具体而言&#xff0c;UMD 需要处理与直接 CPU 访问分配和重命…

TCP 与 UDP

TCP 与 UDP 的区别&#xff08;重要&#xff09; 是否面向连接&#xff1a;UDP 在传送数据之前不需要先建立连接。而 TCP 提供面向连接的服务&#xff0c;在传送数据之前必须先建立连接&#xff0c;数据传送结束后要释放连接。是否是可靠传输&#xff1a;远地主机在收到 UDP 报…

什么是混合搜索Hybrid Search?

🧠 向所有学习者致敬! “学习不是装满一桶水,而是点燃一把火。” —— 叶芝 我的博客主页: https://lizheng.blog.csdn.net 🌐 欢迎点击加入AI人工智能社区! 🚀 让我们一起努力,共创AI未来! 🚀 混合搜索通常指一种结合多种搜索方法或技术的搜索策略,旨在提供更…

【深度学习:理论篇】--Pytorch基础入门

目录 1.Pytorch--安装 2.Pytorch--张量 3.Pytorch--定义 4.Pytorch--运算 4.1.Tensor数据类型 4.2.Tensor创建 4.3.Tensor运算 4.4.Tensor--Numpy转换 4.5.Tensor--CUDA&#xff08;GPU&#xff09; 5.Pytorch--自动微分 &#xff08;autograd&#xff09; 5.1.back…

浅层神经网络:全面解析(扩展)

浅层神经网络&#xff1a;全面解析&#xff08;扩展&#xff09; 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;可以分享一下给大家。点击跳转到网站。 https://www.captainbed.cn/ccc 一、神经网络架构演进图谱 #mermaid-svg-…

Ubuntu小练习

文章目录 一、远程连接1、通过putty连接2、查看putty运行状态3、通过Puuty远程登录Ubuntu4、添加新用户查看是否添加成功 5、用新用户登录远程Ubuntu6、使用VNC远程登录树莓派 二、虚拟机上talk聊天三、Opencv1、简单安装版&#xff08;适合新手安装&#xff09;2、打开VScode特…

Maven的安装配置-项目管理工具

各位看官&#xff0c;大家早安午安晚安呀~~~ 如果您觉得这篇文章对您有帮助的话 欢迎您一键三连&#xff0c;小编尽全力做到更好 欢迎您分享给更多人哦 今天我们来学习&#xff1a;Maven的安装配置-项目管理工具 目录 1.什么是Maven&#xff1f;Maven用来干什么的&#xff1f…