【爬虫】Java 爬虫组件 Jsoup

【爬虫】Java 爬虫组件 Jsoup

  • 写在前面
  • 实现思路和步骤
    • 步骤一:引入 Jsoup
    • 步骤二:获取页面组件内容
    • 步骤三:分析页面构成获取需要的组件
  • 代码案例

写在前面

爬虫是通过编程的方式,从网站上获取数据的一种方式。很多语言都提供的有爬虫功能,都大同小异。这篇文章分享的是 Java 的爬虫组件 jsoup 的使用。以下案例以爬去小说为例

实现思路和步骤

步骤一:引入 Jsoup

  • 普通的 Java 项目需要手动下载 jsoup jar 包,导入到项目中。
  • Maven 项目可以导入 jsoup 坐标
     <dependency>
       <groupId>org.jsoup</groupId>
       <artifactId>jsoup</artifactId>
       <version>1.13.1</version>
     </dependency>
    

步骤二:获取页面组件内容

// 借助 jsoup 工具获取网站的信息
// 获取链接对象
Connection connect = Jsoup.connect(site);
// 获取网站的文档对象
Document document = connect.get();

步骤三:分析页面构成获取需要的组件

  • 页面是通过 HTML 标签组成的,可以使用浏览器的开发者工具,找到需要获取的组件。
  • 分析组件的特征,看是否有 id、class 等相关的标识。
  • 根据标识获取组件对象,注意除 id 外,其他标识获取到的都是多个。
  • 有些数据在 HTML 的标签属性中,比如超链接、图片的请求地址在 href、src 属性中,所以还需要搭配attr()方法获取。
    在这里插入图片描述
    下图则是通过浏览器开发者工具分析的截图:
    1、章节的正文在<ul class="chapterlist"></ul>中。
    2、章节的名称在 ul li 的超链接中。
    3、章节的连接在超链接的 href 属性中。
    在这里插入图片描述

代码案例

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.Random;

/**
 * 爬虫案例:爬取数据写入到磁盘。
 * 1、文本
 * 2、图片
 * 爬取小说:
 * 1、小说的网址。
 * 2、分析网站的构成,获取需要的信息。
 * 2.1 HTML的技术
 */
public class JsoupDemo {
    public static void main(String[] args) throws IOException {
        // 网站地址
        String site = "https://www.69shuba.cc/book/64272/";

        // 借助 jsoup 工具获取网站的信息
        // 获取链接对象
        Connection connect = Jsoup.connect(site);
        // 获取网站的文档对象
        Document document = connect.get();

        // 从文档对象中获取需要的组件
        Elements chapterList = document.getElementsByClass("chapterlist");
        Element ul = chapterList.get(1);

        // 获取所有的 a 标签
        Elements as = ul.getElementsByTag("a");

        File file = new File("D://a.txt");
        if(!file.exists()){
            file.createNewFile();
        }

        FileOutputStream fos = new FileOutputStream(file, true);

        // 遍历所有的 a 元素
        for (Element a : as) {
            // 得到章节名称
            String chapterName = a.text() +  "\r\n";

            // 把章节写入到文件
            fos.write(chapterName.getBytes());

            // 获取的是超链接的 href 属性
            String href = a.attr("href");
            href = "https://www.69shuba.cc/book/64272/" + href;

            // 请求章节地址
            Connection chapterConnection = Jsoup.connect(href);
            Document chapterDocument = chapterConnection.get();

            // 获取需要的组件
            Element htmlContent = chapterDocument.getElementById("htmlContent");
            String content = htmlContent.text();

            // 把章节写入到文件
            fos.write(content.getBytes());
            fos.write("\r\n\r\n".getBytes());

            System.out.println("《" + a.text() + "》" + "下载完成!");

            try {
                Random random = new Random();
                Thread.sleep(random.nextInt(5000));
            } catch (InterruptedException e) {
                throw new RuntimeException(e);
            }
        }
        fos.close();
        System.out.println("小说下载完成!");
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/208226.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习---EM算法

1. 极大似然估计与EM算法 极大似然估计是一种常用的参数估计方法&#xff0c;它是以观测值出现的概率最大作为准则。关于极 大似然估计&#xff0c;假设现在已经取到样本值了&#xff0c;这表明取到这一样本的概率L(θ) 比较 大。我们自然不会考虑那些不能使样本出现的θ作为…

高校智慧用电管理平台

高校智慧用电管理平台是一种基于物联网、云计算、大数据等技术的智能化用电管理系统&#xff0c;旨在实现高校用电的实时监测、智能控制、数据分析和管理决策。 具体来说&#xff0c;该平台通常包括以下功能和特点&#xff1a; 实时监测&#xff1a;通过安装传感器、智能终端等…

ZeroTier外网访问实验室Linux服务器

ZeroTier外网访问实验室Linux服务器 1、在ZeroTier上创建一个自己的Network 进入ZeroTier的官网https://www.zerotier.com/注册一个账号 注册完之后登录进去&#xff0c;创建自己的Network 创建完之后来到IPv4的分配管理&#xff0c;选择主机位只有后8位的IP&#xff0c;才能…

img[src=““] img无路径情况下,页面出现边框

在开发过程中遇到一个问题就是当img标签的src为空时&#xff0c;会出现边框&#xff0c;影响美观 其实我们可以直接加上这个就可以解决了 img[src""],img:not([src]){opacity:0; }

金融系统中容易踩坑的问题

1、产品类型指的是大类还是小类 有的产品比如员工贷既是指员工贷小类&#xff0c;也是指员工贷系列的产品&#xff0c;这时候需要关注需求描述的员工贷覆盖范围是产品大类还是小类。 2、未带参数时是否有默认处理 前端传输的某个值为空时&#xff0c;后端是否需要设默认值&a…

夯实c基础

夯实c基础 区别&#xff1a; 图一的交换&#xff0c;&#xff08;交换的是地址而不是两数&#xff09;无法实现两数的交换。 题干以下程序的输出结果为&#xff08; c  &#xff09;。 void fun(int a, int b, int c){ ca*b; } void main( ){ int…

模型层(回顾补充)

1.1基本使用 orm框架---》对象关系映射 数据库中&#xff1a;一个个表 &#xff1a;user表&#xff0c;book表&#xff0c;一条条的记录 程序中&#xff1a;一个个类&#xff0c;一个个对象 以后数据库中一张表---》对应程序中一个类 以后数据库中一条记录--》对应…

ThinkPHP 2.x任意代码执行漏洞

任务一&#xff1a; 复现环境中的代码漏洞 任务二&#xff1a; 尝试利用代码执行漏洞读取服务器web目录下的文件列表。 任务一&#xff1a; 1.搭建环境&#xff1a; 2.在php环境下直接输入{${phpinfo}}测试代码片段 2.写入一句话木马&#xff0c;用antsword连接&#xff0…

C++基础 -24- 覆盖

覆盖的三个条件 -1- 基类和派生类存在同名的函数 -2- 基类的函数为虚函数 -3- 必须使用基类引用或指针指向派生类 #include "iostream"using namespace std;class base {public:base(){}virtual void show(){cout << "base show" << endl;} };…

【LeetCode】栈和队列OJ题---C语言版

栈和队列OJ题 1.括号匹配问题&#xff08;1&#xff09;题目描述&#xff1a;&#xff08;2&#xff09;思路表述&#xff1a;&#xff08;3&#xff09;代码实现&#xff1a; 2.用队列实现栈&#xff08;1&#xff09;题目描述&#xff1a;&#xff08;2&#xff09;思路表述&…

OSI七层模型与TCP/IP四层模型的区别(计算机网络)

一、OSI七层网络模型 OSI 网络模型共有 7 层&#xff0c;分别是应用层、表示层、会话层、传输层、网络层、数据链路层和物理层。 应用层&#xff0c;负责给应用程序提供统一的接口&#xff1b;表示层&#xff0c;负责把数据转换成兼容另一个系统能识别的格式&#xff1b;会话…

NX二次开发UF_MTX2_copy 函数介绍

文章作者&#xff1a;里海 来源网站&#xff1a;https://blog.csdn.net/WangPaiFeiXingYuan UF_MTX2_copy Defined in: uf_mtx.h void UF_MTX2_copy(const double mtx_src [ 4 ] , double mtx_dst [ 4 ] ) overview 概述 Copies the 2x2 matrix elements from the source m…

对外汉语教师简历(精选12篇)

以对外汉语老师招聘需求为背景&#xff0c;我们制作了1份全面、专业且具有参考价值的简历案例&#xff0c;大家可以灵活借鉴&#xff0c;希望能帮助大家在众多候选人中脱颖而出。 对外汉语教师简历下载&#xff08;在线制作&#xff09;&#xff1a;百度幻主简历或huanzhucv.c…

多线程原理和常用方法以及Thread和Runnable的区别

文章目录 &#x1f366;多线程原理&#x1f367;随机性打印&#x1f368;多线程内存图解 &#x1f369;Thread类的常用方法&#x1f36a;获取线程名称 getName()&#x1f382;设置线程名称 setName() 或者 new Thread("线程名字")&#x1f370;使当前正在执行的线程以…

数据挖掘实战:基于 Python 的个人信贷违约预测

本次分享我们 Python 觅圈的一个练手实战项目&#xff1a;个人信贷违约预测&#xff0c;此项目对于想要学习信贷风控模型的同学非常有帮助。 技术交流 技术要学会交流、分享&#xff0c;不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。 好的文章离不开粉丝的分享、…

ssm+java车辆售后维护系统 springboot汽车保养养护管理系统+jsp

以前汽车维修人员只是在汽车运输行业中从事后勤保障工作,随着我国经济的发展,汽车维修行业已经从原来的从属部门发展成了如今的功能齐备的独立企业。这种结构的转变,给私营汽修企业和个体汽修企业的发展带来了契机,私营企业和个体维修企业的加入也带动了整个汽修行业的整体水平…

Python中进行特征重要性分析的8个常用方法

更多资料获取 &#x1f4da; 个人网站&#xff1a;ipengtao.com 在机器学习和数据科学领域&#xff0c;理解特征在模型中的重要性对于构建准确且可靠的预测模型至关重要。Python提供了多种强大的工具和技术&#xff0c;能够探索特征重要性的各个方面。 本文将详细介绍8种常用…

Linux系统:使用CloudDrive实现云盘本地挂载

此处以不使用Docker服务 系统&#xff1a; Ubuntu22.04 硬件信息&#xff1a; x86_64 1 安装CloudDrive CloudDrive下载地址 在服务器上安装fusemount3 sudo apt-get -y install fuse3下载对应版本的CloudDrive压缩包&#xff0c;我的机器为&#xff1a;clouddrive-2-linux-…

外汇天眼:外汇市场是由哪些层级构成?

除了一般投资人外&#xff0c;外汇市场基本上可分为以下三个层级&#xff1a; 第一层级&#xff1a;顶级做市商 顶级做市商&#xff1a;各大大型银行、央行和一些非银行做市商 根据2016年的Euromoney调查外汇显示&#xff1a;外汇市场最顶端的无疑是各大银行做市商&#xff…

【IEEE出版|往届均已成功EI检索】2024年第四届消费电子与计算机工程国际学术会议(ICCECE 2024)

2024年第四届消费电子与计算机工程国际学术会议&#xff08;ICCECE 2024&#xff09; 2024 4th International Conference on Consumer Electronics and Computer Engineering 进入21世纪以来&#xff0c;计算机技术的高速发展带来了消费电子产品的快速更迭。在技术迅速发展历…