Node.js简易爬虫

流stream

流是一组有序的、有起点和终点的字节数据的传输方式,在应用程序中各种对象之间交换与传输数据时,总是先将该对象中所包含的数据转换成各种形式的流数据(即字节数据),再通过流的传输,到达目的对象之后,再将数据转换为该对象中可以使用的数据

在Node的fs模块定义了一些与流相关的API

  1. fs.createReadStream:得到一个ReadableStream
  2. fs.createWriteStream:得到一个WritableStream
  •  data:当有数据可读时触发
  • end:没有更多的数据可读时触发
  • error:在接收和写入过程中发生错误时触发
  • finish:所有数据已被写入到底层系统时触发 
const fs = require('fs');
let readStream = fs.createReadStream('E:\\GR\\nodejs\\test01\\lab06\\demo\\data.txt');
let str = "";
readStream.on('data', function(chunk){
    str += chunk + "=======";
});
readStream.on('end', function(){
    console.log(str);
});
readStream.on('error', function (err){
    throw err;
});
const fs = require('fs');
let writeStream = fs.createWriteStream('E:\\GR\\nodejs\\test01\\lab06\\demo\\data.txt');
let data = "hello\n";
let data1 = "nice to meet you";
writeStream.write(data, 'utf8');
writeStream.write(data1, 'utf8');
writeStream.end();
writeStream.on('finish', function (){
    console.log('完成');
});
writeStream.on('error', function (err){
    console.log(err);
});
console.log('执行完成');

管道pipe

管道提供了一个输出到输入流的机制。通常我们用于从一个流中获取数据并将数据传递到另外一个流中。实现了大文件的复制过程

const fs = require('fs');
let readStream = fs.createReadStream('E:\\GR\\nodejs\\test01\\lab06\\demo\\data.txt');
let writeStream = fs.createWriteStream('data1.txt');
readStream.pipe(writeStream);
console.log('success');

 第三方模块cheerio

npm install cheerio -s

cheerio是jquery核心功能的一个快速灵活而又简介的实现,主要是为了用在服务器端需要对DOM进行操作的地方

const cheerio = require('cheerio');
const $ = cheerio.load('<h2 class="title">Hello World</h2>');
$('h2.title').text('Hello there!');
$('h2').addClass('welcome');
$.html()

第三方模块gbk

 Convert gbk to utf-8 made easy

npm install gbk -s

// got an utf-8 string:
let utf8String = gbk.toString('utf-8', gbkBuffer);
// make another GBK buffer:
let anotherGbkBuffer = gbk.toBuffer('gbk', utf8String);
// save a buffer:
fs.writeFile('xxx.html', anotherGbkBuffer, function(err){
    if(err)
        return throw err;
    console.log('original gbk file saved!');
})

 简易爬虫案例

const fs = require('fs');
const https = require('https');
const gbk = require('gbk');
const cheerio = require('cheerio');
let url = 'https://www.hao123.com/?src=from_pc_logon';
https.get(url, function (res) {
    let chunks = [];
    let size = 0;
    res.on('data', function (chunk){
        // console.log(chunk);
        chunks.push(chunk);
        size =  size + chunk.length;
    });
    res.on('end', function(){
        console.log('数据传输完毕');
        // console.log(chunks.toString());
        let data = Buffer.concat(chunks, size);//Buffer.concat将chunks数组中的缓冲数据拼接起来,返回一个新的Buffer对象赋值给data
        // let html = gbk.toString('utf-8', data);
        let html = data.toString();
        // console.log(html);
        const $ = cheerio.load(html);
        let result = [];
        $('#govsite-top').find('.g-gc').each(i=>{
            let map = {}
            map.title = $('.g-gc').eq(i).text();
            result.push(map);
            map = {}
        })
        // console.log(result);
        fs.writeFile('./title.txt', JSON.stringify(result), {'flag': 'a'}, function(err){
            if(err){
                console.log('写入错误');
            }else {
                console.log('写入成功');
            }
        })

    });
})
const fs = require('fs');
const https = require('https');
const cheerio = require('cheerio');
let baseUrl = 'https://www.imooc.com/search/';
let currPage = 1;

function crawlData(page) {
    let timer = setInterval(function () {//设置定时器来抓取数据
        if (currPage > page) {
            clearInterval(timer);
        } else {
            console.log('第' + currPage + '发出请求');
            let url = baseUrl + `?words=node&page=${currPage}`;
            getDataPackage(url, currPage);
            currPage++;
        }
    }, 4000)
}

function getDataPackage(url, currPage) {
    console.log(url);
    https.get(url,function(res){
        let chunks = [],
        size = 0;
        res.on('data',function(chunk){
            chunks.push(chunk);
            size = size + chunk.length
        })
        res.on('end',function(){
            console.log('第' + currPage + '个数据包传送完毕');
            let data = Buffer.concat(chunks,size)
            let html = data.toString()
            const $ = cheerio.load(html);
            let result = [];
            $('.search-course-list').find('.search-item').each(i=>{
                let map = {}
                map.title = $('.item-detail').eq(i).find('.item-title').text().trim()
                map.content = $('.item-detail').eq(i).find('.item-desc').text().trim()
                map.imgUrl = $('.item-img').eq(i).find('img').attr('src')

                downLoadImg(`https:${map.imgUrl}`,`第${currPage}页-${i}.${map.title}.jpg`)
                result.push(map)
                map = {}

            })
        })
    })
  
}

function downLoadImg(url,name){
    https.get(url,function(res){
        res.pipe(fs.createWriteStream('./images/' + name + '.jpg'))
    })
}

crawlData(2);
爬虫:
let https=require('https');
let fs=require('fs');
let path=require('path');
let gbk=require('gbk');
let cheerio=require('cheerio');
//使用http模块发起请求 获取响应数据
let url="https://search.51job.com/list/030000,000000,0000,00,9,99,node,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=";
https.get(url,function (res) {
    let chunks=[],size=0;
    res.on('data',function (chunk) {
        chunks.push(chunk);
        size=size+chunk.length;
    });
    res.on('end',function(){
        console.log('数据包传输完毕');
        let data=Buffer.concat(chunks,size);
        //console.log(data);
        //let html=data.toString('utf-8');
        let html=gbk.toString('utf-8',data);
        //console.log(html);
        let $=cheerio.load(html);
        let result=[];
          //console.log($(".el").find('el'));
        $("#resultList").find('.el').each(i=>{
            let map={};
            map.t1=$('.t1').eq(i).find("a").attr('title');
            map.t2=$('.t2').eq(i).find("a").text();
            map.t3=$('.t3').eq(i).text();
            map.t4=$('.t4').eq(i).text();
            map.t5=$('.t5').eq(i).text();
            result.push(map);
            map={};
        });
        //  console.log(result)
        //let dataStr = JSON.stringify(result).trim().replace(/^\[/, curPage == 1 ? '[' : '').replace(/\]$/, curPage == 10 ? ']' : ',');
        fs.writeFile('./content.txt',JSON.stringify(result),{'flag':'a'},function (err) {
            if (err) {
                throw err;
            }
            console.log('读取成功!')
        })
    });
    res.on('error',function (err) {
        if (err){
            throw  err;
        }
    })
});

爬虫改进:
let https=require('https');
let fs=require('fs');
let path=require('path');
let gbk=require('gbk');
let cheerio=require('cheerio');
//使用http模块发起请求 获取响应数据
//let baseUrl="https://search.51job.com/list/030000,000000,0000,00,9,99,node,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=";
let baseUrl='https://search.51job.com/list/030000,000000,0000,00,9,99,node,2,';
let currentPage=1;
function crawlData(page){
    let time=setInterval(function () {
        if(currentPage>page){
            clearInterval(time);
        }else{
            console.log('第'+currentPage+'请求发出');
            getDataPackage(baseUrl+currentPage+'.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=', currentPage);
            currentPage++;
        }
    },1000*5);
}

function getDataPackage(url,curPage) {
    console.log(url);
    https.get(url,function (res) {
        let chunks=[],size=0;
        res.on('data',function (chunk) {
            chunks.push(chunk);
            size=size+chunk.length;
        });
        res.on('end',function(){
            console.log('数据包传输完毕');
            let data=Buffer.concat(chunks,size);
            //console.log(data);
            //let html=data.toString('utf-8');
            let html=gbk.toString('utf-8',data);
            //console.log(html);
            let $=cheerio.load(html);
            let result=[];
            //console.log($(".el").find('el'));
            $("#resultList").find('.el').each(i=>{
                let map={};
                map.t1=$('.t1').eq(i).find("a").attr('title');
                map.t2=$('.t2').eq(i).find("a").text();
                map.t3=$('.t3').eq(i).text();
                map.t4=$('.t4').eq(i).text();
                map.t5=$('.t5').eq(i).text();
                result.push(map);
                map={};
            });
            //  console.log(result)
            //let dataStr = JSON.stringify(result).trim().replace(/^\[/, curPage == 1 ? '[' : '').replace(/\]$/, curPage == 10 ? ']' : ',');
            fs.writeFile('./content.txt',JSON.stringify(result),{'flag':'a'},function (err) {
                if (err) {
                    throw err;
                }
                console.log('读取成功!')
            })
        });
        res.on('error',function (err) {
            if (err){
                throw  err;
            }
        })
    });
}

crawlData(14)
const https=require('https')
let fs=require('fs');
let path=require('path');

let url="https://www.seig.edu.cn/sise/fengmian/fmgs_59/xiaoyuanfengjing.html"
let options={
    headers:  {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36',
    }
}
https.get(url,options,res => {
    let content='';
    res.setEncoding('binary');//二进制
    res.on('data',function (str) {
        content+=str;
    });
    res.on('end',function (){
        console.log(content)
        let reg=/src="(.*?\.jpg)"/img;   // i不区分大小写 m多行 g全局匹配
        let filename;
        while (filename=reg.exec(content)){
            console.log(filename[1])
            getImage(filename[1])
        }
    })
})

function getImage(url){
    let obj=path.parse(url)
    let imgName=obj.base;
    // console.log(obj);
    let stream=fs.createWriteStream('./file/'+imgName)
    if (obj.root.length===0){
        url='/'+url
    }
    url="https://www.seig.edu.cn/sise/fengmian/fmgs_59"+url
    https.get(url,function (res) {
        res.setEncoding('binary');
        res.pipe(stream)
    })
}

puppeteer 可以用于开启一个无界面的 chrom 浏览器(又称无头浏览器)进程,用代码实现操控浏览器的操作

puppeteer教程_香香鸡的博客-CSDN博客

const puppeteer = require('puppeteer')
const fs=require('fs')
const https = require('https')

let url = 'https://image.baidu.com'
async function spider(){
    const browser = await puppeteer.launch({
        slowMo:100,
        devtool:true,
        headless:false
    })

    const page = await browser.newPage();
    await page.setViewport({
        height:800,
        width:800,
    })

    await page.goto(url)
    await page.focus('#kw')
    await page.keyboard.sendCharacter('汽车')
    await page.click('.s_newBtn')
    page.on('load',async function(){
        const sources = await page.evaluate(async function(){
            const images = document.getElementsByClassName('main_img')
            //console.log(images);
            return [...images].map(img=>img.src)
        })
        //console.log(sources);
        for (let i = 0; i < sources.length; i++){
            //console.log(sources[i]);
            if (/^https:|http:/.test(sources[i])){
                await page.goto(sources[i])
                https.get(sources[i],res => {
                    res.pipe(fs.createWriteStream('./images/'+i+'.webp'))
                })
            }
        }
    })
}

spider().then(r =>{} )

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/13078.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C/C++每日一练(20230417)

目录 1. 字母异位词分组 &#x1f31f;&#x1f31f; 2. 计算右侧小于当前元素的个数 &#x1f31f;&#x1f31f;&#x1f31f; 3. 加一 &#x1f31f; &#x1f31f; 每日一练刷题专栏 &#x1f31f; Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 J…

通过简单demo让你秒懂Python的编译和执行全过程

基本说明 python 是一种解释型的编程语言&#xff0c;所以不像编译型语言那样需要显式的编译过程。然而&#xff0c;在 Python 代码执行之前&#xff0c;它需要被解释器转换成字节码&#xff0c;这个过程就是 Python 的编译过程。 DEMO演示讲解 假设我们有以下 Python 代码&…

Session使用和原理分析图与实现原理-- 代码演示说明 Session 的生命周期和读取的机制代码分析

目录 Web 开发会话技术 -Session —session 技术 session 基本原理 Session 可以做什么 如何理解 Session Session 的基本使用 session 底层实现机制 原理分析图 代码演示 CreateSession.java 测试 Session 创的机制&#xff0c; 注意抓包分析​编辑 ReadSession.j…

python+vue 基于推荐算法的在线电影视播放网站

以广大影视剧迷们为研究对象&#xff0c;深入了解影视剧迷对在线视频观看视频的需求进行分析&#xff0c;形成系统需求分析设计一个符合影视剧迷们需求的在线视频网站。设计网站的前期工作包括对系统的各个功能进行详细分析&#xff0c;对数据库设计进行详细的描述&#xff0c;…

【C++】STL理解【容器】

【C】STL理解【容器】 1. STL概念引入 长久以来&#xff0c;软件界一直希望建立一种可重复利用的东西&#xff0c;以及一种得以制造出”可重复运用的东西”的方法&#xff0c;从函数(functions)&#xff0c;类别(classes),函数库(function libraries),类别库(class libraries…

nssctf web 入门(6)

这里通过nssctf的题单web安全入门来写&#xff0c;会按照题单详细解释每题。题单在NSSCTF中。 想入门ctfweb的可以看这个系列&#xff0c;之后会一直出这个题单的解析&#xff0c;题目一共有28题&#xff0c;打算写10篇。 目录 [SWPUCTF 2021 新生赛]caidao [SWPUCTF 2021 新…

GitLab与jekins结合构建持续集成(cl)环境(2)

目录 GItlab配置邮箱 绑定邮箱 创建群组 添加人员 创建一个项目 添加文件 新建分支 如何拉取代码 Git bash 演示 Git GUI演示 安装jenkins 更改插件镜像源 配置jenkins使用gitlab更新代码 安装jekins插件 配置jenkins免密拉取gatlab代码 jenkins创建项目 将代码…

VUE基本使用详解

目录 一、VUE框架原理 1. 了解VUE框架 2. VUE框架原理 3. MVC设计模式 4. MVVM设计模式 二、引入VUE框架 1. 本地引入 2. 网络引入 三、安装Vue插件 一、VUE框架原理 1. 了解VUE框架 vue 框架 是基于MVVM设计模式的前端框架&#xff0c;其中的Vue对象是MVVM设计模式中的VM视图…

Zebec Protocol 出席香港 Web3 峰会,带来了哪些信息?

梳理香港加密新政的细节&#xff0c;一个明确的脉络是&#xff0c;香港加密新政的整体目的是令虚拟资产交易明确化和合法化&#xff0c;通过不断完善的监管框架&#xff0c;促进香港虚拟资产行业的可持续和负责任地发展。 在加强合规和持牌经营的监管思路下&#xff0c;长期审慎…

TensorFlow 和 Keras 应用开发入门:1~4 全

原文&#xff1a;Beginning Application Development with TensorFlow and Keras 协议&#xff1a;CC BY-NC-SA 4.0 译者&#xff1a;飞龙 本文来自【ApacheCN 深度学习 译文集】&#xff0c;采用译后编辑&#xff08;MTPE&#xff09;流程来尽可能提升效率。 不要担心自己的形…

《简化iOS APP上架流程,App Uploader助你搞定!》

转载&#xff1a;Appuploader常见问题 Appuploader 常见错误及解决方法 问题解决秘籍 遇到问题&#xff0c;第一个请登录苹果开发者官网 检查一遍账号是否有权限&#xff0c;是否被停用&#xff0c;是否过期&#xff0c;是否有协议需要同意&#xff0c;并且在右上角切换账号后…

页表结构详细说明

一、页表 1. 内存地址的分解 我们知道linux采用了分页机制&#xff0c;通常采用四级页表&#xff0c;页全局目录(PGD)&#xff0c;页上级目录(PUD)&#xff0c;页中间目录(PMD)&#xff0c;页表(PTE)。如下&#xff1a; 其含义定义在arch/arm64/include/asm/pgtable-hwdef.…

HCIP-6.9BGP路由反射器原理与配置

路由反射器原理与配置 1、路由反射器概念1.1、路由反射器原理&#xff1a;1.2、多集群路由反射器1.3、备份路由反射器2、路由反射器配置3、路由反射器防环机制 1、路由反射器概念 IBGP的水平分割&#xff0c;IBGP 1只能update一跳&#xff0c;就是说在IBGP 2 设备收到IBGP 1设…

密码学|DES加密算法|学习记录

DES简介 DES属于对称密码算法中的分组加密算法 密钥一共64bit&#xff0c;其中56位参与运算&#xff0c;其余8bit为校验位&#xff08;8 16 24 32 40 48 56 64&#xff09; n个64位明块经过加密后得到的n个64位密文块加在一起就是密文 DES一般步骤 IP置换 &#xff1a; IP置…

Python中的异常——概述和基本语法

Python中的异常——概述和基本语法 摘要&#xff1a;Python中的异常是指在程序运行时发生的错误情况&#xff0c;包括但不限于除数为0、访问未定义变量、数据类型错误等。异常处理机制是Python提供的一种解决这些错误的方法&#xff0c;我们可以使用try/except语句来捕获异常并…

AI已经解锁自动化能力 | 颠覆商业模式和劳动力市场

AI已经解锁自动化能力&#xff0c;将颠覆商业模式和劳动力市场。目前AutoGPT的开源项目&#xff1a; BabyAGI、Auto-GPT、AgentGPT、TeenagerAGI、Jarvis。 AutoGPT原理&#xff1a; 3个GPT4协同合作&#xff0c;一个GPT4负责分解目标创建任务&#xff0c;另一个GPT4负责分配…

C# switch case语句入门and业务必知点

具体的语法形式如下。 switch(表达式) { case 值 1: 语句块 1; break; case 值 2: 语句块 2; break; ... default: 语句块 n; break; } 在这里&#xff0c;switch 语句中表达式的结果必须是整型、字符串…

Linux用户的分类与家目录,ls、pwd、cd、mkdir、touch、rmdir、rm指令与选项等

Linux中用户的分类与用户的家目录 在Linux当中&#xff0c;用户的分类只分为两类&#xff0c;一类叫做超级用户root&#xff0c;还有就是其他也就是传说中的普通用户。我们刚刚登进去时&#xff0c;默认所处的目录是***/root或者/home/用户名***&#xff0c;比如说/root, /hom…

Unity InputSystem (一)

什么是InputSystem InputSystem 是 2019 年 Unity 新推出的插件&#xff0c;输入系统包实现了一个系统来使用任何类型的输入设备来控制你的 Unity 内容。它旨在成为 Unity 的经典输入管理器更强大、更灵活、更可配置的替代品。 新输入系统基于事件&#xff0c;输入设备和动作逻…

信安大佬真的用kali吗?

Kali只是现在网络安全和kali比较火的一个操作系统 下面我为大家讲讲kali系统都有那些优点 Kali介绍Kali Linux是基于Debian的Linux发行版&#xff0c; 设计用于数字取证操作系统。面向专业的渗透测试和安全审计。 集成化&#xff1a;预装超过300个渗透测试工具兼容好&#x…