当当图书网数据采集分析:10万条数据的深入洞察

基于搜索结果,我将为您提供一个关于当当图书网数据采集的文章框架,假设我们已经有了10万条数据的采集结果。请注意,由于没有具体的数据文件,以下内容将是一个示例性的框架,您可以根据实际采集到的数据进行填充和调整。


当当图书网数据采集分析:10万条数据的深入洞察

引言

在数字化时代,数据成为了理解和预测市场趋势的关键。本文将展示如何通过数据采集技术从当当图书网获取10万条图书数据,并对其进行分析,以揭示图书市场的一些有趣现象和趋势。

数据采集

采集工具与方法

  • 使用Python语言结合requests和lxml库进行网络爬虫开发。
  • 通过XPath表达式精确提取图书信息,包括书名、作者、单价、出版日期、出版社和书籍简介。

数据采集过程

  1. 确定采集目标和关键字。
  2. 发送HTTP请求获取网页内容。
  3. 解析网页,提取所需数据。
  4. 遍历多页以获取更多信息。
  5. 异常处理和数据存储。

数据处理

数据清洗

  • 使用pandas库进行数据清洗,移除不完整或错误的记录。
  • 转换数据类型,确保数据的一致性和准确性。

数据存储

  • 将清洗后的数据存储至Excel文件和数据库中,以便进一步分析。

数据分析

书籍价格分布

  • 分析不同价格区间的图书数量,揭示市场的价格偏好。

出版社影响力

  • 统计各出版社的图书数量,评估市场影响力。

作者贡献度

  • 计算每位作者的图书数量,识别市场上的热门作者。

评论分析

  • 分析图书评论的分布情况,了解读者的反馈和偏好。

数据可视化

价格分布图

  • 柱状图展示不同价格区间的图书数量。

出版社排名图

  • 折线图展示出版社的图书数量排名。

作者出书数量图

  • 条形图展示作者的出书数量。

评论热力图

  • 热力图展示图书评论的分布情况。

结论

通过对10万条当当图书网数据的采集和分析,我们能够深入理解当前图书市场的动态,为出版社、作者和读者提供有价值的市场洞察。


在这里插入图片描述

完整代码

def get_page_tree(url):
    from requests.adapters import HTTPAdapter
    page = requests.session()
    page.mount('http://',HTTPAdapter(max_retries=80))
    page.mount('https://',HTTPAdapter(max_retries=80))
    page = page.request("GET",url=url,timeout=120)
    print('page ' , page ,page.text)

    tree = etree.HTML(page.text)
    return tree


# xpath语法 获取li对象 因为li标签不只一个 所以用lis
def get_lis(tree):
    lis = tree.xpath('//*[@id="search_nature_rg"]/ul/li')
    return lis


def deal_save(url , pressN,page_index):
    global sum
    global row
    tree = get_page_tree(url)
    # 获取到lis对象
    lis = get_lis(tree)
    # time.sleep(random.randint(1,3))
    print("正在爬取...", url)
    # 遍历lis 返回index下标和item
    try:
        for c, i in enumerate(lis):
            # 根据xpath规则提取图书标题
            name = i.xpath('a/@title')
            name = str(name[0])
            name = name.strip()
            # 根据xpath规则提取图书描述
            desc = i.xpath('p[2]/text()')
            # 根据xpath规则提取图书价格和该书电子书的价格
            price_normal = i.xpath('p[3]/span[1]/text()')  # 纸质书的价格

            price_normal = price_normal[0]
            price_net = i.xpath('p[3]/a/i/text()')  # 电子书的价格
            # 根据xpath规则提取图书的作者
            author = i.xpath('p[@class="search_book_author"]/span[1]/a/text()')  # 作者
            if len(author) == 0:
                author = '没有作者'
            else:
                author = author[0]
            # 根据xpath规则提取图书出版时间
            press_time = i.xpath('p[@class="search_book_author"]/span[2]/text()')
            if len(press_time) == 0:
                press_time = '出版时间为空'
            else:
                press_time = press_time[0][2:]
            # 根据xpath规则提取图书出版社
            press = i.xpath('p[@class="search_book_author"]/span[3]/a/text()')
            if len(press) == 0:
                press = '出版社为空'
            else:
                press = press[0]
            if len(desc) != 0:
                desc = desc[0]
            else:
                desc = "null"
            if len(price_net) != 0:
                price_net = price_net[0]
            else:
                price_net = "暂无电子书"
            sum += 1
            # 输出信息
            print('第{}页--第{}条数据--累计爬取{}条:'.format(page_index, c, sum))
            print('书名:《{}》'.format(name))
            print('图书价格:{}'.format(price_normal))
            print('电子书价格:{}'.format(price_net))
            print('作者:{}'.format(author))
            print('出版社:{}'.format(press))
            print('出版时间:{}'.format(press_time))
            print('*' * 25)
            time.sleep(0.1)
            # 保存信息
            sheet.write(row, 0, name)
            sheet.write(row, 1, desc)
            sheet.write(row, 2 , price_normal)
            sheet.write(row, 3 , price_net)
            sheet.write(row, 4 , author)
            sheet.write(row, 5 , press_time)
            sheet.write(row, 6 , press)
            row = row + 1

    except Exception as e:
        print(e)



# 主要爬虫程序  遍历给定出版社 所有的图书
def start (url , pressN):
    # 获取page的etree
    new_url = url.format(press_name, 1)
    tree = get_page_tree(new_url)
    # 获取该出版社展示图书总页数
    total = tree.xpath('//*[@id="12810"]/div[5]/div[2]/div/ul/li[9]/a/text()')[0]
    print('{}一共{}页'.format(pressN,total))
    # 全局变量的sum 总数
    global sum
    # time.sleep(2)
    # 线程保存的数组
    threads = [ ]
    # 遍历所有页面 从1到total
    for page_index in range(1, int(total) + 1):
        time.sleep(0.2)
        temp_url = url.format(pressN,page_index)
        temp_t = Thread(target=deal_save , args = ( temp_url,press_name,page_index, ))
        threads.append(temp_t)
        temp_t.start()
    for index, t in enumerate(threads):
        t.join()


if __name__ == '__main__':
    # 通过file读取所有出版社 保存为list数组
    s = time.time()
    press = []


    with open('Press.txt' , 'r' , encoding='utf-8') as f :
        a = f.read()
        f.close()
    # 拆封数据
    press = a.split('\n')
    url = 'http://search.dangdang.com/?key={}&page_index={}'
    # 遍历所有出版社
    for press_name in press:
        start(url , press_name)
        print('正在采集{}'.format(press_name))

    end = time.time()
    book.save('当当网图书汇总.xlsx')
    print(  '共花费:' ,str((end-s) ) , 's ,共计爬取:{}条'.format(sum))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/549859.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI人工智能老师大模型讲师叶梓 OneLLM:开创性的多模态大型语言模型技术

在人工智能领域,多模态大型语言模型(MLLM)的研究一直是一个热门话题。近期,一种名为OneLLM的创新技术引起了业界的广泛关注。OneLLM通过其独特的统一框架,实现了多种不同模态与自然语言的高效对齐,为多模态…

什么是NAT!

一、NAT( network address translation) 网络地址翻译 为什么会出现这个技术,目的就是用来解决ipv4 地址不够用的情况,因为在互联网最开始的时候,有一个概念是拥有合法IP地址,每个主机连接到互联网必须要…

Big Data and Cognitive Computing (IF=3.7) 计算机/大数据/人工智能期刊投稿

Special Issue: Artificial Cognitive Systems for Computer Vision 欢迎计算机/大数据/人工智能/计算机视觉相关工作的投稿! 影响因子3.7,截止时间2024年12月31日 投稿咨询:lqyan18fudan.edu.cn 投稿网址:https://www.mdpi.com/j…

RK3568笔记二十二:基于TACO的垃圾检测和识别

若该文为原创文章,转载请注明原文出处。 基于TACO数据集,使用YOLOv8分割模型进行垃圾检测和识别,并在ATK-RK3568上部署运行。 一、环境 1、测试训练环境:AutoDL. 2、平台:rk3568 3、开发板: ATK-RK3568正点原子板子…

Ubuntu Vs code配置ROS开发环境

文章目录 1.开发环境2.集成开发环境搭建2.1 安装Ros2.2 安装 Vs code2.3 安装vs code 插件 3.Vs code 配置ROS3.1 创建ROS工作空间3.2 从文件夹启动Vs code3.3 使用Vscode 编译ROS 空间3.4 使用Vs code 创建功能包 4.编写简单Demo实例4.1编写代码4.2编译与执行 1.开发环境 系统…

(文章复现)分布式电源选址定容的多目标优化算法

参考文献: [1]夏澍,周明,李庚银.分布式电源选址定容的多目标优化算法[J].电网技术,2011,35(09):115-121. [2] Ye Tian, Ran Cheng, Xingyi Zhang, and Yaochu Jin, “PlatEMO: A MATLAB platform for evolutionary multi-objective optimization [educational for…

毕设论文的分类号与UDC查询

对于毕业论文分类号与UDC,可以根据个人研究领域查询。 中图分类号查询链接: 中图分类号查询 | 中国图书馆分类法 | 中图法 | 中图分类号 (clcindex.com)https://www.clcindex.com/category/ UDC查询链接: UDC Summaryhttps://udcsummary.info/php/ind…

探秘计算机内部的魔法:模拟计算机内部的怎么使用门电路实现运算的奥秘

1.前言 在当今数字时代,我们享受着计算机带来的便利和效率,但很少有人意识到在计算机背后的神秘世界。计算机内部运算的奥秘并非仅仅是一系列简单的加减乘除,而是依托着深奥的门电路与位运算符展开的神秘舞蹈。在这篇博客中,我们…

Web3与社会契约:去中心化治理的新模式

在数字化时代,技术不断为我们提供新的可能性,而Web3技术作为一种基于区块链的创新,正在引领着互联网的下一波变革。它不仅改变了我们的经济模式和商业逻辑,还对社会契约和权力结构提出了全新的挑战和思考。本文将深入探讨Web3的基…

OpenAI宣布GPT-4-Turbo全面升级,GPT-4 Turbo 新增视觉理解能力,可同时处理文本和图像信息

OpenAI宣布GPT-4-Turbo全面升级,GPT-4 Turbo with Vision新增视觉理解能力,可同时处理文本和图像信息,极大简化了开发流程。 OpenAI宣布GPT-4 Turbo全面升级!根据官方说法,这一波 GPT 的升级包括: 更长的上…

Buck变换电路

Buck变换电路 Buck变换电路是最基本的DC/DC拓扑电路,属于非隔离型直流变换器,其输出电压小于输入电压。Buck变换电路具有效率高、输出稳定、控制简单和成本低的优点,广泛应用于稳压电源、光伏发电、LED驱动和能量回收系统。 电路原理 Buck变…

bestvike --bvframe学习

ref title fetch后台api 分页属性,pagination 要差几条?pagelimit 在api中写一个饭方法,vue中用用他 vue.cinfig.js中配置别名 nacos微服务 实体类要继承basedata(封装了公共数据) 控制器autowired,getm…

【Java开发指南 | 第四篇】Java常量、自动类型转换、修饰符

读者可订阅专栏:Java开发指南 |【CSDN秋说】 文章目录 Java常量自动类型转换Java修饰符 Java常量 常量在程序运行时是不能被修改的。 在 Java 中使用 final 关键字来修饰常量,声明方式和变量类似: final double PI 3.1415927;自动类型转换…

大数据平台搭建2024(一)

一:基础配置 创建虚拟机并查出ip地址进行连接 ip a1.配置node01静态ip地址与主机名 vi /etc/sysconfig/network-scripts/ifcfg-ens33修改或添加如下内容: BOOTPROTO"static" ONBOOTyes #根据虚拟机网卡信息配置 IPADDR192.168.200.141 NET…

ENVI实战—一文学会使用GLT配准工具对风云数据进行几何校正

实验2:学会使用GLT配准工具 目的:完成气象卫星数据的校正,掌握利用GLT配准工具实验地理配准的方法 过程: ①读取影像:选择“文件”,选择“HS5”文件并打开,在弹出的科学数据集浏览器中&#x…

秘塔和Kimi AI在资料查询和学习中的使用对比

一、引言 最近老猿在网上查资料时,基本上都使用Kimi AI进行查询,发现其查询资料后总结到位,知识点的准确度较高。今天早上收到一个消息,说新推出的秘塔AI比Kimi更新进,老猿利用在学习的《统计知识学习》简单对比试用了…

JS算法题:找到数组中第 k 大的元素

问题描述: 给定一个未排序的整数数组,找到其中第 k 大的元素。注意,你可以假设 k 总是有效的,且 1 ≤ k ≤ 数组的长度。 举个例子: 如果给定数组是 [3,2,1,5,6,4],k 是 2,那么第 2 大的元素…

每日OJ题_BFS解决FloodFill①_力扣733. 图像渲染

目录 BFS解决FloodFill简介 力扣733. 图像渲染 解析代码 BFS解决FloodFill简介 FloodeFill算法即填充算法,中文:洪水灌溉,算法原理就是从一个点开始向四周扩散,向周围可以走到的点填充颜色,直到将可扩散到的点全部填…

(踩坑)Please refer to 异常和Error creating bean with name 异常

一、Please refer to 异常 如图所示,在使用maven构建项目的时候,如果提示该错误,则可能是xml配置文件有问题或者测试类等。但是没有明确的异常信息,所以做以下小改动,可以查看异常信息。 在IDEA工具中,打…

【C/C++笔试练习】read函数、虚拟存储、用户态、线程特点、缺页处理、调度算法、进程优先级、锁的使用、创建进程、不用加减乘除做加法、三角形

文章目录 C/C笔试练习选择部分(1)read函数(2)虚拟存储(3)用户态(4)线程特点(5)缺页处理(6)调度算法(7)进程优先…
最新文章