SAX解析XML返回对应格式的Map对象

前言

 

最近有一个解析大型xml的需求,xml大小7M,其中xml结构非常复杂,元素各种嵌套

不乏有元素下对象,元素下集合,集合下对象,集合下集合,兄弟不同元素节点,元素下对象下集合,同一元素下不同对象和集合...很复杂

注意:本方式无法解析递归元素,文末给出解决方式

 简介

本文使用了SAX解析XML,SAX对内存比较友好,但是对于编码比较复杂,但是本篇代码量不是很多,主要都集中在一个继承了DefaultHandler的处理类,该处理类中主要使用了两个方法,分别是startElement和endElement。

 阅读必读

比较难理解的是xml节点复杂关系的呈现,大概设计思路是定义三个map和一个int类型的下标值,三个map的作用是第1个map存储结果集第2个map记录元素下标对应的key第3map个记录下标key所属的元素对象。当startElement开始读取节点元素时将该元素的节点名称存储至第2个map并将该对象以该元素的节点名称存储至第三个map中,然后将int类型的下标值手动+1,最后当元素节点读取结束时开始组装格式,下面是代码呈现

package com.syasuo.xml;

import com.alibaba.fastjson.JSON;
import lombok.extern.slf4j.Slf4j;
import org.springframework.util.CollectionUtils;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import java.util.*;

/**
 * @author SYASUO
 * @date 2023/6/19 13:46
 */
@Slf4j
public class MyDefaultHandler extends DefaultHandler {
    
    //存储结果集
    private Map<String,Object> resultMap = new HashMap<>();
    
    //用下标标记key
    private Map<Integer,String> indexKeyMap = new HashMap<>();

    //下标标记的所属key的对象
    private Map<String,Map<String,Object>> indexKeyMapObj = new HashMap<>();
    
    //记录元素节点对应的下标,初始给0
    private int index = 0;
    
    @Override
    public void startDocument() throws SAXException {
        log.info("------------------------------XML读取开始------------------------------");
    }

    /**
     * 开始读取XML元素,每次记录下标对应的kay和该key对应的对象
     */
    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        Map<String,Object> node = new HashMap<>();
        for (int i = 0; i < attributes.getLength(); i++) {
            node.put(attributes.getQName(i),attributes.getValue(i));
        }
        indexKeyMap.put(index,qName);
        indexKeyMapObj.put(qName,node);
        index++;
    }

    /**
     * 元素节点读取结束时,由于index在startElement中执行了+1操作,
     * 因此获取对应节点的父级节点时需要先执行index-1操作得到当前节点下标,在当前节点下标位再次执行-1操作得到父级节点
     * 取到父级节点时需要判断父级包不包含该节点,如果包含就说明该节点是一个List集合,否则就作为一个单独的对象放入父级对象中
     * 最后给resultMap结果集对象赋值即可
     */
    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        Map<String,Object> curObj = indexKeyMapObj.get(qName);
        int j = --index;
        if(j > 0){
            j--;
            String qname = indexKeyMap.get(j);
            Map<String,Object> parent = indexKeyMapObj.get(qname);
            if(parent.containsKey(qName)){
                List<Map<String,Object>> list = new ArrayList<>();
                //System.out.println(parent.get(qName).getClass().getTypeName());
                if(parent.get(qName).getClass().getSimpleName().equals("HashMap")){
                    list.add((Map<String, Object>) parent.get(qName));
                }else{
                    list.addAll((Collection<? extends Map<String, Object>>) parent.get(qName));
                }
                //将当前节点对象加入当前对象集合
                list.add(curObj);
                parent.put(qName,list);
            }else{
                parent.put(qName,curObj);
            }
            resultMap = parent;
        }
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
      /*
        String element = new String(ch,start,length);
        log.info("该方法只有在【<ele>标签值</ele>】这种类型的标签下才能有效获取");
        */
    }

    /*
     * 结束文档时调用
     */
    @Override
    public void endDocument() throws SAXException {
        log.info("------------------------------XML读取结束------------------------------");
    }
    
    
    public Map<String,Object> getResultMap(){
        return resultMap;
    }
}

测试Main

注意:CprjInfo是xml对应格式的JavaBean,XML如何转JavaBean,可以看我这一篇

使用XJC将XML转换成JavaBean遇到的坑_辛丑年正月十五的博客-CSDN博客

package com.syasuo.xml;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.syasuo.entity.CprjInfo;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.File;
import java.io.IOException;
import java.util.Map;

/**
 * @author SYASUO
 * @date 2023/6/19 13:41
 */
public class Test {

    public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
        Long startTime = System.currentTimeMillis();
        SAXParser parser = SAXParserFactory.newInstance().newSAXParser();
        MyDefaultHandler myDefaultHandler = new MyDefaultHandler();
        parser.parse(new File("D://root.xml"), myDefaultHandler);
        Map<String,Object> resultMap =  myDefaultHandler.getResultMap();
        //System.out.println(JSON.toJSONString(resultMap));
        CprjInfo cprjInfo = JSONObject.parseObject(JSON.toJSONString(resultMap),CprjInfo.class);
        System.out.println(JSON.toJSONString(cprjInfo));
        System.out.println(System.currentTimeMillis()-startTime);
    }
}

成功的截图,可以看见进度条多么小

 假如你待解析的xml有元素递归嵌套,可以看这一篇,支持大且复杂xml解析

【加强版】SAX解析XML返回对应格式的Map对象(解决元素递归嵌套)_辛丑年正月十五的博客-CSDN博客 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/31459.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HDFS读写流程

读数据流程 客户端向NameNode请求文件的位置&#xff1a;客户端想要访问一个文件时&#xff0c;会向NameNode发送一个请求&#xff0c;要求获取该文件在HDFS上的位置信息。 NameNode将位置信息返回给客户端&#xff1a;NameNode接收到客户端的请求后&#xff0c;会返回该文件所…

设计模式—访问者模式

需求&#xff1a;店铺采购了一批水果&#xff08;苹果及橘子&#xff09;&#xff0c;现在市场监督局来店里检查过期的水果。 public class Fruit {private String name;private Date pickDate;public Fruit(String name, Date pickDate) {this.name name;this.pickDate pic…

javaWeb之cookiesession

1 回顾 1.1 response对象 一次响应封装对象&#xff0c;由服务器创建。使用response对象将服务器需要的数据发送给浏览器。 将数据存放response对象中&#xff0c;tomcat从response对象获得数据&#xff0c;根据数据组织http响应&#xff0c;最后将http响应内容发送给浏览器&…

selenium自动化教程及使用java来爬取数据

目录 一、介绍二、下载浏览器驱动1.获取要下载的驱动版本号2.下载驱动 三、Maven如下四、简单使用五、定位器1.定位器2.说明(1) class name 定位器(2) css selector 定位器(3) id 定位器(4) name 定位器(5) link text 定位器(6) partial link text 定位器(7) tag 定位器(8) xpa…

第8讲:$.ajax方法使用详解

jQuery对象上面定义了Ajax方法&#xff08;$.ajax()&#xff09;&#xff0c;用来处理Ajax操作。调用该方法后&#xff0c;浏览器就会向服务器发出一个HTTP请求。ajax方法有很多属性&#xff0c;但并非每次调用都要使用所有属性&#xff0c;本讲详细介绍了每个属性的作用&#…

windows搭建vue开发环境

参考博客&#xff1a;最详细的vue安装教程_一只野生程序媛的博客-CSDN博客 Vue安装环境最全教程&#xff0c;傻瓜式安装_浪漫主义码农的博客-CSDN博客 1、安装nodejs&#xff0c;从下面官网下载版本&#xff0c;对应安装就行了&#xff1a; Node.js 中文网 2、安装好后&…

Linux 多路转接 —— poll

目录 传统艺能&#x1f60e;poll&#x1f923;struct pollfd&#x1f923; poll 服务器&#x1f618;PollServer类&#x1f601;运行服务器&#x1f612;事件处理&#x1f601; 服务器测试&#x1f602; 传统艺能&#x1f60e; 小编是双非本科大二菜鸟不赘述&#xff0c;欢迎米…

0基础学习地平线QAT量化感知训练

文章目录 1. 背景2. 基础理论知识3. 文件准备与程序运行4. 代码详解4.1 导入必要依赖4.2 主函数4.3 构建fx模式所需要的float_model4.4 不同阶段模型的获取4.5 定义常规模型训练与验证的函数4.6 float与qat训练代码解读——float_model/qat_model4.7 模型校准部分的代码解读——…

七、docker-compose方式运行Jenkins,更新Jenkins版本,添加npm node环境

docker-compose方式运行Jenkins&#xff0c;更新Jenkins版本&#xff0c;添加npm node环境 一、docker-compose方式安装运行Jenkins 中发现Jenkins版本有点老&#xff0c;没有node环境&#xff0c;本节来说下更新jenkins 及添加构建前端的node环境。 1. 准备好docker-compose…

三种方法将Word文档转换为PDF文件格式

如何将Word文档转换为PDF文件格式呢&#xff1f;大家在传输文件时&#xff0c;很多人喜欢使用PDF文件格式&#xff0c;因为它非常稳定&#xff0c;不会出现格式混乱的问题。但有些人可能不知道如何进行转换&#xff0c;今天我将介绍三种转换方法&#xff0c;让我们一起来学习一…

mysql 删表引出的问题

背景 将测试环境的表同步到另外一个数据库服务器中&#xff0c;但有些表里面数据巨大&#xff0c;&#xff08;其实不同步该表的数据就行&#xff0c;当时没想太多&#xff09;&#xff0c;几千万的数据&#xff01;&#xff01; 步骤 1. 既然已经把数据同步过来的话&#x…

环境配置 | Git的安装及配置[图文详情]

Git是一个开源的分布式版本控制系统&#xff0c;可以有效、高速地处理从小到大的项目版本管理。下面介绍了基础概念及详细的用图文形式介绍一下git安装过程. 目录 1.Git基础概念 2.Git的下载及安装 3.常见的git命令 Git高级技巧 Git与团队协作 1.Git基础概念 仓库&#…

认识异常

目录 异常的概念与体系结构 异常的概念 异常的体系结构 异常的分类 异常的处理 防御式编程 1. LBYL: 2. EAFP: 异常的抛出 异常的捕获 异常声明throws try-catch捕获并处理 关于异常的处理方式 finally 异常的处理流程 自定义异常类 异常的概念与体系结构 异常…

基于SpringBoot+kaptcha的验证码生成

教程 1.添加 Kaptcha 依赖 在 pom.xml 文件中添加 Kaptcha 依赖&#xff1a; <dependency><groupId>com.github.penggle</groupId><artifactId>kaptcha</artifactId><version>2.3.2</version> </dependency> <!--或者 都…

平凯星辰重磅支持 2023 开放原子全球开源峰会,开源数据库分论坛成功召开

2023 年 6 月 11 日至 13 日&#xff0c;以“开源赋能&#xff0c;普惠未来”为主题的 2023 开放原子全球开源峰会开幕式暨高峰论坛在北京成功举办。企业级开源分布式数据库厂商平凯星辰联合创始人兼 CTO 黄东旭受邀出席峰会参与开源论道圆桌&#xff0c;担任开源数据库分论坛出…

第一章 数据可视化简介(复习)

第一章 数据可视化简介 什么是可视化 定义&#xff1a;通过可视表达增强人们完成某些 任务的效率 The American Heritage Dictionary&#xff1a; The act or process of interpreting in visual terms or of putting into visible form&#xff08;用可视形式进行解释的 动作…

VUE L ∠脚手架 配置代理 ⑩⑧

目录 文章有误请指正&#xff0c;如果觉得对你有用&#xff0c;请点三连一波&#xff0c;蟹蟹支持✨ V u e j s Vuejs Vuejs初识 V u e C L I VueCLI VueCLI C L I CLI CLI V u e Vue Vue配置代理 C L I CLI CLI配置方法一 C L I CLI CLI配置方法二 C L I CLI CLI V u …

EL标签-给JSP减负

https://blog.csdn.net/weixin_42259823/article/details/85945149 安装使用 1. 通过命令行创建maven项目 2. 安装jstl包 <dependency><groupId>jstl</groupId><artifactId>jstl</artifactId><version>1.2</version> </depen…

【工程项目管理】工程项目管理实践报告

前言&#xff1a; 1.大学课程的大作业&#xff0c;觉得存起来也没什么用就干脆发出来了。。。 2.很可能有不严谨之处&#xff0c;各位看官如若发现欢迎指出~ 创作者文章管理系统 1 实践环节作业1&#xff1a;选题及任务分解WBS &#xff08;1&#xff09;选题 a.项目名称&a…

【论文阅读】Adap-t: Adaptively Modulating Embedding Magnitude for Recommendation

【论文阅读】Adap-&#x1d70f;: Adaptively Modulating Embedding Magnitude for Recommendation 文章目录 【论文阅读】Adap-&#x1d70f;: Adaptively Modulating Embedding Magnitude for Recommendation1. 来源2. 介绍3. 模型解读3.1 准备工作3.1.1 任务说明3.1.2 基于嵌…