常见集合框架底层原理

常见集合框架底层原理

常见的集合有哪些

  • Java集合类主要由两个接口Collection和Map派生出来的,Collection有三个子接口: List、 Set、Queue
    • List代表了有序可重复集合,可直接根据元素的索引来访问
    • Set代表了无序集合,只能根据元素本身来访问
    • Queue是队列集合
    • Map代表的是存储key-value键值对的集合,可根据元素的kye来访问value
  • 集合中常见的实现类有ArrayList、LinkedList、HashSet、TreeSet、HashMap、TreeMap等

List、Set、Map的区别

  • List 以索引来存取元素,有序的,元素是允许重复的,可以插入多个null

  • Set 不能存放重复元素,无序的,只允许一个null

  • Map 保存键值对映射

  • List 底层实现有数组、链表两种方式,Set、Map 容器有基于哈希存储和红黑树两种方式实现

  • Set 基于 Map 实现,Set 里的元素值就是 Map的键值

  • 常见的集合框架

    • ArrayList

      • ArrayList采用的是数组去保存元素,而且有序,元素可以重复
      • 插入、删除元素的时间复杂度是O(n),查找、替换的时间复杂度是O(1)
      • ArrayList初始容量大小为10
      • ArrayList的扩容机制
        • 计算出新的扩容数组的size后实例化,并将原有数组内容复制到新数组中去默认情况下,新容量扩容至原来容量的1.5倍
      • 问题: 怎么在遍历ArrayList时移除一个元素
        • foreach删除会导致快速失败问题,可以使用迭代器的remove方法
    • LinkedList

      • 采用双向链表结构
      • 元素可重复并且无序
      • 插入、删除时间复杂度O(1),查找、替换时间复杂度O(n)
      • 问题: 说一下ArrayList和LinkedList的区别
        • 首先它们的底层数据结构不同,ArrayList是基于数组实现的,LikedList是基于链表实现的
        • 由于底层数据结构不同,ArrayList适合随机查找,LinkedList适合删除和添加,他们操作的时间复杂度也不同
        • ArrayList和LinkedList都实现了List接口,但是LinedList还额外实现了Deque接口,所以LinkedList可以当做队列使用
    • HashMap

      • 默认容量16

      • JDK7采用数组 + 链表,利用的是头插法

      • JDK8采用数组 + 链表 + 红黑树,利用的是尾插法

        • 问题: 什么是红黑树

          • image.png
          • 每个节点非红即黑
          • 根节点总是黑色的
          • 如果节点是红色的,那么它的子节点必须是黑色的,反之不一定
          • 每个叶子节点都是黑色的空节点
          • 从根节点到叶子节点或空子节点的每条路径,必须包含相同数目的黑色节点
        • 问题: 为什么JDK8采用尾插法了而不是继续用头插法

          • https://www.processon.com/view/link/62f890e10791297750986114
          • 多线程情况下,扩容的时候可能会导致产生循环链表,导致后面再去头插法无法插入,从而死循环造成CPU满载
          • 举例
            • 两步骤: 数组扩容和数据重新头插入
            • 线程1: 扩容前A->B 扩容之后B->A,此时CPU将时间片给线程2
            • 线程1: A->B 完成了数组扩容但是没有完成数据重新插入
            • 线程2: B->A 两步都完成了
            • 最终导致A->B、B->A循环指向对方,后面再去头插法就无法插入了
        • 问题: 为什么会采用红黑树

          • 因为链表查询的时候可能因为链表过长降低查询效率,所以采用了红黑树提升查询效率
        • 问题: HashMap的工作原理

          • HashMap底层是hash数组和单向链表实现,数组中的每个元素都是链表,JDK7通过key、value封装Entry对象,JDK8是Node对象,HashMap是通过put方法存储、get方法获取.
          • 存储对象时:
            • 首先通过key通过hash方法计算hash值确定数组下标
            • 如果数组下标位置元素为空,就将key和value封装成Entry对象,在JDK7是Entry对象,在JDK8是Node对象
            • 如果数组下标位置元素不为空
            • 如果是JDK7会先判断是否需要扩容,如果不扩容就会生成Entry对象并且使用头插法添加当当前位置的链表中,此时还会判断对应的key是否存在,如果存在就会更新value
            • 如果是JDK8会先判断Node的类型是红黑树节点还是链表节点
              • 如果是红黑树节点,就将key和value封装成一个红黑树节点添加到红黑树中去,在这个过程中还会判断红黑树中是否存在相同的key,如果存在就更新value
              • 如果是链表节点,就将key和value封装成一个链表节点添加到链表的尾部,因为尾插法需要遍历整个链表,此时也会去判断是否存在相同的key,如果存在就更新vlaue,当遍历完整个链表之后会得到整个链表的长度,会判断是否超过8并且数组长度超过64,如果超过了就会将链表转换成红黑树
              • 将key和value封装成Node放到红黑树或链表中去,再判断是否需要进行扩容,如果不需要就结束
          • 获取对象时:
            • 通过hash方法计算key的hash值从而确定元素所在链表的数组下标
            • 顺序遍历数组,通过equals方法查找key数值相同的元素
      • hashcode通过字符串算出ascll码进行取模算出哈希表的下标

        • 问题: 如何解决hash冲突的
          • 如果发生了hash冲突,采用链表解决
      • 问题: 扩容因子为什么是0.75

        • 一般来说,默认的负载因子提供了一个很好的时间和空间成本的平衡
      • 问题: JDK7中的HashMap与JDK8中的HashMap的区别

        • JDK7采用的是数组 + 链表,JDK8中新增了红黑树,JDK8是通过数组 + 链表 + 红黑树来实现的
        • JDK7采用的是头插法,JDK8采用的是尾插法
        • JDK8中因为使用了红黑树保证了插入和查询的效率,所以实际上JDK8中的Hash算法实现的复杂度降低了
        • JDK8中数组扩容的条件也发生了变化,只会判断当前元素个数是否超过了阈值,而不再判断当前put进来的元素对应的数组下标位置是否有值
        • JDK7中是先扩容再添加元素,JDK8中是先添加元素再扩容
      • 问题: JDK8中的HashMap链表转变为红黑树的条件是什么

        • 链表中的元素为8个或超过8个
        • 同时还要满足当前数组的长度大于等于64才会把链表转变为红黑树
          • 因为链表转变为红黑树主要是为了解决链表过长产生的查询效率慢的问题,而如果需要解决这个问题,也可以通过数组扩容,把链表缩短就行,所以数组长度还不太长的时候,可以先通过数组扩容来解决链表过长的问题
      • 问题: HashMap的扩容流程

        • HashMap的扩容指的就是数组的扩容,因为数组占用的是连续内存空间,所以数组的扩容其实只能新开一个新的数组,然后把老数组上的元素转移到新数组上面来,这样才是数组的扩容
        • 在HashMap中也是一样,先新建一个2倍数组大小的数组
        • 然后遍历老数组上的每一个位置,如果这个位置上是一个链表,就把这个链表上的元素转移到新数组上去
        • 在这个过程中就需要遍历链表,当然JDK7和JDK8在这个实现时是不一样的
          • JDK7就是简单的遍历链表上的每一个元素,然后按照每个元素的hashcode结合新数组的长度重新计算一个下标,而重新得到的这个数组下标是不一样的,这样子就达到了一种效果,就是扩容之后,某个链表会变短,这也就是扩容的目的,缩短链表长度,提高了查询效率
          • JDK8中,因为涉及到红黑树,这个其实比较复杂,JDK8中其实还会用到一个双向链表来维护红黑树中的元素,所以JDK8中在转移某个位置上的元素时,会去判断如果这个位置是一个红黑树,那么会遍历该位置的双向链表,遍历双向链表统计哪些元素在扩容之后还是原位置,哪些元素在扩容之后在新位置,这样遍历完双向链表之后,就会得到两个子链表,一个放在原下标位置,一个放在新下标位置,如果原下标位置或新下标位置没有元素,那么红黑树就不会拆分,否则就会判断这两个子链表的长度,如果超过8,就转成红黑树放到对应的位置,否则把单链表放到对应的位置
          • 元素转移完之后,再把新数组对象赋值给HashMap的table属性,老数组被回收
      • 问题: HashMap的put流程

        • 如果table没有初始化就先进行初始化过程
        • 使用hash算法计算key的索引
        • 判断索引处有没有存在元素,没有就直接插入
        • 如果索引处存在元素,则遍历插入,有两种情况,一种是链表形式就直接遍历到尾端插入,一种是红黑树就按照红黑树结构插入
        • 链表的数量大于阈值8,就要转换成红黑树的结构
        • 添加成功后会检查是否需要扩容
      • 流程: HashMap流程

        • https://www.processon.com/view/link/62f8eccf5653bb5e82ca67af
    • ConcurrentHashMap

      • 并发安全的HashMap,比HashTable效率更高

      • JDK7采用ReentrantLock全局加锁解决并发

      • JDK8采用CAS + synchronized并且只对Node节点加锁,锁粒度更细

      • 问题: ConcurrentHashMap是如何保证并发安全的

        • JDK7中是通过 ReentrantLock + CAS + 分段的思想来保证并发安全的
          • 在JDK7的ConcurrentHashMao中首先有一个segment数组,存的是Segment对象,Segment相当于一个小HashMap,Segment内部有一个HashEntry数组也有扩容的阈值,同时Segment继承是ReentrantLock,同时Segment中还提供了get、put等方法,比如Segment的put方法一开始就会加锁,加到锁之后才会把key、value存到Segment中去,然后释放锁
          • 同时在ConcurrentHashMap的put方法中,会通过CAS的方式把一个Segment对象存到Segment数组中,同时因为一个Segment内部存在一个HashEntry数组,所以和HashMap对比来看,相当于分段了,每段里面是一个小HashMap,每段公用一把锁,同时在ConcurrentHashMap的构造方法中可以设置分段的数量,叫做并发级别concurrencyLevel
        • JDK8中ConcurrenHashMap是通过 synchronized + CAS实现的
          • 在JDK8中只有一个数组就是Node数组,Node就是key、value、hashcode封装出来的对象,和HashMap的Entry一样,在JDK8中通过对Node数组的某个下标位置的元素进行同步,达到下标位置的并发安全,同时内部也利用了CAS对数组的某个位置进行并发安全的赋值
      • 问题: JDK8中的ConcurrentHashMap为什么使用synchronized来进行加锁

        • JDK8中使用synchronized加锁时,是对链表头节点和红黑树根节点来加锁的,而ConcurrentHashMap会保证数组中某个位置的元素一定是链表的头结点或红黑树的根节点
        • JDK8中的ConcurrentHashMap在对某个桶进行并发安全控制时,只需要使用synchronized对当前那个位置的数组的元素进行加锁即可,对于每个桶只有获取到了第一个元素的锁才能操作这个桶,不管这个桶是链表还是红黑树
        • JDK7中使用ReentrantLock来加锁,因为JDK7中使用了分段锁,所以对于一个ConcurrentHashMap对象而言,分了几段就得有几个对象锁,而JDK8中使用synchronized关键字来加锁就会更加节省内存,并且JDK8的synchronized与Lock性能基本持平了
      • 问题: JDK8中的ConcurrentHashMap有一个CounterCell,你是如何理解的

        • CounterCell是JDK8中用来统计ConcurrentHashMap中所有元素个数的,在统计ConcurrentHashMap时,不能直接对ConcurrentHashMap加锁然后再去统计,因为这样会影响put等操作,在JDK8中使用的是CounterCell + baseCount来辅助进行统计
        • baseCount是ConcurrentHashMap的一个属性,某个线程在调用ConcurrentHashMap对象的put操作的时候,会先通过CAS去修改baseCount的值,如果CAS修改成功就计数成功,如果CAS修改失败,就会从CountCell数组中随机选一个CounterCell对象,然后利用CAS去修改CountCell对象中的值,因为存在CounterCell数组,所以当某个线程要计数的时候,先尝试CAS去修改baseCount的值,如果没有修改成功,就从CounterCell数组中随机取一个CounterCell对象进行CAS计数,这样在计数时提高了效率
        • 所以ConcurrentHashMap在统计元素个数的时候,就是所有元素的个数 = baseCount + CounterCell中的value
      • 流程: ConcurrentHashMap流程

        • ConcurrentHashMap流程.png
    • HashSet

      • 元素不可重复,而且无序
      • 底层采用HashMap实现
    • HashMap常见面试题可参考: https://mp.weixin.qq.com/s/547b1ivm-sAMfMqposrU0Q

    • 问题: 谈一下ThreadLocal

      • ThreadLocal叫线程本地变量,当使用ThradLocal维护变量时,ThreadLocal为每个使用该变量的线程提供独立的变量副本,所以每个线程都可以独立地改变自己的副本,而不会影响其他线程
      • ThreadLocal原理
        • 每个线程都有一个ThreadLocalMap,Map中元素的键为ThreadLocal,而值对应线程的变量副本
      • ThradLocal并不是用来解决共享资源的多线程访问的问题,因为每个线程中的资源只是副本,并不共享,因此ThreadLocal适合作为线程上下文变量,简化线程内传参
      • 问题: ThreadLocal使用场景
        • 每个线程需要有自己单独的实例而且在多个方法中共享实例,也就是同时满足实例在线程间的隔离与方法间的共享,比如每个线程都有自己单独的session,就可以使用ThreadLocal
      • 问题: ThreadLocal内存泄露的原因
        • 问题: 什么是内存泄露
          • 使用的对象(如HashMap)长时间没有及时处理,导致数据越存越多,一直占用老年代空间,时间久了就会触发FullGC,甚至因为老年代达到阈值,回收不完而导致OOM,这就是一种内存泄露
        • 每个ThreadLocal都有一个ThreadLocalMap的内部属性,map的key为ThreadLocal并且定义为弱引用,而value是强引用类型。
        • GC的时候会自动回收key,而value的回收取决于Thread对象的生命周期,一般会通过线程池的方式复用Thread对象来节省资源,这也就导致了Thread对象的生命周期比较长,这样便一直存在一条强引用链(Thread->ThreadLocalMap->Entry->Value),随着任务的执行,value就有可能越积越多,最终导致OOM内存泄露
        • 解决方法
          • 每次使用完ThreadLocal就remove,手动将对应键值对进行删除,从而避免内存泄露
        • 问题: 怎么实现父子线程之间变量副本的通信
          • ThreadLocal只能作为线程的本地变量副本,但是无法进行父子线程之间的传递
          • InheritableThreadLocal可以进行方法内的父子线程传递
            • InheritableThreadLocal通过重写,getMap和createMap让本地变量保存到了具体线程InheritableThreadLocals变量里面,那么线程在通过InheritableThreadLocal的类实例的set和get方法设置变量时,就会创建当前线程的InheritableThreadLocals变量
            • 当父子线程创建子线程的时候,构造函数会把父线程中InheritableThreadLocals变量里面的本地变量复制一份保存到子线程的InheritableThreadLocals变量里
          • 引申: 当处于线程池中的线程进行父子线程通信时就会失效,这里需要引入第三方框架,使用 TransmittableThreadLocal专注于解决线程池中上下文无法传递的问题
            • 可能产生的问题
              • 线程池中的线程进行创建后会把父线程的上下文设置到新建线程中,但是核心线程是不会被销毁的,换句话说不会新建,则不会刷新上下文
                • 如何解决
                  • 先创建线程池,然后通过ttl进行修饰,这样每次调用的时候ttl会进行抓取当前父线程中的上下文刷新到子线程中,不管当前线程是否新建

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/412183.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

“智能语音指令解析“ 基于NLP与语音识别的工单关键信息提取

“智能语音指令解析“ 基于NLP与语音识别的工单关键信息提取 1. 背景介绍1.1 场景痛点1.2 方案选型 2. 准备开发环境3. PaddleSpeech 语音识别快速使用4. PaddleNLP 信息抽取快速使用5. 语音工单信息抽取核心功能实现6. 语音工单信息抽取网页应用6.1 网页前端6.2 网页后端6.3 a…

SpringCache缓存专题

SpringCache缓存专题 学习目标 1、理解缓存存在的意义 2、掌握redis与SpringCache的集成方式 3、掌握SpringCache注解的使用 4、掌握项目集成SpringCache流程 第一章 基于SpringCache缓存方案 1.为什么需要缓存 ​ 前台请求,后台先从缓存中取数据&#xff0…

ARM 版银河麒麟桌面系统下 Qt 开发环境搭建指南

目录 前言安装Linux ARM 版 QtCreator配置 Qt Creator配置构建套件 第一个麒麟 Qt 应用程序小结 前言 在上一篇文章信创ARM架构QT应用开发环境搭建中建议大家使用 Ubuntu X86 系统作为信创 ARM 架构 QT 应用的开发环境,里面使用了交叉编译的方式。这对于自己的 Qt …

MySQL基础(二)

文章目录 MySQL基础(二)1. 数据库操作-DQL1.1 介绍1.2 语法1.3 基本查询1.4 条件查询1.5 聚合函数1.6 分组查询1.7 排序查询1.8 分页查询1.9 案例1.9.1 案例一1.9.2 案例二 2. 多表设计2.1 一对多2.1.1 表设计2.1.2 外键约束 2.2 一对一2.3 多对多2.4 案…

【Vue】组件通信组件通信

📝个人主页:五敷有你 🔥系列专栏:JVM ⛺️稳中求进,晒太阳 组件通信 组件通信,就是指组件与组件之间的数据传递 组件的数据是独立的,无法直接访问其他组件的数据想用其他组件的数据--&…

Openharmony - HDF平台驱动之I2C驱动和测试程序

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 目录 概述I2C平台驱动I2C平台驱动HDF框架I2C平台驱动的使用I2C应用开发接口说明代码目录i2ctest.cBUILD.gnbundle.json修改config.json文件…

在Ubuntu上为ARM 8处理器安装Python 3.10.4虚拟环境指南

在Ubuntu上为ARM 8处理器安装Python 3.10.4虚拟环境指南 安装Anaconda或Miniconda: 首先,您需要从官方网站下载适用于ARM架构的Anaconda或Miniconda安装包。下载完成后,在终端中使用bash Anaconda3-2019.10-Linux-armv8.sh(文件…

ConvNeXt V2:用MAE训练CNN

论文名称:ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders 发表时间:CVPR2023 code链接:代码 作者及组织: Sanghyun Woo,Shoubhik Debnath来自KAIST和Meta AI。 前言 ConvNextV2是借助MAE的思想来训练…

pytorch -- torch.nn下的常用损失函数

1.基础 loss function损失函数:预测输出与实际输出 差距 越小越好 - 计算实际输出和目标之间的差距 - 为我们更新输出提供依据(反向传播) 1. L1 torch.nn.L1Loss(size_averageNone, reduceNone, reduction‘mean’) 2. 平方差(…

【精简版】Ubuntu/Linux Anaconda 命令行终端安装

网上重复内容很多,大都啰里啰嗦,特作此笔记。 【精简版】Ubuntu/Linux Anaconda 命令行安装 1 下载安装包1.1 寻找适配版本安装包1.2 下载 2 运行安装程序3 设置安装路径4 添加环境变量并运行4.1 环境变量4.2 运行 5 验证安装成功感谢及参考博文 1 下载…

ABAP 发送带EXCEL邮件

前言 没啥特殊需求,就是有个库龄报表用户想整邮件发送 实现 用的最简单的XLS文件作为excel附件发送出去 观察XLS文件的纯文本格式,每列之间用TAB制表符分隔,每行之间用回车符分隔 思路也比较明确,在SAP中实现这种格式&#xf…

第 1 章 微信小程序与云开发从入门到实践从零开始做小程序——开发认识微信小程序

小北的参考工具书 小程序开发的图书并不少,这本书仍然值得你拥有! 首先,这是一本全栈小程序开发教程,循序渐进,由浅入深,介绍了小程序开发你想了解的方方面面,包括近其小程序开发的各种新技术应…

golang gin单独部署vue3.0前后端分离应用

概述 因为公司最近的项目前端使用vue 3.0,后端api使用golang gin框架。测试通过后,博文记录,用于备忘。 步骤 npm run build,构建出前端项目的dist目录,dist目录的结构具体如下图 将dist目录复制到后端程序同级目录…

汽车电子笔记:BootLoader升级过程疑难问题解决方式(Bootloader响应10 02 + 刷死拯救机制)

目录 1、概述 2、如何在BootLoader响应10 02 2.1、实现流程图 2.2、实现方式(代码思路) 3、刷死拯救机制(100%能救活,适配各类控制器的方法) 3.1、强留Boot流程图 3.2、实现方式(代码思路) 1、概述 BootLoader作…

Ansible script 模块 该模块用于将本机的脚本在被管理端的机器上运行。Ansible服务执行本机脚本

目录 过程首先,我们写一个脚本,并给其加上执行权限直接运行命令来实现在被管理端执行该脚本验证错误演示 过程 该模块直接指定脚本的路径即可 首先,我们写一个脚本,并给其加上执行权限 vim /tmp/df.sh编辑脚本内容 这个脚本内容…

React_使用es5和es6语法渲染和添加class

React入门 //react的核心库 <script src"https://cdn.jsdelivr.net/npm/react17/umd/react.development.js"></script> //react操作dom的核心库&#xff0c;类似于jquery <script src"https://cdn.jsdelivr.net/npm/react-dom17/umd/react-dom.…

备考2024年高考全国甲卷文科数学:历年选择题真题练一练

距离2024年高考还有三个多月的时间&#xff0c;最后这个时间&#xff0c;同学们基本上是以刷题为主。刷题的时候最重要的是把往年的真题吃透&#xff0c;因为真题是严格按照考纲出的&#xff0c;掌握了真题后面的知识点&#xff0c;并能举一反三地运用&#xff0c;那么高考的高…

安装淘宝镜像cnpm报错

npm 安装淘宝镜像报错 npm install -g cnpm --registryhttps://registry.npm.taobao.org 安装报 The operation was rejected by your operating system. npm ERR! Its possible that the file was already in use (by a text editor or antivirus), npm ERR! or that you la…

Spark集群搭建的三种方式详解

国科大学习生活&#xff08;期末复习资料、课程大作业解析、学习文档等&#xff09;: 文章专栏&#xff08;点击跳转&#xff09; 大数据开发学习文档&#xff08;分布式文件系统的实现&#xff0c;大数据生态圈学习文档等&#xff09;: 文章专栏&#xff08;点击跳转&#xff…

面试redis篇-10Redis集群方案-主从复制

在Redis中提供的集群方案总共有三种: 主从复制哨兵模式分片集群主从复制 单节点Redis的并发能力是有上限的,要进一步提高Redis的并发能力,就需要搭建主从集群,实现读写分离。 主从数据同步原理 Replication Id:简称replid,是数据集的标记,id一致则说明是同一数据集。每…
最新文章