【C++进阶】哈希的应用 --- 布隆过滤器

在这里插入图片描述

👦个人主页:@Weraphael
✍🏻作者简介:目前学习C++和算法
✈️专栏:C++航路
🐋 希望大家多多支持,咱一起进步!😁
如果文章对你有帮助的话
欢迎 评论💬 点赞👍🏻 收藏 📂 加关注✨


目录

  • 一、问题引入
  • 二、布隆过滤器的概念
  • 三、布隆过滤器的实现
      • 3.1 基本结构
      • 3.2 插入
      • 3.3 查找
      • 3.4 删除
      • 3.5 测试
      • 3.6 优化
  • 四、总结
  • 五、代码

一、问题引入

随着玩王者荣耀的用户越来越多,想要取一个心悦的名字是非常难的。当名字重复的时候,系统非常快的提示“名字已被使用”,那么它是如何做到快速查找名字是否被使用了呢?

在这里插入图片描述

在如此大的数据下,首先可以想到使用位图:

  • 但由于位图的数据必须是size_t的,那么需要先将名字(字符串)映射成整型,然后再存入位图中。然而,我们对位图开空间是根据数据范围的,但字符串的长度是可变的,使用位图来表示长度不固定的数据会带来很大的挑战。比如,开少了可能引发冲突,那么就会导致误判。比如说李白和百里都占同一个比特位并且都标记成1,当有人将修改了百里这一名称,那么其实就是reset操作,那么,李白也同样会被reset,那么就会有第二个人可以取李白这个名字。

  • 并且字符串在计算机中是以字符集编码的方式存储的,一个字符可能由一个或多个字节组成。而位图一般用于表示集合中元素的存在与否,对于字符集编码来说,字符的种类和编码范围非常广泛,使用位图来表示所有可能的字符将需要非常大的存储空间,并且不实际。

这时候就需要我们本文中的主角: 布隆过滤器Bloomfilter

二、布隆过滤器的概念

布隆过滤器是由布隆在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询。可以用来告诉你 “某样东西一定不存在或者可能存在”

布隆过滤器是如何做到的呢?

这里举一个小故事:假设布隆有一天要去线下见网友,前提是他不知道网友的任何特征,那怎么办?只能发一个消息问对方今天的穿搭,而网友说今天带了一个黑色的帽子,然而布隆一眼望去,今天穿戴黑色帽子的人也特别的多,于是再次向网友询问更多的特征来过滤掉更多穿搭相识的人。

于是布隆过滤器就是 使用多个哈希函数,将一个数据映射到位图结构中,也就是 一个数据映射位图的多个位置哈希与位图结合,即布隆过滤器)。只有当映射的比特位全为1,则说明字符串存在。

在这里插入图片描述

三、布隆过滤器的实现

3.1 基本结构

既然需要多个哈希函数,这里我只模板中添加三个哈希函数的模板参数,以及待存储的数据类型,不过布隆过滤器最常见存储的类型是字符串,所以可以给一个缺省值。

在这里插入图片描述

显然,这三个 哈希函数 的选择是十分重要的,我们在这里提供三种较为优秀的哈希函数(字符串哈希算法),分别是 BKDRHashAPHash 以及 DJBHash

在这里插入图片描述

struct BKDRHash
{
    size_t operator()(const string& str)
    {
        register size_t hash = 0;
        for  (auto& ch : str)
        {
            hash = hash * 131 + (size_t)ch;    
        }
        return hash;
    }
};

struct APHash
{
    size_t operator()(const string& str)
    {
        size_t hash = 0;
        for (auto e : str)
        {
            if (((size_t)e & 1) == 0)
            {
                hash ^= ((hash << 7) ^ (size_t)e ^ (hash >> 3));
            }
            else
            {
                hash ^= (~((hash << 11) ^ (size_t)e ^ (hash >> 5)));
            }
        }

        return hash;
    }
};

struct DJBHash
{
    size_t operator()(const string& str)
    {
        if (str.empty())
            return 0;

        size_t hash = 5381;
        for (auto e : str)
        {
            hash += (hash << 5) + (size_t)e;
        }

        return hash;
    }
};

template<size_t N
	, class K = string
	, class Hashfunc1 = BKDRHash
	, class Hashfunc2 = APHash
	, class Hashfunc3 = DJBHash>
class bloomfilter
{
public:

private:
	bitset<N> _bt;
};

3.2 插入

步骤:

  • 通过三个哈希函数计算不同的哈希值

  • 最后再调用bitset中的set在位图中标记即可

在这里插入图片描述

3.3 查找

判断在不在也非常简单,我们可以再次计算出三个哈希值,只要它们对应的二进制位上是1,说明要查找的字符串存在,只要有一个为0,说明要查找的字符串一定不存在。

在这里插入图片描述

这里需要注意的是:布隆过滤器判断不在是准确的,判断 是不准确的

比如,“李白“映射了位置0 1 3,”百里“映射了位置3 5 7,虽然这两个字符串不会相互影响,但原本”妲己“不存在位图中,并且通过调用test发现三个位置都是1,那么就会误判存在。

在这里插入图片描述

因此 布隆过滤器并不是非常可靠,那该怎么办呢?有人想到了使用 布隆过滤器 + 数据库 的方式进行双重验证

如果 布隆过滤器 判断字符串不存在,那么就是真的不存在,因为这是绝对准确的;但如果在布隆过滤器中存在,可以去数据库里搜索,再反馈给用户。

3.4 删除

布隆过滤器支持删除吗?其实一般是不支持的。因为支持删除会存在重大问题,删除一个值会影响其他字符串。

在这里插入图片描述

虽然成功删除了 “李白”,但同时也影响了 “百里”,当要验证“百里”是否存在时,会被判断为不存在,所以布隆过滤器,一般是不支持删除操作的。

3.5 测试

在这里插入图片描述

3.6 优化

如果真的误判存在了那该怎么办呢?有的人想增加哈希函数的个数,那么问题来了,增加多少个合适呢?

还有一个比较合适的方案:扩大布隆过滤器的长度,使数据更分散,来降低误判的概率

那么如何选择合适的布隆过滤器的长度呢?对此有大佬做出了研究:

在这里插入图片描述

我们可以来估算一下,假设用3个哈希函数,即K = 3ln2 的值我们取 0.7,那么 mn 的关系大概是 m = n×k/ln2=4.2n ,也就是过滤器长度应该是插入元素个数的 4 -5倍

在这里插入图片描述

四、总结

优点:

  1. 增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数,一般比较小),与数据量大小无关

  2. 哈希函数相互之间没有关系,方便硬件并行运算

  3. 布隆过滤器不需要存储元素本身,在某些对保密要求比较严格的场合有很大优势

  4. 在能够承受一定的误判时,布隆过滤器比其他数据结构有这很大的空间优势

  5. 数据量很大时,布隆过滤器可以表示全集,其他数据结构不能

  6. 使用同一组散列函数的布隆过滤器可以进行交、并、差运算

缺点:

  1. 有误判率,不能准确判断元素是否在集合中(补救方法:再建立一个白名单,存储可能会误判的数据)

  2. 不能获取元素本身

  3. 一般情况下不能从布隆过滤器中删除元素

实际应用场景:

  1. 注册时对于 昵称、用户名、手机号的验证

  2. 减少磁盘 IO 或者网络请求,因为一旦一个值必定不存在的话,我们可以不用进行后续昂贵的查询请求

五、代码

本篇博客相关代码:点击跳转

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/444054.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

申请公众号上限是多少

一般可以申请多少个公众号&#xff1f;公众号申请限额在过去几年内的经历了很多变化。对公众号申请限额进行调整是出于多种原因&#xff0c;确保公众号内容的质量和合规性。企业公众号的申请数量从50个到5个最后到2个&#xff0c;对于新媒体公司来说&#xff0c;这导致做不了公…

七、软考-系统架构设计师笔记-数据库设计基础知识

1、数据库基础概念 数据库基本概念 数据(Data)数据库(Database)数据库管理系统(DBMS)数据库系统(DBS) 1.数据(Data) 是数据库中存储的基本对象&#xff0c;是描述事物的符号记录。 数据的种类&#xff1a; 文本、图形、图像、音频、视频等。 2.数据库(Database, DB) 数据库…

【Python+Selenium学习系列5】Selenium特殊元素定位之-鼠标悬停操作

前言 Selenium模拟用户在浏览器中的操作&#xff0c;比如点击按钮。在某些场景下&#xff0c;我们需要模拟鼠标悬停的操作&#xff0c;来触发一些隐藏的元素。本文将介绍Python Selenium实现鼠标悬停操作。 鼠标悬停&#xff0c;即当光标与其名称表示的元素重叠时触发的事件&…

菜鸟笔记-14Python绘图颜色使用

Python中绘图主要依赖于各种库&#xff0c;其中matplotlib是最常用且功能强大的一个。在matplotlib中&#xff0c;你可以使用各种颜色来表示不同的数据点、线条或填充区域。下面我将详细介绍如何在Python中使用matplotlib来设置绘图颜色&#xff0c;并给出具体的例子。 14.1颜…

HTML5:七天学会基础动画网页10

继续介绍3D转换: 3D转换:rotate3d 方法与说明 rrotateX(angle)otate3d(x,y,z,angle[角度]) 3D转换&#xff0c;正常取值0/1&#xff0c;0代表当前轴线不进行旋转&#xff0c;1反之&#xff0c;例:rotate3d(1,1,1,30deg)&#xff0c;代表三个轴线都要旋转30度 rotate3d(0…

.text .data .bss .stack 和 heap

.text .data .bss .stack 和 heap 1.1 代码->可执行文件1.2 ELF可执行文件的结构1.3 内存区域1.4 各段在内存中的位置 1.1 代码->可执行文件 一个程序从代码到可执行文件的过程&#xff0c;包括 预处理、编译、汇编&#xff0c;链接。可执行文件有多重类型&#xff0c;有…

深入解读可视化运维的内容、领域、价值和系统搭建

大家好&#xff0c;我是贝格前端工场&#xff0c;接触过很多可视化运维项目&#xff0c;包括IT、电力、物流、生产制造等&#xff0c;本文系统总结一下可视化运维相关知识&#xff0c;老规矩别忘了关注转发&#xff0c;有事请私信。 一、可视化运维定义 可视化运维是指通过可视…

寻找完全平方数——浮点数陷阱

【题目描述】 输出所有形如aabb的4位完全平方数&#xff08;即前两位数字相等&#xff0c;后两位数字也相等&#xff09;。 【解析】 一、问题分析 从问题出发&#xff0c;题目要求输出的是满足一定条件的数。数在计算机中是要占存储空间的&#xff0c;要在计算机中表示一个…

linux 查看打开使用了哪些端口

你可以使用 netstat 命令来查看Linux系统中正在使用的端口。例如&#xff0c;要查看所有正在使用的TCP和UDP端口&#xff0c;你可以运行&#xff1a; sudo netstat -tulpn如果你只想查看所有正在使用的TCP端口&#xff0c;你可以运行&#xff1a; sudo netstat -tpln 如果你只…

滴滴一面:Keepalived+Nginx高可用,如何实现IP跳跃?(1)

尼恩说在前面 HashMap的工作原理是目前java面试问的较为常见的问题之一&#xff0c;在40岁老架构师 尼恩的读者交流群(50)中&#xff0c;最近有小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、shein 希音、百度、网易的面试资格&#xff0c;遇到很多很重要的面试…

蓝桥杯-List集合

目录 List集合实例化 List集合实例化步骤 常用方法 ArrayList方法 1&#xff1a;add(Object element) 2&#xff1a;size() 3&#xff1a;get(int index) 4&#xff1a;isEmpty() 5:contains(Object o) 6&#xff1a;remove(int index) 总结ArrayList list集合的特点…

Elasticsearch从入门到精通-03基本语法学习

Elasticsearch从入门到精通-03基本语法学习 &#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是程序员行走的鱼 &#x1f4d6; 本篇主要介绍和大家一块学习一下ES基本语法,主要包括索引管理、文档管理、映射管理等内容 1.1 了解Restful ES对数据进行增、删、改、查是以…

多线程-线程池原子性并发工具类

1.线程池 1.线程状态 虚拟机中线程的六种状态 新建状态&#xff08;NEW&#xff09; --创建线程 就绪状态&#xff08;RUNNABLE&#xff09; --start方法 阻塞状态&#xff08;BLOCKED&#xff09; --无法获得锁对象 等待状态&#xff08;WAITING&#xff09; …

MySQL学习Day28——锁

一、概述: 锁是计算机协调多个进程或线程并发访问某一资源的机制。在程序开发中会存在多线程同步的问题&#xff0c;当多个线程并发访问某个数据的时候&#xff0c;尤其是针对一些敏感的数据(比如订单、金额等)需要保证这个数据在任何时刻最多只有一个线程在访问&#xff0c;保…

蓝桥杯简单题,公司名称

题目链接&#xff08;需要登录&#xff09; #include <iostream> #include <cstring> #include <algorithm> using namespace std; bool lanqiao(string str,int len){ sort(str.begin(),str.end());//对str按照ascii排序if(str.find("Laainoq")s…

HTML静态网页成品作业(HTML+CSS)——安徽宣笔设计制作(5个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有6个页面。 &#x1f3f7;️想要…

Linux系统——web服务拓展练习

目录 一、实验环境搭建 1. Centos 7-5——Client 2. Centos 7-1——网关服务器 3. Centos 7-2——Web1 4. Centos 7-3——Web2 5. Centos 7-4——Nginx 二、在Nginx服务器上搭建LNMP服务&#xff0c;并且能够对外提供Discuz论坛服务&#xff1b;在Web1、Web2服务器上搭建…

springboot255基于spring boot的疫情信息管理系统

疫情信息管理系统的设计与实现 摘要 近年来&#xff0c;信息化管理行业的不断兴起&#xff0c;使得人们的日常生活越来越离不开计算机和互联网技术。首先&#xff0c;根据收集到的用户需求分析&#xff0c;对设计系统有一个初步的认识与了解&#xff0c;确定疫情信息管理系统…

Unity Shader实现UI流光效果

效果&#xff1a; shader Shader "UI/Unlit/Flowlight" {Properties{[PerRendererData] _MainTex("Sprite Texture", 2D) "white" {}_Color("Tint", Color) (1, 1, 1, 1)[MaterialToggle] PixelSnap("Pixel snap", float…

【数据分享】2000-2022年全国1km分辨率的逐日PM10栅格数据

空气质量数据是在我们日常研究中经常使用的数据&#xff01;之前我们给大家分享了2000-2022年全国范围逐日的PM2.5栅格数据和2013-2022年全国范围逐日SO2栅格数据&#xff08;可查看之前的文章获悉详情&#xff09;。 本次我们给大家带来的是2000-2022年全国范围的逐日的PM10栅…
最新文章