Protocol Buffers设计要点

概述

一种开源跨平台的序列化结构化数据的协议。可用于存储数据或在网络上进行数据通信。它提供了用于描述数据结构的接口描述语言(IDL),也提供了根据 IDL 产生代码的程序工具。Protocol Buffers的设计目标是简单和性能,所以与 XML 相比更小且更快。在 Google,它被当作一个 RPC 系统的基础。

设计过程

Tag 表示

对于一条 person 信息,使用 JSON 可表示为:{ “age”: 30, “name”: “zhangsan”, “height”: 175.33, “weight”: 140 }。显然,中间有很多冗余的字符,比如 {," 等,为把数据变小一点,我们直接将其表示为:30|zhangsan|175.33|140,即通过直接将 value 使用分隔符 | 拼在一起,舍去了不必要的冗余字符(每条记录都要包含各个字段的字段名很浪费存储空间),这样大幅度地压缩了空间。然后接收端按照如下顺序解析 key-value 之间的关系。

字段1:age字段2:name字段3:height字段4:weight
30zhangsan175.33140

假设 height 这个字段为 null,我们其实是不必要传递这个字段的,这个时候我们需要传递的数据就为:30|zhangsan|140。但是在接收端,解析数据并按照顺序进行字段匹配的时候就会出问题。

字段1:age字段2:name字段3:height字段4:weight
30zhangsan140

显然已经乱套了,为了保证能够正确的配对,我们可以使用 tag 技术,即每个字段我们都用tag|value 的方式来存储的,在 tag 当中记录两种信息:

  • value 对应的字段的编号
  • value 的数据类型

因为 tag 中有字段编号信息,所以即使没有传递 height 字段的 value 值,根据编号也能正确的配对。

使用 tag 也会增加额外的空间,这跟 JSON 的 key/value 有什么区别吗? JSON 中的 key 是字符串,每个字符就会占据一个字节,像 name 这个 key 就会占据 4 个字节,但在 PB 中,tag 使用二进制进行存储,一般只会占据 1 个字节,它的代码为:

static int makeTag(final int fieldNumber, final int wireType) {
  return (fieldNumber << 3) | wireType;
}
  • fieldNumber 就是字段编号,比如 fieldNumber 为 1 表示age,为 2 表示 name 等;
  • wireType 表示字段的数据类型,以此来计算 value 占用字节的大小。

注:在 protobuf 当中,wireType可以支持的字段类型如下:
在这里插入图片描述

编码优化

我们知道整数在计算机当中占 4 个字节,但绝大部分的整数,比如价格,库存等,都是比较小的整数,实际用不了 4 个字节,比如 127 在计算机中的二进制为:

00000000 00000000 00000000 01111111

完全可以用最后 1 个字节来进行存储,protobuf 当中定义了 Varint 这种数据类型,可以用不同的长度来存储整数,进一步压缩数据的存储空间。

另外在计算机中,负数使用补码表示,比如 -1,它的二进制表示方式为:

11111111 11111111 11111111 11111111

显然就无法用 1 个字节来表示了,这个时候就可以使用 zigzag 算法对负数进行变换,最终可用 2 个字节来表示 -1。

Varints

《深入理解 Kafka:核心设计与实践原理》

Varints 是使用一个或多个字节来序列化整数的一种方法。数值越小,其占用的字节数就越少。Varints 中的每个字节都有一个位于最高位的 msb 位(most significant bit),除最后一个字节外,其余 msb 位都设置为 1,最后一个字节的 msb 位为 0。这个 msb 位表示其后的字节是否和当前字节一起来表示同一个整数。 除 msb 位外,剩余的 7 位用于存储数据本身,这种表示型又称为 Base 128。通常而言,一个字节 8 位可以表示 256 个值,所以称为 Base 256,而这里只能用 7 位表示,2 的 7 次方即 128。Varints 中采用的是小端字节序,即最小的字节放在最前面。

举个例子,比如数字 1,它只占一个字节,所以 msb 位为 0:

0000 0001

再举一个复杂点得例子,比如数字 300:

1010 1100 0000 0010

300 得二进制表示原本为 0000 0001 0010 1100 = 256 + 32 +8 + 4 = 300。那么为什么 300 的变长表示为上面这种形式呢?

首先去掉每个字节的 msb 位,表示为:

1010 1100 0000 0010 -> 010 1100 000 0010(varints 表示去掉 msb 的结果)

如前所述,varints 使用小端字节序的布局方式,所以这里两个字节的位置需要翻转再补上最高位:

010 1100 000 0010
-> 000 0010 010 1100(翻转)
-> 0000 0010 0010 1100(补上每字节的最高位 0)

Varints 可以用来表示 int32、int64、uint32、uint64、sint32、sint64、bool、enum 等类型。在实际使用过程中,如果当前字段可以表示为负数,那么对 int32/int64 和 sint32/sint64 而言,它们在进行编码时存在较大的区别。比如使用 int64 表示一个负数,那么哪怕是 -1(-1 正常需要 8 * 8 = 64 位来表示,而 varint 表示法,每个字节的最高位需要作为 msb,相当于每个字节只有 7 位,所以至少需要 10 字节(10 * 7 > 64 > 9 * 7)来表示),其编码后的长度始终为 10 个字节,就如同对待一个很大的无符号长整型数一样。为了使编码更加高效,Varints 使用了 ZigZag 的编码方式。

ZigZag 编码以一种锯齿形(zig-zags)的方式来回穿梭正负整数,将带符号整数映射为无符号整数,这样可以使绝对值较小的负数仍然享有较小的 Varints 编码值,比如 -1 编码为 1,1 编码为 2,-2 编码为 3,如表5-1所示。
ZigZag编码
对应的公式为:

(n << 1) ^ (n >> 31) (sin32)、(n << 1) ^ (n >> 63)(sin64)

以 -1 为例, 其二进制表现形式为 1111 1111 1111 1111 1111 1111 1111 1111 ( 补码 )。

( n << 1 ) = 1111 1111 1111 1111 1111 1111 1111 1110
(n >> 31) = 1111 1111 1111 1111 1111 1111 1111 1111
(n << 1) ^ (n >> 31 ) = 1

最终 -1 的 Varints 编码为 0000 0001 ,这样原本用 4 个字节表示的 -1 现在可以用 1 个字节来表示了。

前面说过 Varints 中的一个字节中只有 7 位是有效数值位, 即 只能表示 128 个数值 ,转变成绝对值之后其实质上只能表示 64 个数值 。 比如对消息体长度而言,其值肯定是大于等于 0 的正整数,那么一个字节长度的 Varints 最大只能表示 64 。 65 的二进制数表示为:

0100 0001

经过 ZigZag 处理后为:

1000 00 1 0 A 0000 0000 = 1000 0010

每个字节的低 7 位是有效数值位,所以 1000 0010 进一步转变为:

000 0001 000 0010

而 Varints 使用小端字节序,所以需要翻转一下位置:

000 0010 000 0001

设置非最后一个字节的 msb 位为 1 ,最后一个字节的 msb 位为 0,最终有:

1000 0010 0000 0001

所以最终 65 表示为 1000 0010 0000 0001 ,而 64 却表示为 0 100 0000 。

解码

因为每个字段都用 tag|value 来表示,在 tag 中包含了 value 的数据类型信息,所以可以直接从 tag 中得知 value 的字节大小,从而快速地解析出数据。例如 value 是 bool 型,我们就知道其占了 1 个字节,程序从 tag 后面直接读一个字节就可以解析出 value,而 JSON 则需要进行字符串解析才可以办到。

如果 value 是字符串类型的,我们无法从 tag 当中得知 value 的实际长度,就不得不做字符串匹配操作,要知道字符串匹配是非常耗时的。 为了能够快速解析字符串类型的数据,protobuf 在存储的时候,对其做了特殊的处理,即其存储被分做三部分:tag|length|value,其中的 leg 记录了字符串的长度,同样使用了 varint 来存储,然后程序从 leg 后截取 leg 个字节的数据作为 value。

在这里插入图片描述

协议比较

Avro、ProtoBuf、Thrift 的模式演进之法【翻译】

如果有一些数据,想存储在文件中,或者通过网络发送出去,对数据的处理主要分为如下几个阶段:

  1. 使用编程语言内置的序列化机制,如 Java Serialization、 Ruby Marshal 或 Python pickle,或者甚至发明自己的格式。
  2. 意识到被锁定在一种编程语言中是很糟糕的,所以转向使用一种广泛支持的、与语言无关的格式,比如 JSON (或者 XML)。
  3. 觉得 JSON 过于冗长,解析速度太慢。也会恼火它竟然无法区分整数和浮点。所以出现了一种类似于 JSON 的格式,但它是二进制的。(比如: MessagePack、 BSON、Binary JSON 等)。
  4. 当使用不一致的协议类型进行通信时,总会出现对象字段匹配失效的问题。此外,类似于 JSON 的二进制文件并没有那么紧凑,因为它们仍会一遍又一遍地存储字段名。如果有一个协议,可以避免存储对象的字段名,则可以节省更多字节。可用选项通常是 Thrift, Protocol Buffers(以下简称 ProtoBuf)或 Avro。这三种序列化协议都是基于模式设计的,为 Java 开发人员提供了高效的、跨语言数据序列化和代码生成能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/489472.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

长安链共识算法切换:动态调整,灵活可变

#功能发布 长安链3.0正式版发布了多个重点功能&#xff0c;包括共识算法切换、支持java智能合约引擎、支持后量子密码、web3生态兼容等。我们接下来为大家详细介绍新功能的设计、应用与规划。 随着长安链应用愈加成熟与广泛&#xff0c;一些在生产中很实用的需求浮出水面。长安…

MySQL进阶-----索引的结构与分类

目录 前言 一、认识索引 二、索引结构 1.概述 2. 二叉树 3 .B-Tree 4.BTree 5.Hash 三、索引的分类 1 .索引分类 2 .聚集索引&二级索引 前言 索引&#xff08;index&#xff09;是帮助MySQL高效获取数据的数据结构(有序)。在数据之外&#xff0c;数据库系统还维…

基于nginx 动态 URL反向代理的实现

背景&#xff1a; 我们在项目中在这样一个场景&#xff0c;用户需要使用固定的软件资源&#xff0c;这些资源是以服务器或者以容器形式存在的。 资源以webAPI方式在内网向外提供接口&#xff0c;资源分类多种类型&#xff0c;每种类型的资源程序和Wapi参数都一样。这些资源部属…

javaWeb在线考试系统

一、简介 在线考试系统是现代教育中一项重要的辅助教学工具&#xff0c;它为学生提供了便捷的考试方式&#xff0c;同时也为教师提供了高效的考试管理方式。我设计了一个基于JavaWeb的在线考试系统&#xff0c;该系统包括三个角色&#xff1a;管理员、老师和学生。管理员拥有菜…

ubuntu2004自动更新内核导致nvidia驱动无法正常启动的问题

症状 开机后&#xff0c;nvidia-smi无法正常显示显卡状态&#xff0c;另外无法连接多个显示屏 解决 参考这个文章&#xff1a; ls /usr/src可以看到已安装的nvidia驱动版本是nvidia-535.54.03 然后运行下面的指令&#xff1a; sudo apt-get install dkmssudo dkms instal…

Mimikatz介绍

一、Mimikatz定义 mimikatz是benjamin使用C语言编写的一款非常强大的安全工具&#xff0c;它可以从机器内存中提取明文密码、密码Hash、PIN码和Kerberos票据等。它的功能非常强大&#xff0c;得到全球安全研究员的广泛使用。 Mimikatz 是一款功能强大的轻量级调试神器&#xff…

Java版直播商城免 费 搭 建:平台规划与常见营销模式,电商源码、小程序、三级分销及详解

【saas云平台】打造全行业全渠道全场景的saas产品&#xff0c;为经营场景提供一体化解决方案&#xff1b;门店经营区域化、网店经营一体化&#xff0c;本地化、全方位、一站式服务&#xff0c;为多门店提供统一运营解决方案&#xff1b;提供丰富多样的营销玩法覆盖所有经营场景…

在vue中使用echarts饼图示例

1.安装 npm install echarts --save 2.官方示例 option {title: {text: Referer of a Website,subtext: Fake Data,left: center},tooltip: {trigger: item},legend: {orient: vertical,left: left},series: [{name: Access From,type: pie,radius: 50%,data: [{ value: 104…

巧用cpl文件维权和免杀(下)

cpl文件的应用 bypass Windows AppLocker 什么是Windows AppLocker: AppLocker即“应用程序控制策略”&#xff0c;是Windows 7系统中新增加的一项安全功能。在win7以上的系统中默认都集成了该功能。 默认的Applocker规则集合,可以看到cpl并不在默认规则中: 开启Applocker规…

NVIDIA NIM 提供优化的推理微服务以大规模部署 AI 模型

NVIDIA NIM 提供优化的推理微服务以大规模部署 AI 模型 生成式人工智能的采用率显着上升。 在 2022 年 OpenAI ChatGPT 推出的推动下&#xff0c;这项新技术在几个月内就积累了超过 1 亿用户&#xff0c;并推动了几乎所有行业的开发活动激增。 到 2023 年&#xff0c;开发人员…

聊一聊常见的网络安全模型

目录 一、概述 二、基于时间的PDR模型 2.1 模型概念提出者 2.2 模型图 2.3 模型内容 2.3.1 Protection&#xff08;保护&#xff09; 2.3.2 Detection&#xff08;检测&#xff09; 2.3.3 Response&#xff08;响应&#xff09; 2.4 PDR模型思想 2.4.1 PDR模型假设 2…

【k8s】kubeasz 3.6.3 + virtualbox 搭建本地虚拟机openeuler 22.03 三节点集群 离线方案

kubeasz项目源码地址 GitHub - easzlab/kubeasz: 使用Ansible脚本安装K8S集群&#xff0c;介绍组件交互原理&#xff0c;方便直接&#xff0c;不受国内网络环境影响 拉取代码&#xff0c;并切换到最近发布的分支 git clone https://github.com/easzlab/kubeasz cd kubeasz gi…

【openGL4.x手册10】基元程序集和面部剔除

https://www.khronos.org/opengl/wiki/Face_Culling 一、说明 基元汇编是 OpenGL 渲染管道中的阶段&#xff0c;在该阶段&#xff0c;基元被划分为一系列单独的基本基元。经过一些小的处理后&#xff0c;如下所述&#xff0c;它们被传递到光栅器进行渲染。 二 早期原始组装 基…

Spring实例化Bean的三种方式

参考资料&#xff1a; Core Technologies 核心技术 spring实例化bean的三种方式 构造器来实例化bean 静态工厂方法实例化bean 非静态工厂方法实例化bean_spring中有参构造器实例化-CSDN博客 1. 构造函数 1.1. 空参构造函数 下面这样表示调用空参构造函数&#xff0c;使用p…

npm ERR! cb() never called!(已解决)

从仓库拉下来的代码&#xff0c;用npm install时报错 试了很多种方法&#xff0c;结果发现有一种可能是你的node版本过低导致的&#xff0c;可以升级node版本试一下。 node版本升级后&#xff0c;把上一次npm install错误的node_modules删除&#xff0c;重新npm install。

压力测试面试题及答案!

压力测试是软件测试中的一种测试方式&#xff0c;用于评估软件系统在各种压力条件下的性能表现。以下是常见的压力测试面试题及答案&#xff1a; 什么是压力测试&#xff1f; 压力测试是一种测试方式&#xff0c;用于模拟实际用户在正常和峰值负载条件下对软件系统施加的压力&…

java线程池原理浅析

问题与解决&#xff1a; 问题&#xff1a; 查询大数据量的时候&#xff0c;例如一次返回50w数据量的包&#xff0c;循环去查询发现读取会超时。 解决方案&#xff1a; 经过思考采用多线程去分页查询。使用线程池创建多个线程去查询分页后的数据最后汇总一下&#xff0c;解决…

双指针算法_盛水最多的容器

题目&#xff1a; 题目解析&#xff1a; 如图所示&#xff0c;一个数组内部存储的是高度&#xff0c;求数组中&#xff0c;能够组成最大容量的两个元素&#xff0c;需要注意的是容量是 高度*宽度&#xff0c;这里的宽度指的是两个数字之间的距离&#xff0c;且需要注意高度中&…

现代c++内存管理的方式有哪些?

在现代C编程实践中&#xff0c;内存管理是软件开发中的核心议题之一&#xff0c;直接影响着程序的性能、稳定性以及资源的有效利用。C提供了一系列丰富且灵活的内存管理机制&#xff0c;以适应不同场景的需求和应对潜在的内存问题&#xff0c;如内存泄漏、野指针和堆栈溢出等。…

VUE之首次加载项目缓慢

最近公司有个大型的项目&#xff0c;使用vue2开发的&#xff0c;但是最终开发完成之后&#xff0c;项目发布到线上&#xff0c;首次加载项目特别缓慢&#xff0c;有时候至少三十秒才能加载完成&#xff0c;加载太慢了&#xff0c;太影响用户体验了&#xff0c;最近研究了一下优…