深入OceanBase内部机制:资源隔离实现的方式总结

码到三十五 : 个人主页

心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 !

目录

      • 1. 为何HTAP需要资源隔离
      • 2. OceanBase的资源隔离机制概述
        • 租户间资源隔离
        • 租户内资源隔离
        • 物理资源隔离
        • 大查询请求的隔离
        • 优先级调度
      • 3. 物理机器隔离
      • 4. 租户隔离
        • 4.1 租户间资源隔离
          • CPU隔离
          • 基于线程数的租户工作线程的 CPU 隔离
          • 基于 cgroup 的租户工作线程的 CPU 隔离
          • 内存隔离
          • IOPS 隔离
          • 验证磁盘 IO 隔离能力的实例
        • 4.2 租户内隔离
      • 5. 大查询队列
      • 总结

凭借卓越的高并发事务实时处理能力和对大规模数据实时业务决策的强大支持,HTAP技术已崛起为企业提升数据价值挖掘效率、显著降低总成本的首选方案。伴随着国内需求的迅猛增长,专注于HTAP的数据库正由初露锋芒逐渐发展为行业的主流趋势。

在HTAP领域,国产自研的原生分布式数据库OceanBase已经深耕了12年。HTAP数据库为实现不同租户之间以及同一租户内部OLTP和OLAP业务的硬件资源共享,对资源隔离技术提出了极高的要求。而针对HTAP数据库,最佳的资源隔离策略是采用物理隔离与逻辑隔离相结合的方式,二者相辅相成,共同确保系统的高效稳定运行。

1. 为何HTAP需要资源隔离

资源隔离并非新概念,在传统的物理资源隔离方案中,不同租户或同一租户内的OLAP和OLTP业务使用各自独立的副本,即行存副本专为OLTP设计,而列存副本则服务于OLAP,确保两者在物理资源上互不干扰。在不考虑成本因素的前提下,这种物理资源隔离方式无疑是最佳选择。

然而,在实际情况中,多数客户在考虑硬件成本和资源利用率时,更倾向于采用逻辑资源隔离方案,它允许不同租户或同一租户内的OLAP和OLTP共享物理资源。因此,适合HTAP的资源隔离策略并非仅限于物理或逻辑隔离,而是在两者间寻求最佳平衡。

基础软件应赋予用户更多选择自由,使其在各种场景下都能做出最适合自己的决策。因此,数据库产品应具备同时提供物理隔离和逻辑隔离等多级资源隔离能力的必要性。

2. OceanBase的资源隔离机制概述

OceanBase的资源隔离机制是一种技术和管理策略,旨在确保在OceanBase数据库系统中,不同租户、用户或查询之间在资源使用上实现有效的隔离,从而防止单一租户、用户或查询对整个系统或其他租户造成资源上的不公平占用或性能影响。这种机制有助于维护数据库系统的稳定性和性能,同时确保数据的安全性和隐私性。

在这里插入图片描述

OceanBase的资源隔离机制是一种技术和管理策略,旨在确保在OceanBase数据库系统中,不同租户、用户或查询之间在资源使用上实现有效的隔离,从而防止单一租户、用户或查询对整个系统或其他租户造成资源上的不公平占用或性能影响。这种机制有助于维护数据库系统的稳定性和性能,同时确保数据的安全性和隐私性。

OceanBase的资源隔离机制主要包括以下几个方面:

租户间资源隔离
  • 每个租户在OceanBase中拥有独立的资源配额,如CPU、内存、存储等,确保租户之间在资源使用上互不干扰。
  • 租户间的数据是完全隔离的,保证了数据的安全性和隐私性。
    在这里插入图片描述
租户内资源隔离
  • 在租户内部,可以进一步实现用户之间的资源隔离,通过为每个用户或用户组配置独立的资源限制,防止单一用户过度占用资源。
  • SQL级别的资源隔离允许对特定的查询或操作进行资源限制,以防止某些耗资源的查询影响到其他查询或操作的性能。
物理资源隔离
  • OceanBase可以部署在多个物理节点上,通过分布式架构实现物理资源层面的隔离。不同的租户可以被部署在不同的物理节点或服务器上,从而实现硬件资源的完全隔离。
大查询请求的隔离
  • 对于可能消耗大量资源的查询请求,OceanBase具有相应的隔离和限制机制。例如,系统可以检测并限制那些可能对系统性能产生负面影响的查询,确保其他正常查询和服务不受影响。
优先级调度
  • OceanBase还支持基于优先级的资源调度,允许为高优先级的租户、用户或查询分配更多的资源,以确保关键业务的高可用性和响应速度。

通过这些多层次的资源隔离机制,OceanBase能够提供一个稳定、高效且安全的数据库服务环境,满足不同租户和用户的需求,同时保证系统的整体性能和可靠性。

3. 物理机器隔离

每个租户可以通过使用不同的服务器,来保证资源层面完全不会有任何影响。默认情况下,如果每个ZONE 有多个OBServer,那么OB会根据租户UNIT的资源配置将其均分到多个OBServer内,当然这个过程对于使用者来说是透明的,无需关注。

但是如果想要自定义UNIT到对应的节点上,也就是不同租户占用不同的机器,那么就需要关闭OB本身的均衡和迁移能力,比如关闭 enable_rebalance 和 enable_transfer,然后通过 ALTER SYSTEM MIGRATE UNIT 手动迁移UNIT 到想要的节点上,通过 ALTER SYSTEM TRANSFER PARTITION 语句用于将指定分区的迁移至指定的日志流。

这种方式可以按照自己需求来自定义分配,但是除非对OB有非常强的掌控力,否则不建议这个操作。因为这样操作以后,OB本身的负载均衡和迁移能力将不会再发挥作用。

4. 租户隔离

租户隔离分为租户间的隔离和租户内的隔离。

租户间主要是通过指定UNIT配置,给到这个租户对应的资源大小以及权重,然后OB 会根据配置调度整个实例的资源给到不同的租户。租户内的隔离主要分为用户资源隔离和SQL资源隔离,通过配置用户和SQL的资源来对租户内的资源进行分配及隔离。

4.1 租户间资源隔离

咱们熟知的物理资源一般可以分为两类:一类是弹性资源,比如CPU,磁盘带宽等;另一类是刚性资源,比如内存,磁盘空间等。弹性资源是可以抢占的,刚性资源一旦被占用,除非占有者主动释放,否则是无法抢占的。

租户间资源隔离包含了弹性资源以及刚性资源,比如CPU、IOPS以及内存与磁盘空间,通过UNIT划分控制。

CPU隔离

CPU的隔离通过UNIT CONFIG中的MIN_CPU和MAX_CPU来配置,可以通过配置最小占用、最大占用以及可选择性的开启超卖来实现。

OB的CPU隔离主要有两种方式:基于线程数和基于Cgroup。

基于线程数的租户工作线程的 CPU 隔离

OBServer 最基础的CPU隔离是通过用户态调度,控制活跃线程数来实现的。每个租户有独立的线程池,线程池的规格是由租户规格和一些配置参数来决定的。

在这里插入图片描述

由于 SQL 执行过程中可能会有 IO 等待、锁等待等,所以一个线程无法用满一个物理 CPU,故在缺省配置下,OBServer 节点会给每个 CPU 启动 4 个线程,4 这个倍数可以通过配置 cpu_quota_concurrency 来控制。这就意味着如果一个 Unit 的 MAX_CPU 是 10,那么它能同时运行的活跃线程是 40,最大物理 CPU 的占用是 400%。

但是这种方式的隔离存在一些问题,就是只能限制线程数但是不能完全限制CPU使用率,因为每个线程对CPU的占用这个不可控,所以只能做软隔离。

基于 cgroup 的租户工作线程的 CPU 隔离

OBServer 也支持配置 cgroup 来实现 CPU 的隔离优化。cgroup 能对线程的 CPU 使用率进行精准的限制,达到租户之间 CPU 强隔离的效果。
在这里插入图片描述

observer
  ├── tenant1
  │   └── tasks
  │         ├── thread1
  │         ├── thread2
  │         └── ...
  ├── tenant2
  │   └── tasks
  │         ├── thread1
  │         ├── thread2
  │         └── ...
  └── other

开启 cgroup 后最大的变化是不同租户的工作线程放到不同的 cgroup 目录内,租户间的 CPU 隔离效果会更好。最后的隔离效果如下:

  • 如果一个 OBServer 上只有一个租户负载很高,其余租户比较空闲,那么这个负载高的租户的 CPU 也会受到 MAX_CPU 的限制。
  • 延续上面的场景,如果有多个空闲的租户的负载上升了,导致物理 CPU 不够了,cgroup 会按照权重分配时间片。
    cgroup 方式可以做到硬隔离,因为可以严格控制每个租户的cpu使用率,所以可以更好的保证cpu之间相互不影响,尤其是在不超卖的情况下。4.2.x版本以后,通过OCP创建的集群,默认会使用cgroup做CPU隔离。
内存隔离

内存空间等资源属于刚性资源,因为这类资源的描述是标量,一块内存被 A 占用了,就不能再分配给 B 使用。所以对于内存隔离就不过多赘述了。

IOPS 隔离

OBServer 内所有的 IO 都是异步 IO,并且是绕过 OS 的 direct IO,磁盘带宽(IOPS)的隔离是通过控制 OBServer 提交异步 IO 的时间间隔来实现的。

OBServer 的 IO隔离没有借助cgroup,而是自研实现的,底层算法可以简单理解为多个租户共用一组io线程,所有租户都根据IO线程来分配资源以及执行租户IO队列中的IO请求,所以不同租户之间的IO请求正常情况下没有冲突,也能通过IO线程保证各个租户IOPS的使用量。

租户的IOPS受三个配置影响,MIN_IOPS、MAX_IOPS 和 IOPS_WEIGHT。

OBServer 内部会统一按照 16 KB 读的 IOPS 值作为有效值进行处理,所以建议MIN_IOPS和MAX_IOPS 根据当前磁盘计算出来的 16KB读对应的值来配置。MIN_IOPS总和建议不超过机器磁盘的IOPS,MAX_IOPS可以根据实际情况配置,可以超过。MAX_IOPS需要大于等于MIN_IOPS,如果没有指定具体的值,那么MIN_IOPS 和 MAX_IOPS 的值均为 INT64_MAX。

多租户之间的资源分配与抢占可以总结为一句话:闲时共享,忙时隔离。空闲带宽可以给有需求的租户或io类别共享,但忙碌时,需要按weight的比例隔离。

举个例子,如果磁盘IO的IOPS为10000,其中,

租户A,MIN_IOPS:4000,MAX_IOPS:8000

租户B,MIN_IOPS:6000,MAX_IOPS:10000

假设两个租户当前使用的IOPS都能达到设置的 MIN_IOPS的值,他们只会占用各自 MIN_IOPS 的 IOPS 大小,因为已经达到了磁盘本身IOPS的上限。如果租户 A 现在只用了2000,租户B是可以挤占的,比如用到8000的 IOPS。当租户A需要的时候,它会挤占回来,以满足MIN_IOPS的需求,并且这个优先级最高。

所以说,如果租户B需要的IOPS是1w,但是租户A至少也需要4000的IOPS,那么这个时候租户B是会受到影响的,因为当前场景下IO是不满足需求的,所以说对于IO也要提前做好规划,如果单台机器的IO满足不了需求可以通过扩容机器的方式来满足。

如果磁盘IO的IOPS为12000,那么剩余的这2000IOPS 租户AB需要使用的话如何分配则根据IOPS_WEIGHT来做权重。

验证磁盘 IO 隔离能力的实例

为了验证磁盘 IO 隔离的能力,我们首先用单测做了一项仿真实验:我们设置 4 个租户,每个租户启动 64 个线程发送 IO 请求,IO 请求固定为 16KB 随机读,租户 1、2、4 的负载持续 20 秒,租户 3 的负载从第 10 秒开始,持续 10 秒。实验磁盘 IOPS 上限大概在 6w,如果不加限制,任意一个租户单独都可以打满磁盘。

首先验证租户间磁盘 IO 隔离,各租户的配置和实验结果如表 1 和图 1 所示:

  • 磁盘已经打满时,新加入的租户 3 依然拥有 1 万 IOPS,因为其通过 MIN_IOPS 预留了 1 万;
  • 租户 4 的 IOPS 没有超过 5 千,因为其通过 MAX_IOPS 设置了资源上限;
  • 无论负载如何变化,租户 1 和租户 2 的 IOPS 比值大概为 2:1,正如权重比例要求。
    在这里插入图片描述
    在这里插入图片描述
4.2 租户内隔离

租户内资源隔离通过DBMS_RESOURCE_MANAGER系统包的CREATE_PLAN_DIRECTIVE接口进行配置,会对资源使用组的CPU和IO资源进行限制

DBMS_RESOURCE_MANAGER.CREATE_PLAN_DIRECTIVE (
    plan                      IN VARCHAR2, 
    group_or_subplan          IN VARCHAR2, 
    comment                   IN VARCHAR2 DEFAULT'', 
    mgmt_p1                   IN NUMBER   DEFAULT 100,
    utilization_limit         IN NUMBER   DEFAULT 100,
    MIN_IOPS                  IN NUMBER   DEFAULT 0,
    MAX_IOPS                  IN NUMBER   DEFAULT 100,
    WEIGHT_IOPS               IN NUMBER   DEFAULT 0,
);

其中,utilization_limit 表示CPU 资源使用比例上限。MIN_IOPS、MAX_IOPS和WEIGHT_IOPS用来配置管理IOPS。

目前支持配置租户内用户级和SQL 级的资源隔离,配置的方法可以参考官网:

配置用户级资源隔离:

https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000000220910

配置SQL 级资源隔离:

https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000000220909

5. 大查询队列

除了上面提到的方式,其实OB还支持大查询队列。

默认情况下,如果TP业务请求的数据库,突然过来AP相关的请求,很有可能会影响到TP的业务甚至整个集群的访问,所以为了避免这类问题,OB提供了一个大查询队列,这个大查询队列默认情况下只会占用 30% 的CPU资源,大查询判断的条件默认为执行时间超过 5s。对于后面进来的大查询,如果在计划缓存中存在,并且预估执行时间超过5s,那么会直接判断它是大查询,然后放到大查询队列中。以此来避免问题SQL或者AP查询对TP业务的影响。

在这里插入图片描述

当然,如果当前集群内本身没有小查询,基本上都是大查询的时候,这个限制是不生效的,大查询可以用到全部的CPU资源。

相关参数:

large_query_threshold:用于设置查询执行时间的阈值,默认5s。

large_query_worker_percentage:用于设置预留给处理大查询的工作线程百分比,默认30%

总结

OB的资源隔离还是涵盖了很多方面的,并且非常的灵活,可以更好的帮助我们管理集群、做业务优化等,在使用OB的过程中,可以按需使用OB的资源隔离能力来满足业务的需求。

参考来源: oceanbase官网社区


听说...关注下面公众号的人都变牛了,纯技术,纯干货 !

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/562393.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

排序 “贰” 之选择排序

目录 ​编辑 1. 选择排序基本思想 2. 直接选择排序 2.1 实现步骤 2.2 代码示例 2.3 直接选择排序的特性总结 3. 堆排序 3.1 实现步骤 3.2 代码示例 3.3 堆排序的特性总结 1. 选择排序基本思想 每一次从待排序的数据元素中选出最小(或最大)的一个…

【剪映专业版】13快速为视频配好音:清晰、无噪声、对齐

视频课程:B站有知公开课【剪映电脑版教程】 使用场景:视频无声音或者视频有声音但是需要更改声音 时间指示器在哪里,就从哪里开始 红色按钮:开始录音 声音波纹:蓝色最佳,黄色或红色声音太大,…

网络原理-UDP和TCP

在传输层中有两个非常重要的协议,UDP和TCP,现在就来研究一下这两个协议。 UDP 报文格式 我们观察可以发现,里面UDP报文长度为2个字节,那么是多少呢?我们需要快速反应如下固定字节数据类型的取值范围: 字…

open Gauss 数据库-06 openGauss数据库安全指导手册5.0.0

发文章是为了证明自己真的掌握了一个知识,同时给他人带来帮助,如有问题,欢迎指正,祝大家万事胜意! 目录 前言 openGauss数据库安全指导 1 用户权限控制 1.1 实验介绍 1.1.1 关于本实验 1.1.2 实验目的 1.2 用户…

ACE框架学习2

目录 ACE Service Configurator框架 ACE_Server_Object类 ACE_Server_Repository类 ACE_Server_Config类 ACE Task框架 ACE_Message_Queue类 ACE_TASK类 在开始之前&#xff0c;首先介绍一下模板类的实例化和使用。给出以下代码 //ACCEPTOR代表模板的方法 template <…

CAS Client使用以及执行原理

CAS Client使用以及执行原理 流程介绍 CAS Client是利用Java Web中的Filter进行实现认证功能&#xff0c;客户端对CAS Server的认证流程分为以下步骤&#xff1a; 访问CAS Client服务 由于当前session中未检测到认证信息&#xff0c;会重定向到CAS Server地址进行认证 在CA…

【深度学习】Dropout、DropPath

一、Dropout 1. 概念 Dropout 在训练阶段会让当前层每个神经元以drop_prob&#xff08; 0 ≤ drop_prob ≤ 1 0\leq\text{drop\_prob}\leq1 0≤drop_prob≤1&#xff09;的概率失活并停止工作&#xff0c;效果如下图。 在测试阶段不会进行Dropout。由于不同批次、不同样本的神…

IMUGNSS的误差状态卡尔曼滤波器(ESKF)---更新过程

IMU&GNSS的误差状态卡尔曼滤波器&#xff08;ESKF&#xff09;---更新过程 ESKF的更新过程 ESKF的更新过程 前面介绍的是ESKF的运动过程&#xff0c;现在考虑更新过程。假设一个抽象的传感器能够对状态变量产生观测&#xff0c;其观测方程为抽象的h,那么可以写为 其中z为…

创新指南|节日期间提高销量的 10 个最佳技巧

许多网上购物者在感恩节前开始假日购物。假期是在线企业销售产品和增加销售额的最佳时机。根据万事达卡的数据&#xff0c;去年在线假日销售额增长了 10.6%&#xff0c;而店内销售额增长了 6.8%。此外&#xff0c;2023年美国消费者平均计划在假日旺季花费约1,530美元。在线企业…

存储过程的查询

Oracle从入门到总裁:​​​​​​https://blog.csdn.net/weixin_67859959/article/details/135209645 在实际使用中&#xff0c;经常会需要查询数据库中已有的存储过程或者某一个存储过程的内容&#xff0c; 下面就介绍-下如何查询存储过程。 这需要使用到数据字典 user_sou…

vscode 配置verilog环境

一、常用的设置 1、语言设置 安装如下插件&#xff0c;然后在config 2、编码格式设置 解决中文注释乱码问题。vivado 默认是这个格式&#xff0c;这里也设置一样。 ctrl shift p 打开设置项 3、插件信任区设 打开一个verilog 文件&#xff0c;显示是纯本文&#xff0c;没…

B树和B+树试题解析

一、单项选择题 01&#xff0e;下图所示是一棵&#xff08;A ). A.4阶B树 B.3阶B树 C.4阶B树 D.无法确定 02.下列关于m阶B树的说法中&#xff0c;错误的是( C ). A.根结点至多有m棵子树 B.所有叶结点都在同一层次上 C.非叶结点至…

算法入门——二分查找

目录 1、二分模板 2、习题 1.704.二分查找 2.35.搜索插入位置 3.744. 寻找比目标字母大的最小字母 4.69. x 的平方根 5.1351. 统计有序矩阵中的负数 6.74. 搜索二维矩阵 7.34. 在排序数组中查找元素的第一个和最后一个位置 8.33. 搜索旋转排序数组 9.153. 寻找旋转排…

【GoWeb框架初探————XORM篇】

1. XORM xorm 是一个简单而强大的Go语言ORM库. 通过它可以使数据库操作非常简便。 1.1 特性 支持 Struct 和数据库表之间的灵活映射&#xff0c;并支持自动同步事务支持同时支持原始SQL语句和ORM操作的混合执行使用连写来简化调用支持使用ID, In, Where, Limit, Join, Havi…

java学习笔记2

3 选择结构 3.1 if选择结构 3.1.1 基本if结构 语法if(条件){// 代码块 }执行流程 当if条件为真,执行代码块,否则不执行代码块。 代码 public class Demo1 {public static void main(String[] args) {// 需求: 张浩的考试成绩>90分,奖励一部Iphone6sScanner sc = new S…

mapreduce中的ReduceTask工作机制(Hadoop)

ReduceTask 是 Hadoop 中的一个重要组件&#xff0c;负责对 MapTask 的输出进行合并、排序和归并&#xff0c;最终生成最终的输出结果。 ReduceTask 的工作机制 1. 分组&#xff08;Shuffle&#xff09;阶段&#xff1a; 在分组阶段&#xff0c;ReduceTask 会从多个 Mapper …

第二届 Oceanbase 开发者大会 实录

第二届 Oceanbase 开发者大会 实录 今天很有幸参加了Oceanbase 开发者大会&#xff0c;我是真的我一开始还不知道什么是Oceanbase &#xff0c;直到我开了会才知道。看来真的需要多参加一些这样活动。 会议议程 我们科普一下什么是Oceanbase OceanBase 是阿里巴巴集团推出…

FastChat启动与部署通义千问大模型

FastChat简介 FastChat is an open platform for training, serving, and evaluating large language model based chatbots. FastChat powers Chatbot Arena, serving over 10 million chat requests for 70 LLMs.Chatbot Arena has collected over 500K human votes from sid…

Llama 3 实测效果炸裂,一秒写数百字(附镜像站)

这几天大火的llama 3刚刚在https://askmanyai.cn上线了&#xff01; 玩了一会儿&#xff0c;这个生成速度是真的亚麻呆住。文案写作和代码生成直接爽到起飞&#xff0c;以往gpt要写一两分钟的千字文&#xff0c;llama 3几秒钟就写完了。而且效果甚至感觉更好&#xff1f; 效果惊…

日期相关的题目

日期相关的题目 1. 计算日期到天数转换2. 日期累加3. 打印日期4. 日期差值 1. 计算日期到天数转换 输出示例: 思路&#xff1a;计算前n-1个月的天数在加上这个月的天数。 #include <iostream> using namespace std;int main() {int year, month, day;cin >> yea…
最新文章