亚马逊云科技帮助客户在云中构建具有高可靠性和韧性的应用程序

在一个理想的世界里,一切都非常完美,并且一直都在顺畅运作。早晨的通勤没有交通堵塞,最喜欢的停车位一直空着,一杯温度适宜的饮料,生活一帆风顺,没有任何中断。在需要时,您能得到所需的东西。但这只存在于想象中的完美世界里。在现实世界里,一切往往不总是按计划进行。交通情况是多变的,每天我们可能停在不同的车位,有时,可能把一杯烫手的咖啡不小心弄洒了。

 现在,考虑一下IT世界里发生的这些类似中断,而且规模更大:在全球范围内运行的服务和应用程序可能会遭遇意外中断,从而产生轻微或重大影响,具体取决于业务本身的性质。

 例如在机场候机时,常用的手机应用程序意外发生崩溃,这属于影响轻微的中断;相比之下,由于网络服务中断,飞行员无法与机场塔台人员沟通,导致所有航班停飞,这就是影响重大的中断了。

 韧性应用程序可减小发生此类中断的可能性,并尽量缩短发生故障时的恢复时间。韧性应用程序可确保服务在发生各种规模的中断时恢复过来,并在尽可能短的时间内再次可用。

 我们来更深入地了解一下什么是韧性、我们如何构建云本身的韧性,以及亚马逊云科技如何帮助客户在云中构建具有高可靠性和韧性的应用程序。

 架构可靠:亚马逊云科技全球云基础设施及架构设计稳定可靠

 云的韧性和可靠是承载云服务的硬件、软件、网络和设施所具备的抵御故障并快速从中断中恢复的能力,并尽可能减少云服务的中断。亚马逊云科技在确保云可靠性方面进行了大量投资,设计了高度可用的全球基础设施,在服务设计和部署机制中建立了保障措施,并将韧性融入平台的运营文化中。

  • 全球基础设施:亚马逊云科技在全球范围内部署了32个区域、102个可用区,并宣布计划增加15个可用区和5个亚马逊云科技区域,以便支持为全球客户提供的200多项功能齐全的服务,并且这一数字还在不断增加。每个区域由一个地理区域内的多个隔离的且在物理上分隔的可用区组成,每个区域设计为3个以上的可用区,每个可用区都有独立的电力、冷却和物理安全性,并通过冗余的超低延迟网络进行互联。可以将应用程序在多个可用区或者多个区域内部署以实现更大的容错能力。

  • 故障边界的隔离:在全球部署的同时,亚马逊云科技使用多种故障隔离结构来实现服务的韧性。这些故障隔离的边界将故障控制在已有故障域且可预测的范围内。亚马逊云科技服务的隔离边界包括:可用区(AZ)、区域(Region)、控制平面和数据平面。从故障隔离边界的维度看,亚马逊云科技运营三种不同类别的服务:可用区性、区域性和全球性。例如,每个区域级服务都部署了专用的基础设施和服务堆栈,且互相隔离,在跨区域调用时也足够的隔离机制。同时,每种服务的控制平面和数据平面都在不同的范围内进行隔离,即控制面的失败不影响数据面的运行,且不会扩散到相邻范围。(例如,控制台的失败不会影响现有云主机的运行)。综上,亚马逊云科技将故障发生时的爆炸半径控制住最小的范围内。

  • 静态稳定设计:亚马逊云科技韧性设计的关键是保持“静态稳定性”。“静态稳定性”是依赖项发生故障或不可用期间系统无需进行更改就可以依然可以保持继续正常运行,在数据平面对资源的访问一旦配置,就不依赖于控制平面,因此不会受到任何控制平面失效的影响。换句话说,即使创建、修改或删除资源的能力受损,现有资源仍然可用。

  • 单元架构:亚马逊云科技的服务采用单元架构的部署方式,即将单元作为云服务部署的基本单位,单元的大小受到限制且彼此隔离。这种设计减少了故障的影响范围,整体可用性得以提高并保持了服务的连续性,类似于船只中多个水密舱的设计。

  • 卓越运营:实现云的可靠和韧性需要的不仅仅可靠的技术,它也需要人员、文化、流程和工具的支持。亚马逊云科技基于Two-Pizza team的服务所有模式组建团队和文化,通过安全的持续发布、运营就绪审查、错误更正流程等流程和工具来维护云服务的稳定运行。

 事件预警:提供主动预警工具与机制,提前预防云上问题发生

 同时,亚马逊云科技提供系列的工具、解决方案及方案论,帮助客户利用云本身的韧性,提升“云中的韧性”。

  • Amazon Health是您的权威信息来源,可从中了解关乎您的亚马逊云科技云资源的相应服务事件和计划更改情况。Amazon Health会向您发送有关服务事件、计划变更和账户的通知,以帮助您进行管理并采取行动。登录Amazon Health Dashboard可使用Amazon EventBridge查看特定于账户的Health信息或接收Health事件更新。您还可以使用Amazon Premium Support提供的Amazon Health API以编程方式访问Amazon Health。

  • Amazon Managed Services提供主动、预防和检测功能,这些功能提高了操作门槛,并帮助降低风险,而不限制敏捷性,使您能够专注于创新。AMS通过运营能力扩展您的团队,包括监控、事件管理、亚马逊云科技事件检测及响应服务、安全、补丁、备份和成本优化。

 事前优化:提供系列工具及方法论,帮助客户提升云上业务可靠性

 通过Well-Architect框架,构建韧性系统最佳实践:包含自动从故障中恢复,测试恢复过程,横向扩展以提高工作负载的可用性,在设计时,分布式系统的工作负载架构必须能够预防与减少故障,符合静态稳定性的实践,并具备隔离机制。同时系统的设计应能够检测故障并自动加以修复或转移。

 全栈可观测性:包括亚马逊云科技原生、应用程序性能监控(APM)和开源解决方案,让您能够随时了解整个技术栈中发生的情况。可观测性让您可以在云、混合或本地环境中的网络、基础设施和应用程序中收集、关联、聚合和分析遥测数据,以便深入了解系统的行为、性能和运行状况。这些见解可帮助您更快地检测、调查和修复问题;结合人工智能和机器学习,以主动反应、预测和预防问题。

 事后协助:帮助客户构建云上可靠性能力,保障应用和数据高可靠运行

 最后,实现业务连续性,合适的业务容灾备份策略也是十分重要的。亚马逊云科技提供完善的容灾与备份机制,从冷备份、实时异步复制业务数据,到实时复制业务数据、实时同步/异步双向复制业务数据,适用于不同RPO/RTO目标需求,帮助您提前做好准备提升可用性。

 总结

 云上业务连续性是创新的基石,亚马逊云科技基础设施经过精心构建,是当今最安全、最可靠的云计算环境之一,旨在提供一个高可扩展性、高可靠的平台,使您能够快速安全地部署应用程序、构建高可用的业务系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/167291.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode207.课程表

看完题我就想,这不就是进程里面的死锁问题嘛,进程1等进程2释放锁,进程2等进程3释放锁,进程3等进程1释放锁,这就造成了死锁。或者是spring中的循环依赖问题,BeanA的初始化需要初始化一个BeanB,Be…

释放固态继电器的力量:主要优势和应用

固态继电器(SolidStateRelay,缩写SSR),是由微电子电路,分立电子器件,电力电子功率器件组成的无触点开关。用隔离器件实现了控制端与负载端的隔离。固态继电器的输入端用微小的控制信号,达到直接…

软件项目可行性研究报告

一、可行性研究报告 1.1编写目的 1.2项目背景 1.3定义 1.4参考资料 2.可行性研究的前提 2.1要求 2.2目标 2.3条件、假定和限制 2.4可行性研究方法 2.5决定可行性的主要因素 3.对现有系统的分析 3.1处理流程和数据流程 3.2工作负荷 3.3费用…

俄罗斯操作系统Aurora OS 5.0全新UI亮相

俄罗斯媒体 IXBT 报道称,该地本土企业 Открытая мобильная платформа 于 2023 年 11 月 9 日至 10 日在圣彼得堡举行的 Mobius 2023 年秋季移动开发者专业会议上,展示了 Aurora OS 5.0 的界面和其他细节。 据介绍,…

美团外卖9元每周星期一开工外卖红包优惠券怎么领取?

美团外卖9元周一开工红包活动时间是什么时候? 美团外卖9元周一开工红包优惠券是指每周星期一可以领取的美团外卖红包优惠券,在美团外卖周一开工红包领取活动时间内可领取到9元周一开工美团外卖红包优惠券;(温馨提醒:如…

git 提交成了LFS格式,如何恢复

平常习惯使用sourceTree提交代码,某次打开时弹出了一个【是否要使用LFS提交】的确认弹窗,当时不知道LFS是什么就点了确认,后续提交时代码全变成了这个样子 因为是初始化的项目首次提交,将近四百个文件全被格式化成了这个样子&…

UASRT(2)

UASRT参数配置 数据发送过程 1.双缓冲 当要发送三个数据 且是连续发送 第一个数据写入TDR寄存器 然后到移位寄存器发送(一个一个bit的发送)在第一个数据在移位寄存器发送的时候第二个数据就已经被写入TDR寄存器了等到第一个数据发送完第二个数据就进入…

2023年中国位置服务(LBS)产业链及市场规模分析[图]

卫星导航系统的高技术、高成本、高效益属性使其成为国家经济实力与科技实力的标志之一。卫星导航系统由空间段、地面段和用户段三个部分组成,已广泛用于交通运输、农林牧渔、航空航海等领域,服务载体包括手机、汽车、无人机、导弹等,对人们生…

Docker基础知识总结

文章目录 1.Docker介绍2.Docker版本3.为什么要使用Docker4.Docker基础组件4.1 镜像(Images)4.2 容器(Container)和仓库(Repository) 5.Docker安装6.Docker run7.Dockerfile8.Docker commit9.镜像发布到镜像…

深度学习之基于CT影像图像分割检测系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 基于CT影像的图像分割检测系统可以被设计成能够自动地检测出CT图像中的病变部位或解剖结构,以协助医生进…

[一周AI简讯]OpenAI宫斗;微软Bing Chat更名Copilot;Youtube测试音乐AI

OpenAI宫斗,奥特曼被解雇,董事会内讧 Sam Altman被解雇,不再担任CEO,董事会的理由是奥特曼在与董事会的沟通中始终不坦诚,阻碍了董事会履行职责的能力。原首席技术官Mira Murati担任新CEO。OpenAI宫斗剧远未结束&…

Python的requests库:解决文档缺失问题的策略与实践

在Python的requests库中,有一个名为ALL_PROXY的参数,但是该参数的文档并未进行详细的描述。这使得用户在使用该参数时可能会遇到一些问题,例如不知道如何正确地配置和使用该参数。 解决方案 针对这个问题,我们可以采取以下几种解…

[Kettle] 生成记录

在数据统计中,往往要生成固定行数和列数的记录,用于存放统计总数 需求:为方便记录1~12月份商品的销售总额,需要通过生成记录,生成一个月销售总额的数据表,包括商品名称和销售总额两个字段,记录…

深度学习之基于YoloV5-Pose的人体姿态检测可视化系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 深度学习之基于 YOLOv5-Pose 的人体姿态检测可视化系统介绍YOLOv5-Pose 简介系统特点系统架构使用方法 二、功能三、系统四. 总结 一项目简介 深度学习之基…

金融市场数据至上:QuestDB 为您的数据提供最优解 | 开源日报 No.81

vlang/v Stars: 34.7k License: MIT V 是一个开源项目,它是一种简单、易于学习的编程语言。该项目具有以下核心优势和主要功能: 简洁性:可以在周末内掌握这门语言。快速编译:使用 Clang 后端约为 110k loc/s,本地和…

【grafana | clickhouse】实现展示多折线图

说明: 采用的是 Visualizations 的 Time series,使用的 clickhouse 数据源 在工作中遇到了一个需求,写好了代码,需要在grafana上展示在一个项目中所有人的,随时间的代码提交量变化图 目前遇到的问题:展示…

jetbrains ai 提示该地区不可用的百分百解决方案,亲测有效

问题 申请 jetbrains 的 ai assistant 白名单已经通过,但是在使用 ai assistant 的过程中提示 The usage of the service is not permitted in your location ,我所在的地区是中国,目前该插件是对中国大陆关闭的。 刚开始我怀疑是代理的问题&#xff…

2023年中国负极材料分类、产量及市场规模分析[图]

锂离子电池主要由正极、负极、隔膜、电解液、电池外壳组成。负极材料是锂离子电池的重要原材料之一,对于锂离子电池起关键作用。在充电过程负极材料中不断地与锂离子发生反应,将锂离子“擒获并存储”起来,亦将外部的功以能量的形式存储在电池…

1688API接口接入|阿里1688-B类电商基础链路专业化体验升级

新挑战,新契机! 当下整个互联网的竞争环境的变化为我们带来新的机遇和挑战。1688作为连接中小生产商、贸易商和零售商的源头货源首选平台,持续不断地为B类买家提供更专业的服务和更优质的源头厂货供给,打造核心竞争力。 面对新的…

数据结构与算法编程题3

长度为n的顺序表&#xff0c;删除线性表所有值为x的元素&#xff0c;使得时间复杂度为O(n)&#xff0c;空间复杂度为O(1) #include <iostream> using namespace std;typedef int ElemType; #define Maxsize 100 #define OK 1 #define ERROR 0 typedef struct SqList {E…