服务器是怎么做到每年只停机30秒的?

Leah发布于:2022-08-11阅读:0

关键业务服务器对可靠性有非常严格的要求究机构调查了不同行业,关键业务中断服务损失:服务器停机1分钟,平均运输损失15万美元,银行损失27万美元,通信损失35万美元,制造损失42万美元,证券损失45万美元ITIC2018年底最新统计,停机损失1小时:

服务器是怎么做到每年只停机30秒的?

前几年关键业务服务器的金标准是59,现在已经要求69,甚至79。他们是什么意思?

X九、表示服务器在一年使用过程中正常使用时间与总时间(1年)的比值。

5个9:(1-99.999%)*365*24*60=5.26分钟表示一年不计划停机时间不超过5分钟.26分钟。

6个9:(1-99.9999%)*365*24*60*60=31.5秒,说明一年不计划停机时间不超过30秒。

7个9:(1-99.99999%)*365*24*60*60=3.15秒,说明一年不计划停机时间不超过3秒。

ITIC2018年80%的企业最低要求为49,可靠性要求增长非常快:

除了严格的操作系统要求外,硬件保证是服务器能够实现如此短的非计划停机时间的首要任务。服务器RAS(Reliability,Availability,Serviceability高可靠性、高可用性、高服务性)特点(feature)它曾经是大型机器的骄傲,也是它们身价高的基础,但随之而来X86在RAS功能上的补足,服务器市场已经几乎被X86服务器占据。由于历史和维护原因,关键业务服务器仍有一些市场份额X但不是86的控制X86高可靠性的神话已经破灭ITIC统计:

X86服务器不仅占绝大多数,而且只有可靠性Power服务器稍微低一点。

那么这些RAS功能是什么?绝对不是烧香祈祷

但是真正的硬功夫!RAS其根本原因是提供硬件冗余以避免错误;及时发现、纠正和避免错误扩散;更换错误设备等。让我们分别看看。

内存镜像

了解计算机的学生都知道磁盘RAID模式,RAID为确保数据安全提供数据冗余RAID这是服务器上的必要要求,但你知道内存也有相同的模式,即内存镜像(MemoryMirror)。内存镜像将四个通道的内存成对存储相同的数据,类似于磁盘RAID1.硬件上保存了两份内存数据,一份损坏时有备份,更好的是对软件透明。

这个冗余度和RAID1也很大。在大多数情况下,一半的资源是闲置的。在提高可靠性的同时,浪费也非常严重。有没有省钱的方法?当然,这是内存备用(MemorySparing),简单来说就是保留部分内存,出错的时候把它们拿到顶部。它的粒度可以达到DIMM甚至以Rank为单位。

SDDC、SDDC 1、DDDC和ADDDC

众所周知,一个奇偶校验码可以发现一个错误,但不能纠正,两个以上甚至找不到。ECC更好,但对许多错误无能为力。SDDC(SingleDeviceDataCorrection,可以纠正单个设备的数据校正)X4单设备错误:

SDDC 1不仅可以纠正X4.内存错误也可以替换错误的颗粒,以免下次出错:

DDDC(DoubleDeviceDataCorrection)可以和Lockstep一起,两个DIMM拼拼,纠正两个X4颗粒错误:

DDDC 1和ADDDC(AdaptiveDoubleDeviceDataCorrection)这里就不介绍了,有兴趣的可以自己介绍Google。

内存巡警

这些都是如何处理内存访问中的错误,但有些错误可能发生在未访问的区域。如果不处理这些区域的错误,它们可能会越来越少DDDC纠错能力。这就需要了PatrolMemoryScrubbing帮助。它将帮助定期扫描内存可能出现的错误,就像高速巡警一样。DemandScrubbing纠正后会写回发现错误的数据,避免错误积累。

报告和隔离错误

作为服务器必备的功能,WHEA向操作系统报告错误,操作系统可选择做出相应的动作。BIOS还可以设置poison设置错误范围。

CPU、内存和设备的热插拔

即使通过各种手段,硬件也会出错(SDDC等等)已经纠正了,但隐患已经被埋葬了。一旦硬件出现错误,它可能会变得越来越严重,并逐渐变得无法纠正错误。为了避免这种情况,有必要拆除和更换错误的设备。

那么,在向管理员报告操作系统错误后,该怎么办呢?一般的想法是关闭和更换设备。但这种操作受到了严重的影响x9的可用性数据。在操作系统不断提供服务的情况下,必须更换设备、内存甚至内存CPU!

也许你听说过PCIe但内存和设备的热插拔CPU热插拔比较冷。CPU与内存热插拔和PCIe类似,有个attention开关。按下后,BIOS、操作系统和硬件将配合拆除和更换设备周围的电路、内核对象。完成后,状态指示灯显示准备工作结束,可移除。CPU与内存插入相反,但都必须BIOS、操作系统和硬件支持非常复杂,但整个操作也非常酷。

结论

6个9甚至7个9是一个需要整体考虑的系统工程。除此之外RAS除了功能,磁盘驱动器等服务器硬件也不同于民用,非常昂贵。

这些功能整体提高了服务器的价格,Google、FB、亚马逊、阿里巴巴等大型云服务公司决定从操作系统级软件冗余中另辟蹊径解决系统问题X9的可靠性问题,这样的服务器错了,直接整个offline,而不是CPU或更换内存。与此同时,另外2到3台服务器仍在提供服务,服务不会中断。

但银行电信等大型关键部门仍在传统的帮助下RAS确保系统的可靠性。

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:shawn.lee@vecloud.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

本站原创内容未经允许不得转载,或转载时需注明出处:https://news.kd010.com/fwqjs/12609.html

TAG标签:服务器

上一篇:无服务器体系架构:应用安全范式转换
下一篇:高防IP租用时要注意哪些方面?

相关文章

返回顶部