服务器集群故障检测

来源:Leah 时间:2022-06-22 09:22:38阅读:0

集群服务可以检测和隔离网络故障。集群服务采用改进的网络故障检测方法,改进故障恢复操作。故障检测和预防是服务器集群的突出优势。当集群中的节点或应用程序失效时,集群服务器可以通过重启失败的应用程序或将故障系统的工作分散到幸存的集群节点来响应。集群服务器的故障检测和预防包括双向故障转移、应用程序故障转移、并行恢复和自动故障恢复。

服务器集群故障检测

集群服务可以检测每个资源或整个节点的故障,动态地将应用程序、数据和文件资源转移到集群中可用的正常服务器上,然后重新启动。因此,数据库、共享文件和应用程序等资源可以保持用户和客户端应用程序的高度可用性。

集群服务器设计有以下两种不同的故障检测机制。

•用于检测节点故障的心跳通信。

•资源监测器和资源DLL,用于检测资源故障。

1.检测节点故障

集群节点之间的通信允许集群服务检测节点的故障和状态,并将集群作为实体进行管理。为该节点与节点之间的通信设置多个网络,以消除单点故障。集群节点上运行的集群服务跟踪集群中节点的当前状态,并确定集群及其资源何时故障转移到备用节点。该通信以每个节点集群服务之间定期发送信息的形式进行。这些信息被称为检测信号或心跳。

通过心跳通信,每个节点都可以检查其他节点及其应用程序的可用性。如果服务器配备了心跳通信;响应,正常工作的服务器将启动过度稳定的故障转移(包括仲裁故障服务器拥有的资源和应用程序的所有权)。仲裁是通过质询和辩护协议进行的。换句话说,如果一个节点似乎出现故障,允许它在给定的时间内以几种方式表明它仍在正常运行,并可以通信到其他正常节点。如果它不能证明它正常工作,它将被移出集群。

各种事件可能会导致节点无法响应心跳信息,如计算机故障、网络接口故障、网络故障,甚至可能是由于罕见的高峰活动。一般来说,当所有节点通信时,配置数据库管理器将全球配置数据库更新发送到每个节点。当心跳通信失败时,日志管理金还将将配置数据库的变更保存到仲裁资源中。这确保了幸存节点在恢复过程中访问最新的集群配置和当地节点的注册表数据。

需要注意的是,故障检测算法相当保守。换句话说,在进入故障转移过程之前,它会给那些有明显故障的节点尽可能多的询问机会。如果心跳响应失败的原因是暂时的,最好避免故障转移的潜在影响。然而,由于无法知道该节点将沉默多久,该节点可能会受到长期故障的影响。因此,故障转移过程应在合理时间后启动。

2.检测资源故障

如果资源在当前主机节点上不可操作且无法重新启动,则集群服务认为资源出现故障。集群服务以下方式检测资源故障。

(1)在周期性时间间隔内,集群服务检查资源,了解资源是否可操作。集群服务通过定期调用资源监控器来完成任务。另一方面,资源监控器依赖于每个资源的主动资源链接库(DLL)检测资源是否正常测资源是否正常工作DLL通过资源监视器将结果传递给集群服务。LooksAlive”和“lsAlive,轮询间隔指定集群服务检查资源故障的频率。集群服务在每个lsAlive要求在时间间隔内比较资源的状态LooksAlive"间隔内骄傲更彻底的检查。lsAlive轮询隔通常比LooksAlive轮询隔长。

(2)若资源DLL如果报告资源操作,因此集群服务将尝试重新启动资源。如果集群服务在指定时间内尝试重新启动资源的次数超过最大重新启动的次数,但资源仍不能操作,则集群服务将认为资源出现故障。

是否可以配置故障资源,导致包含该资源的组故障转移到其他节点。如果故障资源的配置愿意将包含该资源的组故障转移到其他节点,那么集群服务将尝试故障转移。如果故障转移试验次数超过组的缺口值,且资源仍处于故障状态,则集群服务将重新启动试验资源。在资源的故障重试周期属性(所有资源的一般属性)指定的周期结束后,将进行重新启动试验。集群服务开始尝试重新启动资源,然后转移故障。

虽然故障重试周期属性的单位是ms,但按分钟顺序选择值。您也可以选择比资源重启周期属性值更大或相等的值,并强制执行此规则。

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:shawn.lee@vecloud.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

本站原创内容未经允许不得转载,或转载时需注明出处:https://news.kd010.com/fwqjs/10915.html

TAG标签:服务器集群

相关推荐

返回顶部