服务器集群的故障转移方案
来源:小编 时间:2022-06-23 09:09:13阅读:0
然而,集群服务设计的目的是提高服务器的性能,并在故障发生时及时进行放障转移,以提高服务器的可用性。因此,在集群服务器设计之初,必须充分考虑故障转移方案。
在多个服务器上安装应用程序或服务,可以在发生故障时接管彼此的工作。一个服务器接管故障服务器的工作过程称为故障转移。如果一个服务器变得不可用,另一个或多个服务器将自动接管故障服务器并继续处理任务。集群中的每个服务器将在集群中减少一个其他服务器作为备用服务器,可以在集群服务程序中提前设置。
考虑故障转移解决方案
在设计集群服务器基础设施时,至少要考虑以下影响因素。
1.用户希望在使用应用程序时这些应用程序可以使用,并且能够做出响应。
2.连续经营日益成为普遍的业务要求。
3.应用程序故障可能会造成严重的经济损失。
4.应用程序基础结构中的所有系统都需要维护。每个系统都必须适应硬件升级和软件升级,而不会导致应用程序停止运行。例如,需要在服务器(提供应用程序)中发布修复程序来修复运行〉上部组件的安全性。如果只有这个服务棒,应用程序将停止运行。如果服务器是一系列服务器之一,服务器将停止运行,而应用程序将停止运行。
5.增加硬件可能会增加解决方案的成本和复杂性。例如,需要为新硬件或功能更强的硬件提供开发和测试应用程序能够充分利用功能更强的环填充。此外,更复杂的环境管理还需要增加维护和培训成本。
故障转移原理
了解服务器集群故障转移的原理需要考虑的事项后,了解服务器集群故障转移的原理。整个故障转移过程主要涉及以下方面。
1.检测故障
在充分考虑上述影响因素后,还必须设计一套故障检测方案。要使备用服务器成为活动服务器,必须努力确定活动服务器是否不再正常工作。
通常,系统使用以下常规类型的心跳机制。
a.发送信号。对于发送信号,活动服务器将指定的信号发送到备用服务器,以定义一个良好的时间间隔。如果备用服务器在一定时间间隔内未收到信号,则确定活动服务器故障并扮演活动角色。例如,活动服务器是分开的30s如果设置的备用服务器注意到,将状态信息发送到备用服务器90s(三个时间间隔〉未收到任何状态信息,将接管活动服务器的工作。
b.接收信号。备用服务器向活动服务器发送接收信号的请求。如果活动服务器没有响应,备用服务器将根据特定次数重复此请求。如果吉普车仍然没有响,备用服务器将接管活动服务器的工作。例如,备用服务器可能每分钟都有GetCustomerDetails向活动服务器发送消息。如果备用服务器发送GetCustomerDetails请求3次,但未收到响应,备用服务器将接管活动服务。
集群可以使用多个级别的信号。例如,集群可以在服务器级别使用发送信号,并在应用程序级别使用一组接收信号。在此配置中,当活动服务器启动并连接到网络时,它会将心跳信息发送到备用服务器。这些心跳信息是根据更频繁的时间间隔(如每个时间隔)发送的Ss)发送的备用服务器可以通过编程设置为在没有收到两个心跳信息的情况下接管活动服务榕树。换句话说,活动服务器故障后不得超过10s的时间内,备用服务器将检测到这一故障并启动备用进程。
上述发送和接收信号通过专用通信渠道发送,使网络拥塞和一般网络问题不会导致虚假故障转移。此外,备用服务器可以将查询信息发送到运行在活动服务器上的一个或多个关键应用程序,并在指定的时间间隔内等待响应。如果备用服务器收到正确的声音,则不采取任何进一步的行动。为了尽量减少对活动服务器性能的影响,应用程序级别的查询通常需要很长时间,比如每隔一分钟或更长时间。备用服务器可以通过编程设置为:在接管活动服务器工作之前,直到至少发送5个请求但未收到响应。这意味着它可能正在发展5min之后,备用服务器将启动故障转移过程。因此,集群故障转移也有时间间隔,不能保证无缝接管。
2.同步状态
在集群服务系统中,在正式接管活动服务器之前,备用服务器的状态应与故障服务器的状态同步,然后开始处理事务。主要有三种不同的问步方法。
1)事务日志
在事务日志方法中,活动服务器将记录其状态的所有变化。同步实用工具定期处理此日志,以更新备用服务器的状态,使其与活动服务器的状态一致。当活动服务器出现故障时,备用服务器必须使用该同步实用工具来处理自上次更新以来事务日态中的任何添加内容。同步后,备用服务器成为活动服务器,并开始处理事务。这种同步方法需要更长的切换时间和更长的服务器应用程序停止。
2)热备用
在热备用方法中,立即将活动服务器内部状态的更新复制到备用服务器中。由于备用服务器的状态是活动服务器状态的克隆,备用服务器可以立即成为活动服务器,并开始处理第五件事。显然,这种宽步方法所需的切换时间较短,可用性较高。
3)共享存储
在共享存储方法中,两台服务器都在共享存储设备(如存储区域网络或双主机磁盘阵列)上记录其状态。这样,故障转移就可以立即发生,因为不需要状态同步。这种同步方法也需要更多的切换时间和更高的可用性。
3.确定活动服务器
对于指定一组应用程序,只有一个活动服务器,这是极其重要的。如果多个服务器都像活动服务器,通常会导致数据损坏和锁定。解决这个问题的常见方法是使用活动令牌概念的变体。令牌是其最简单级别的标志,用于将服务器识别为应用程序的活动服务器。对于每组应用程序,只有一个活动令牌,所以只有一个服务器可以有令牌。当服务器启动时,它将验证其合作伙伴是否有活动令牌。如果有,服务器将作为备用服务器启动。如果未检测到活动令牌,将获得活动令牌的所有权,并作为活动服务器启动。当备用服务器成为活动服务器时,故障转移过程将将活动令牌移交给备用服务器。
在大多数情况下,当备用服务器成为活动服务器时,它对其正在支持的应用程序或用户是透明的。如果在事务处理过程中出现故障,可能需要重新测试事务以成功完成。这使得在编写程序代码时保持故障转移过程透明更为重要。
此外,大多数服务器都使用它IP通信地址。因此,为了成功转移故障,必须能够支持基础设施JP地址从一个服务器转移到另一个服务稽。例如,可以使用支持IP地址转移(故障机IP地址转移到接管服务器)的网络交换机。如果系统的基础设施不支持此转移功能,则可能需要使用负载平衡集群,而不是故障转移集群。
4.扩展故障转移集群服务器
故障转移集群中的可伸缩性通常是通过扩展集群中的单个服务器或添加更多功能来实现的,因此该集群系统的可伸缩性非常有限。
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:shawn.lee@vecloud.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
本站原创内容未经允许不得转载,或转载时需注明出处:https://news.kd010.com/fwqjs/10953.html
TAG标签:服务器集群