“双机热备”是应用于服务器的一种解决方案,其构造思想是主机和从机通过TCP/IP网络连接,正常情况下主机处于工作状态,从机处于监视状态,一旦从机发现主机异常,从机将会在较短的时间之内代替主机,完全实现主机的功能。
“双机热备”从广义上来讲,就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能够持续提供服务。
从狭义上来讲,“双机热备”特指基于“active(活跃)/standby(备用)”方式的服务器热备。服务器数据,包括“数据库数据”同时往两台或多台服务器执行写操作,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行,当运行的服务器出现故障无法提供正常服务时,另一台备用服务器会通过软件诊测(一般是通过“心跳诊断”)将standby(备用)机器激活,从而保证应用在短时间内完全恢复正常使用。
一、双机热备的实现原理
双机热备技术,是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜(也可没有,而是在各自的服务器中采取RAID卡)以及相应的双机热备软件组成。
在这个容错方案中,“操作系统”和“应用程序”分别安装在两台服务器的本地系统盘中,整个网络系统的数据是通过“磁盘阵列”集中管理和数据备份的。数据集中管理是通过双机热备系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备用机将替代主机工作,从而保证网络服务不间断。
双机热备系统,采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主系统和备用系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号停止,则表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳”信号,则系统的高可用性管理软件会认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统将代替主系统发挥作用,以保证网络服务运行不间断。
双机热备有两种实现方式。一种是共享方式,即两台服务器连接一个共享使用的存储设备或存储网络,通过安装双机软件实现双机热备。另一种是纯软件方式或软件同步数据方式,即两台服务器所需要的应用数据放在各自的服务器中,不使用共同的存储设备。
基于存储共享的实现方式是双机热备的最标准的方案,在主从模式工作中,两台服务器从应用服务的角度而言是一台服务器,以同样的方式和接口对外提供服务,服务请求则是由主服务器处理。同时,从服务器通过一定的失效检测技术检测主服务器的工作状况。一旦主服务器出现故障,从服务器在较短的时间内进行切换,接管主服务器上的所有资源,成为新的主服务器,切换可以人工切换也可自动切换。由于使用共享的存储设备,因此两台服务器使用的实际上是一样的数据,由双机软件对其进行管理。
二、双机热备的工作模式
1、双机热备模式
即目前通常所说的“active(活跃)/standby(备用) 方式”,active(活跃)服务器处于工作状态;而standby(备用)服务器处于监控准备状态,服务器数据包括“数据库数据”同时往两台或多台服务器写入(通常各服务器采用RAID磁盘阵列卡),保证数据的即时同步。当active(活跃)服务器出现故障的时候,通过软件诊测或手工方式将standby(备用)机器激活,保证应用在短时间内完全恢复正常使用。典型应用在证券资金服务器或行情服务器。这是目前采用较多的一种模式,但由于另外一台服务器长期处于后备的状态,从计算资源方面考量,就存在一定的浪费。
2、双机互备模式
是两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高。配置相对要好。
3、双机双工模式
一种是网络负载均衡集群,另一种是服务器集群。这里的“双机双工模式”是属于网络负载均衡集群的一种形式,两台服务器均为活动,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份, WEB服务器或FTP服务器等用此种方式比较多。
三、双机热备的重要性和意义
双机热备针对的是服务器的故障。
服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障,等等。
一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。
而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。因此,就需要通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。
决定是否使用双机热备,正确的方法是分析一下系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备。即,你的用户能容忍多长时间恢复服务,如果服务不能恢复会造成多大的影响。
在考虑双机热备时,需要注意,一般意义上的双机热备都会有一个切换过程,这个切换过程可能是一分钟左右。在切换过程中,服务是有可能短时间中断的。但是,当切换完成后,服务将正常恢复。因此,双机热备不是无缝、不中断的,但它能够保证在出现系统故障时,能够很快恢复正常的服务,业务不致受到影响。而如果没有双机热备,则一旦出现服务器故障,可能会出现几个小时的服务中断,对业务的影响会很严重。
另有一点需要强调,即服务器的故障与交换机、存储设备的故障不同,其概率要高得多。原因在于服务器是比交换机、存储设备复杂得多的设备,同时也是既包括硬件、也包括操作系统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断,而且软件方面的问题也可能导致服务器不能正常工作。
还应指出的是,一些其他的防护措施如磁盘阵列(RAID)、数据备份虽然是非常重要的,但却不能代替双机热备的作用。
亿速云,作为一家拥有丰富行业积淀的专业云计算服务提供商、云安全服务提供商,致力于为广大用户提供的“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器”等云主机租用服务,具有安全稳定、简单易用、高可用性、高性价比的特点与优势,专为中小企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。