“宕机”是计算机术语,口头上,我们简单的把停掉的机器叫做“down机”,转换为汉字意思是“宕机”,更多人把它叫做“当机”或“死机”,虽然这种称呼和说法并不规范,但却很流行。

宕机,是指操作系统无法从一个严重系统错误中恢复过来,或系统硬件层面出了问题,以致于系统长时间没有响应,而不得不重新启动计算机。宕机属于电脑运作的一种正常现象,任何个人电脑(PC机)和服务器,都有可能出现这种情况。

下面来给大家介绍一下服务器“宕机”5个步骤的诊断方法:

步骤1:发生了什么事?

系统管理员,必须肩负起分析和判断服务器宕机原因的责任,需要首先解决如下的问题:

• 是否是断电,发电机测试以及是否由于其他类似问题影响了整体物理环境?
• 和服务器的通信是否已经完全被阻断,还是某些IP段依旧可以使用?
• 是否还可以管理服务器?
• 日志中是否有异常记录?

这些只是少部分管理员们需要立即回答的问题,在深入诊断服务器宕机原因之前,先解决上述问题。

步骤2:最简单的解决方案往往是最好的

有很多时候会陷入诊断高级问题的误区,分析各种可能的技术问题和疑难杂症。而实际上,退一步,从宏观角度思考问题,有可能就能够解决那些花费无数工时和成本,却还没有攻克的技术难题。例如:主机通电了吗?或者是否有人无意间碰掉了电源线?如果机器确实已经通电,但没有任何网络连接,需要检查网线或者光纤是否没有接上或者松动。

是的,这些看似明显低级错误的解决方法,很多时候被认为不太可能发生,但任何有经验的系统管理员会告诉你,这些状况的发生频率,远比想象的要多得多。

步骤3:基本故障处理方法没有效果怎么办?

到了第3步,已经检查了所有电缆和其他外围设备,可以试着使用“ping(一种网络诊断工具)”命令探测设备状况。幸运的是,“ping”命令是所有操作系统平台都通用的,也是最简单的一种网络诊断工具。如果可以在局域网内“ping”通服务器,接着可以试试从局域网外“ping”服务器进行检测。这样做,可以迅速判断问题是否产生在交换和路由层面,而不是服务器层面。此外,如果服务器已经虚拟化,可以试着“ping”物理服务器的真实IP,这样可以帮助进一步隔离问题。如果完全无法“ping”通服务器,而且也已经确认完全检查了网络连接,那么就需要进行更深入的分析了。

步骤4:使尽浑身解数,服务器依然宕机

前面3个步骤,已经检查过网线,也试过了“ping”服务器,但依旧无法访问服务器。好消息是,已经可以将问题定位到“物理服务器”或“操作系统”本身了。换句话说,已经可以开始集中精力对现存的问题进行排查。

接下来,用从底层到高层的方式来逐层检查问题,首先检查“网络接口”和“本地网络配置”是否正常。DHCP(动态主机设置协议)是否启动?服务器是否指向正确的DNS(域名系统)服务器?如果是这样,可以根据使用的操作系统平台,检查Web服务是否正常开启。在Windows环境下,需要检查服务器是否具有Web服务的角色。在Linux环境下,检查会更复杂,可以试试查找http相关的文件或服务,来确保服务器是否正在运行。

步骤5:绝境下需要动用绝招

如果以上方法都不奏效,检查日志,并尝试查明在服务器宕机时,日志中记录的那些信息。然后,将那些信息发给在故障处理和解决领域更有经验的专业人士,可能会获得更多的帮助。同样的,如果已经确认网络连接不是问题,就可以使用“Wireshark”网络抓包工具,对网络中传输的数据进行抓取分析,以此协助处理问题。

总而言之,服务器宕机的原因多种多样。断电、配置错误、防火墙设置错误,甚至是来自于互联网的恶意流量,都有可能引发源站宕机,并让系统管理员们抓狂。所有这些问题,都足以让企业决策者对冗余解决方案的设计和实施加以重视,同样的,针对故障处理流程的设计和制定,还需要根据企业自身网络的实际情况为依据。

亿速云,作为一家拥有丰富行业积淀的专业云计算服务提供商,一直专注于技术创新和打造更好的服务品质,致力于为广大用户,提供高性价比、高可用性的云服务器,具有“弹性伸缩、安全稳定、简单易用、节省成本”等特点和优势。

亿速云云服务器,采用了多重冗余备份的机制,配备了高效的容灾部署和多层次的安全性,云服务器一旦出现宕机等突发状况时,将会自动迁移至另一台可用的云服务器实例上,并且可以快速恢复使用,规避了“单点故障”的风险,极大地提高了用户业务的在线率和可用性。