服务器故障处理

发布时间:2020-07-19 14:26:46 作者:yinxingyouyou
来源:网络 阅读:340

机房公网网站流量出口达到上限,核心站点已经出现访问缓慢、无法加载的现象

1.扩充流量

2.换机房,改变后端Web集群访问地址,将一部分中等流量的站点服务器上的Nginx配置分发到B机房服务器,随后更改DNS解析

有一套能实时查看所有域名流量,通过纵向(每台服务器流量多少,当前HTTP并发多少)、横向(每个服务器上运行了多少个域名、每个域名流量多少、域名访问来源是什么)做可视化展示的系统,监控Nginx主机上正在使用的域名、单机总流量、并发、单个域名流量等。

注意事项:

不碰核心站点,重要性不言而喻;

不碰小流量站点,因为迁移访问量较小的站点需要迁移多个站点才能有冗余流量,明显耽误时间。


系统出现故障时

#w

#last

#history

#pstree -a

#ps -aux

    $ netstat -ntlp
    $ netstat -nulp

    $ netstat -nxlp

    一般都分开运行这三个命令,不想一下子看到列出一大堆所有的服务

    如果要显示所有存在的连接,netstat 会比较慢, 你可以先用 ss 看一下总体情况

    $ free -m
    $ uptime
    $ top

    $ htop

    $ iostat -kx 2
    $ vmstat 2 10
    $ mpstat 2 10

    $ dstat --top-io --top-bio,用它可以看到谁在进行 IO


应用故障



  1. 永远不要对当前连接的服务器或者网络设备接口进行修改

  2. 请务必为自己的操作准备一套恢复机制

  3. 利用工具对网络设备配置进行自动化备份能在交换机无法工作时帮助大家在几分钟内部署好替代方案

  4. 在进行修改前对每个配置文件做好备份(.bak)

  5. 认真监控数据中心的每个方面,从室内温度开始、到机架、再到服务器--另外,服务器进程检查、正常运行时间检查等等,并通过趋势及图形工具监控带宽使用率、温度、磁盘分区用量以及其它重要数据指标。

推荐阅读:
  1. 线上故障处理原则
  2. redo 无法归档故障处理

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

服务器故障处理

上一篇:【设计模式与Android】状态模式——一个人的两幅面孔

下一篇:完善的复数类(二十五)

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》