故障集合-索引篇

故障集合-索引篇

线上故障集锦

记录一些运维期间的线上故障, 供自我反思, 也让大家乐一乐哈;
另收录一些其它部门的故障案例;

避免敏感信息泄露, 主要记录早期的个人的一些案例;

我的故障案例

  1. 重大故障 - 更新 ntp 服务器时间错误
    更新 ntp 服务器时间错误

  2. https 证书链导入错误;
    企业级别的ssl证书, 一般除了根CA证书已经内置在浏览器外, 从厂家会拿到 一对服务器证书, 很有可能还有一张中级CA证书, 甚至还会有第二张中级CA证书, 这其中存在一个证书链的关系;
    我多年前导入线上证书时,少导入了一张中级CA证书,导致证书链没有建立成功, 引起了一个故障;

  3. memcache 默认连接数 1024, 这个数确实少了点; 当时没留意, 结果满了, 引发了一次故障;

  4. iptable 相关; 多次与 iptable 相关的故障都出现在 ip_conntrack 和 nf_conntrack 上面;
    如果不对链路进行跟踪, 那就需要配置一进一出两条策略, 开了就只需要配置一条;
    所以基本都是开着的;
    例如这条规则:
    iptables -A INPUT -m state –state ESTABLISHED,RELATED -j ACCEPT
    但是使用 state 模块后, 会在 /proc/net/nf_conntrack 表记录每一个连接的信息;
    而这个表却是有大小上限的, 超出大小上限后新连接就会被丢弃;
    el5 时的 ip_conntrack_max 修改很难生效, 重启 iptable 就会重置这个值;
    el6 时的 nf_conntrack_max 稍微好一些, 但还是多次遇到这个问题;
    后来吸取教训, 高并发节点, 避免使用到 iptable 的 state 模块;

  5. mysql 数据库 swap 导致的故障;
    此故障是个人所遇到的最困难的一次; 持续多天才解决;
    mysql主机swap导致的故障

周边故障

  1. 故障案例-升级openssl库所引发的故障
    故障案例-升级openssl库所引发的故障

微信搜索IT运维小秋

Licensed under CC BY-NC-SA 4.0
转载或引用本文时请遵守许可协议,知会作者并注明出处
不得用于商业用途!
最后更新于 2021-06-05 00:00 UTC