线上故障集锦
记录一些运维期间的线上故障, 供自我反思, 也让大家乐一乐哈;
另收录一些其它部门的故障案例;
避免敏感信息泄露, 主要记录早期的个人的一些案例;
我的故障案例
-
重大故障 - 更新 ntp 服务器时间错误
更新 ntp 服务器时间错误 -
https 证书链导入错误;
企业级别的ssl证书, 一般除了根CA证书已经内置在浏览器外, 从厂家会拿到 一对服务器证书, 很有可能还有一张中级CA证书, 甚至还会有第二张中级CA证书, 这其中存在一个证书链的关系;
我多年前导入线上证书时,少导入了一张中级CA证书,导致证书链没有建立成功, 引起了一个故障; -
memcache 默认连接数 1024, 这个数确实少了点; 当时没留意, 结果满了, 引发了一次故障;
-
iptable 相关; 多次与 iptable 相关的故障都出现在 ip_conntrack 和 nf_conntrack 上面;
如果不对链路进行跟踪, 那就需要配置一进一出两条策略, 开了就只需要配置一条;
所以基本都是开着的;
例如这条规则:
iptables -A INPUT -m state –state ESTABLISHED,RELATED -j ACCEPT
但是使用 state 模块后, 会在 /proc/net/nf_conntrack 表记录每一个连接的信息;
而这个表却是有大小上限的, 超出大小上限后新连接就会被丢弃;
el5 时的 ip_conntrack_max 修改很难生效, 重启 iptable 就会重置这个值;
el6 时的 nf_conntrack_max 稍微好一些, 但还是多次遇到这个问题;
后来吸取教训, 高并发节点, 避免使用到 iptable 的 state 模块; -
mysql 数据库 swap 导致的故障;
此故障是个人所遇到的最困难的一次; 持续多天才解决;
mysql主机swap导致的故障
周边故障
- 故障案例-升级openssl库所引发的故障
故障案例-升级openssl库所引发的故障