基础分类
-
基础平台运维
硬件, 网络, 存储, 系统, 安全, 数据库
-
业务平台运维
应用, 数据, 安全, 研发平台
简单的职务要求
-
网络工程师: 能配置 xxx 类型的设备, 熟悉各种网络协议
-
系统工程师: 常见的操作系统问题和应用问题能解决
-
安全工程师: 会排查风险或处置攻击
-
存储工程师: 熟悉各个厂商的设备, 各种备份和还原的办法
-
测试工程师: 上线后能判断服务是否正常, 上线前能配合测试
-
运维研发: 制作相应的运维工具或平台
-
资产管理: 设备清单, 资源利用率, 维保情况
-
值班人员: 快速流量切换, 快速停服, 服务降级, 屏蔽部分访问
===
细化职能分类
- 系统运维(基础平台运维)
- 应用运维
- 数据运维
- 运维研发
- 安全运维
系统运维(基础平台运维)
硬件相关: IDC 建设, 设备选型交付, 资源需求, 能力设计, 数据中心现场相关
网络建设: 数据中心网络, 传输网络, CDN 网络, 虚拟网络
操作系统: os, kernel, yum, user
公共基础运维: syslog, snmp, ntp, dns 等公共基础设置
云平台: openstack, k8s 等环境
应用运维
产品设计: 提供相关准入要求, 以满足易维护性。
如: 可监控性, 无状态化, 可伸缩, 安全, 可降级, 性能要求, 业务流梳理等。是否有流控机制, 自恢复机制。
服务管理: 上线, 更新, 回滚, 监控, 告警, 故障处理
资源管理: 带宽, 计算, 内存, 存储等资源的合理最大化利用, 具有生命周期的资源过期情况
预案管理: 应急, 安全等预案,
例行巡检: 主动检测, 发现问题, 追查问题, 排除问题
数据管理: 备份, 恢复, 完整性, 可恢复性
业务管理: 支持线上业务, 各自负责对应的业务线稳定和逐步优化
数据运维
基础存储方案: 冷热数据, 在线离线, n 副本
架构: 多中心, n 节点, 高可用, 数据流, 监控方案, 容量满足周期, 预拆分扩容计划
业务设计: 表, 字段, 索引, sql
备份: 备份周期, 异地存储, 备份校验, 可恢复性, 恢复时效性
安全: 帐号体系, 权限体系, 开放范围, 误操作或数据泄漏防范, 审计
运维研发
标准: 平台 +API, 细化监控覆盖
效率: 自动化工具
安全: 风险检测与控制
安全运维
安全制度: 制定, 培训, 反复宣讲, 落实
风险: 评估和测试
安全建设: 加固, 升级, 更新, 隔离
安全合规: 合法合规, 如用户隐私, 国家政策
应急响应: 安全事件的应急组织能力
运维工程师的闲事
即手上没啥要紧地事的时候, 就四处看看
-
看一下监控大盘, 有没有节点故障, 以及不合理的指标波动;
-
日志分析: 看看有没有明显不合理的访问请求, 如本该 5 秒完成的交易, 拖了 5 分钟, 这种情况容易是 DDOS 攻击;
-
资源预估: 预估一下当前的资源的满足周期, 如存储, 内存, CPU, 带宽, 别真到了 80% 才提需求;
-
检查备份: 异地备份恢复测试, 看看能否恢复; 重点是经常演练, 以避免手生, 到了关键时候哆嗦;
-
资源生命周期确认: 如证书还有多久到期, 该定时删除的文件和对象有没有被删除, 密码过期情况;
-
环境比对: 生产环境和测试环境和本地环境等还有哪些地方是可以较大程度保持一致的;
-
安全检测: 看看新闻, 了解一下最新的一些公开漏洞对自身是否有影响;
-
整理通信录: 哪类情况找会谁帮忙, 提前要联系方式, 多多益善, 有备无患。别关键时候群里喊无人回应。