两个月SRE/DevOps求职学习计划(含通用技能、学习路径、可展示项目与产出)
目标与原则
- 目标: 面向通用型 SRE/DevOps 岗位,2个月内构建可面试展示的完整技术底座与项目产出。
- 原则: 通用优先(Linux/K8s/CI/CD/监控/云平台/自动化),业务与可观测性并重,注重“可交付物”。
- 产出: 代码仓库、Runbook、仪表板截图、架构图、成本/容量评估、演示脚本、故障复盘报告。
核心技能清单(通用优先)
必备(高通用性)
- Linux 与网络: 发行版管理、性能调优(CPU/内存/IO)、systemd、ssh、iptables、基础网络(TCP/IP、HTTP、DNS、TLS)、常用排障(tcpdump、ss、lsof、htop)。
- 容器与编排: Docker/OCI 基础、镜像规范、最佳实践;Kubernetes 核心资源(Deployment/Service/Ingress/ConfigMap/Secret)、HPA、Requests/Limits、滚动升级与灰度、RBAC;熟悉 Ingress/Nginx。
- CI/CD: GitLab CI 或 Jenkins,管道设计(构建/测试/安全扫描/制品/部署),与 Helm/K8s 集成;基础 GitOps(Argo CD 可选)。
- 可观测性: Prometheus/Alertmanager、Exporter 生态、Grafana 仪表盘、日志(Loki 或 ELK 基础)、黑盒监控、SLO/SLA/SLA 报表。
- 脚本与自动化: Shell 与 Python 至少一种;Ansible 基础(批量配置、免密、幂等);IaC 概念(Terraform 入门)。
- 中间件与服务: Nginx 反向代理/负载均衡、证书与TLS;MySQL/Redis 入门(部署、备份、基础调优与高可用概念);Kafka 基础了解。
- 云平台: 至少熟悉一种(阿里云/华为云/AWS),VPC/ECS/SLB/RDS/对象存储、权限与安全组、基础成本意识。
- 可靠性与流程: 变更/发布/回滚策略,OnCall 与故障响应,容量规划(HPA/水平扩缩容),备份与灾备,Runbook/演练。
加分(岗位常见)
- Helm 打包与版本管理、Kustomize;Argo Rollouts(金丝雀/蓝绿)。
- 日志链路:ELK/Elastic Agent/Fluentd/Fluent Bit;Tracing(Jaeger/Tempo)。
- 安全与合规:CIS Benchmark、镜像签名、网络策略、WAF、漏洞扫描(Trivy)。
- 成本优化:资源限额、按需/预留实例、可视化成本报表。
特定方向(按需补充)
- GPU/NPU 与 K8s GPU Operator、HPC 调度(Slurm)。
- 虚拟化与私有云(KVM/VMware/OpenStack)。
8周学习路径与里程碑(含产出)
第1周|Linux+网络+Git 基础巩固
- 目标:能搭建最小可用的运维环境并完成常见排障。
- 行动:进程与服务、磁盘与文件系统、网络排障命令、ssh/免密、sudo、Tmux;Git 基本流;Markdown 文档规范。
- 产出:
- 《Linux 常用排障速查》与《Git 工作流》Markdown 文档。
- 小脚本:日志切割、Nginx 一键安装(Shell)。
第2周|Docker 与 K8s 核心
- 目标:理解镜像、容器与 K8s 基础对象,能部署简单应用。
- 行动:Dockerfile 最佳实践;kubeadm 或本地 k3d/kind 搭建;Deployment/Service/Ingress;Requests/Limits;ConfigMap/Secret。
- 产出:
- 基于 Nginx/示例应用的容器化与 K8s 部署清单。
- 《镜像规范与K8s对象最佳实践》文档与架构图。
第3周|CI/CD 管道与 Helm
- 目标:从提交到部署的自动化。
- 行动:GitLab CI 或 Jenkins Pipeline;制品库(Docker Registry);Helm Chart 结构与打包发布;简单金丝雀/蓝绿理念。
- 产出:
- 完整 CI/CD YAML 与 Helm Chart;截图与说明文档。
第4周|可观测性(监控/日志/告警)
- 目标:对节点/服务/接口建立可观察性与告警。
- 行动:Prometheus/Alertmanager、Node/Blackbox Exporter、ServiceMonitor;Grafana 仪表盘;Loki 或 ELK 入门;告警路由与分级。
- 产出:
- 关键SLO监控面板与告警策略;《可观测性与告警设计》文档。
第5周|中间件与发布回滚
- 目标:掌握 Nginx/DB/缓存常见运维,建立可靠发布回滚路径。
- 行动:Nginx 灰度、限流与缓存;MySQL/Redis 基础运维;回滚策略(镜像回滚、Helm 回滚、数据备份与恢复演练)。
- 产出:
- 发布回滚演练记录与数据库备份恢复验证报告。
第6周|云平台与 IaC/自动化
- 目标:把环境上云并用 IaC/Ansible 管理。
- 行动:选一云(阿里/华为/AWS),VPC/ECS/SLB/RDS;Terraform 建模(网络+ECS);Ansible 批量配置;安全组与最小权限。
- 产出:
- Terraform/Ansible 仓库与一键部署脚本;成本与容量报告初版。
第7周|可靠性提升与成本优化
- 目标:容量与成本意识,SLO 驱动优化。
- 行动:HPA/KEDA,资源配额与限额;压测与瓶颈定位;成本可视化(估算亦可);改进发布策略(Argo Rollouts 可选)。
- 产出:
- 《容量与成本优化报告》与优化前后对比图。
第8周|整合复盘与面试准备
- 目标:打磨产出、复盘、演练面试。
- 行动:汇总架构图、Runbook、故障复盘;录屏 5-8 分钟项目Demo;准备 STAR 面经与手撕题(YAML/脚本)。
- 产出:
- 完整项目 README、演示脚本、复盘报告、截图集与一页式能力地图。
可展示项目(3选2或全做,难度由浅到深)
项目A:Kubernetes 上的电商示例应用落地(通用度高)
- 场景:前端+后端+数据库(可用开源示例如 Sock Shop/HotROD),Ingress 暴露,TLS 终止,水平扩缩容。
- 关键点:
- CI/CD:代码提交→镜像→安全扫描(Trivy)→Helm 部署到 Dev/Prod。
- 发布:滚动升级+简单金丝雀(比例流量/分组 header)。
- 观测:业务QPS/延迟/错误率、Pod 资源、节点健康;告警(错误率、延迟、Pod 重启)。
- 可交付:
- 仓库结构:
repo-root/
app-frontend/ app-backend/
helm/ (charts)
.gitlab-ci.yml 或 Jenkinsfile
k8s/ (namespace/rbac/ingress/hpa)
observability/ (prometheus rules, grafana dashboards)
docs/ (架构图、发布回滚、Runbook)
- 演示:合并 MR 触发流水线→自动发布→Grafana 指标变化→回滚一键。
项目B:可观测性与自愈平台(SRE风格)
- 场景:统一监控/日志与自动修复。
- 关键点:Prometheus + Alertmanager + Blackbox/Node Exporter + Loki;告警 Webhook 触发 Ansible/脚本做自愈(如重启异常 Pod、扩容副本)。
- 可交付:
- 告警规则库与分级路由;自愈脚本;仪表盘与演示录屏。
- 故障演练:人为制造 5xx/延迟升高→告警触发→自动扩容/回滚→复盘报告。
项目C:云上 IaC 一键落地(Terraform+Ansible+k3s)
- 场景:在公有云或本地虚拟机用 Terraform 创建网络/实例,Ansible 装 k3s 与 SRE 套件(Ingress/Prometheus/Grafana/Loki)。
- 关键点:模块化 Terraform、幂等 Ansible、最小权限安全组、成本与容量记录。
- 可交付:
- 一键脚本与变量化模板;《成本与安全组设计说明》;环境回收脚本与演示。
面试产出清单(把“看得见”的成果放到位)
- 代码仓库(公开或演示权限):应用、Helm、CI/CD、K8s manifests、Terraform/Ansible。
- 架构图:整体与模块图(部署拓扑、流量与观测链路)。
- Grafana 仪表盘截图:SLO(错误率、延迟)、节点/Pod 资源、业务指标。
- 告警策略与自愈:规则与路由配置、演练记录与截图。
- Runbook:发布回滚、扩容、数据库恢复、证书更新、日志排障等场景化流程。
- 故障复盘(Postmortem):一次注入故障的事后分析(时间线、根因、改进项、负责人与计划)。
- 成本与容量报告:实例/节点规格、负载/资源使用、优化前后对比与估算成本。
- 演示脚本与 5-8 分钟录屏:流水线→自动发布→观测→告警→回滚/自愈。
学习与实践资源(精选)
- Kubernetes 文档与 Tutorial(官方): Kubernetes Docs
- Helm 官方文档: Helm Docs
- Prometheus 与 Alertmanager: Prometheus Docs
- Grafana: Grafana Docs
- Loki/日志采集: Grafana Loki
- GitLab CI: GitLab CI/CD Docs
- Jenkins: Jenkins Docs
- Terraform: Terraform Docs
- Ansible: Ansible Docs
- Trivy(镜像扫描): Trivy Docs
环境建议
- 本地:Windows + WSL2(Ubuntu),Docker Desktop 或 Colima 替代;k3d/kind 搭 K8s;Minikube 可选。
- 云上:选一种云,小额度即可(2-3 台轻量实例),注意关机/销毁策略控制成本。
- 配额与资源:尽量使用 k3s/轻量组件;日志保留期设置合理,避免磁盘暴涨。
时间分配参考(每周 15-20 小时)
- 学习(文档/视频):6-8 小时;
- 实操与项目:8-10 小时;
- 文档沉淀与复盘:1-2 小时;
- 每周至少一次“演练+录屏+文档化”。
面试要点速记(STAR)
- S(场景):高并发发布/告警风暴/接口慢查询/磁盘打满/证书过期。
- T(任务):构建可观测性、保证可用性、自动化发布与回滚、降本与容量规划。
- A(行动):CI/CD + Helm;HPA 与限额;Prom+Grafana+Loki;Terraform+Ansible;Runbook 与演练。
- R(结果):发布失败率下降、平均恢复时间缩短、资源利用率提升、成本下降X%、SLO 达标率提升。
简历表述模板(可直接复用)
- 设计并落地基于 Kubernetes 的 CI/CD 与发布回滚方案(Helm/Argo Rollouts),实现从提交到上线全自动化,发布失败率降低 60%。
- 构建统一可观测性平台(Prometheus/Grafana/Loki),覆盖节点/服务/业务指标,SLO 达标率提高 15%,平均故障恢复时间缩短 40%。
- 基于 Terraform+Ansible 的 IaC 方案,实现云上环境一键部署与回收,测试环境成本下降约 30%。
- 制定发布与回滚 Runbook、搭建告警分级与自愈机制,完成季度演练 3 次,关键系统 7×24 稳定运行。
清单复核(你现在就可以开始)
- 初始化仓库与目录结构(应用/Helm/CI-CD/k8s/observability/docs)。
- 第1周完成《Linux排障速查》与安装脚本;
- 第2-3周完成容器化、K8s部署与 CI/CD;
- 第4周完成监控/日志/告警面板与策略;
- 第5周完成发布回滚演练与数据库备份恢复;
- 第6周完成云上 IaC 最小集;
- 第7周完成容量/成本优化;
- 第8周打磨文档、录屏与复盘,准备面试。