连山文档库

核心专业区

技术项目与实践

两个月 Sre求职学习计划与项目

两个月SRE/DevOps求职学习计划（含通用技能、学习路径、可展示项目与产出）

目标与原则

目标: 面向通用型 SRE/DevOps 岗位，2个月内构建可面试展示的完整技术底座与项目产出。
原则: 通用优先（Linux/K8s/CI/CD/监控/云平台/自动化），业务与可观测性并重，注重“可交付物”。
产出: 代码仓库、Runbook、仪表板截图、架构图、成本/容量评估、演示脚本、故障复盘报告。

核心技能清单（通用优先）

必备（高通用性）

Linux 与网络: 发行版管理、性能调优（CPU/内存/IO）、systemd、ssh、iptables、基础网络（TCP/IP、HTTP、DNS、TLS）、常用排障（tcpdump、ss、lsof、htop）。
容器与编排: Docker/OCI 基础、镜像规范、最佳实践；Kubernetes 核心资源（Deployment/Service/Ingress/ConfigMap/Secret）、HPA、Requests/Limits、滚动升级与灰度、RBAC；熟悉 Ingress/Nginx。
CI/CD: GitLab CI 或 Jenkins，管道设计（构建/测试/安全扫描/制品/部署），与 Helm/K8s 集成；基础 GitOps（Argo CD 可选）。
可观测性: Prometheus/Alertmanager、Exporter 生态、Grafana 仪表盘、日志（Loki 或 ELK 基础）、黑盒监控、SLO/SLA/SLA 报表。
脚本与自动化: Shell 与 Python 至少一种；Ansible 基础（批量配置、免密、幂等）；IaC 概念（Terraform 入门）。
中间件与服务: Nginx 反向代理/负载均衡、证书与TLS；MySQL/Redis 入门（部署、备份、基础调优与高可用概念）；Kafka 基础了解。
云平台: 至少熟悉一种（阿里云/华为云/AWS），VPC/ECS/SLB/RDS/对象存储、权限与安全组、基础成本意识。
可靠性与流程: 变更/发布/回滚策略，OnCall 与故障响应，容量规划（HPA/水平扩缩容），备份与灾备，Runbook/演练。

加分（岗位常见）

Helm 打包与版本管理、Kustomize；Argo Rollouts（金丝雀/蓝绿）。
日志链路：ELK/Elastic Agent/Fluentd/Fluent Bit；Tracing（Jaeger/Tempo）。
安全与合规：CIS Benchmark、镜像签名、网络策略、WAF、漏洞扫描（Trivy）。
成本优化：资源限额、按需/预留实例、可视化成本报表。

特定方向（按需补充）

GPU/NPU 与 K8s GPU Operator、HPC 调度（Slurm）。
虚拟化与私有云（KVM/VMware/OpenStack）。

8周学习路径与里程碑（含产出）

第1周｜Linux+网络+Git 基础巩固

目标：能搭建最小可用的运维环境并完成常见排障。
行动：进程与服务、磁盘与文件系统、网络排障命令、ssh/免密、sudo、Tmux；Git 基本流；Markdown 文档规范。
产出：
- 《Linux 常用排障速查》与《Git 工作流》Markdown 文档。
- 小脚本：日志切割、Nginx 一键安装（Shell）。

第2周｜Docker 与 K8s 核心

目标：理解镜像、容器与 K8s 基础对象，能部署简单应用。
行动：Dockerfile 最佳实践；kubeadm 或本地 k3d/kind 搭建；Deployment/Service/Ingress；Requests/Limits；ConfigMap/Secret。
产出：
- 基于 Nginx/示例应用的容器化与 K8s 部署清单。
- 《镜像规范与K8s对象最佳实践》文档与架构图。

第3周｜CI/CD 管道与 Helm

目标：从提交到部署的自动化。
行动：GitLab CI 或 Jenkins Pipeline；制品库（Docker Registry）；Helm Chart 结构与打包发布；简单金丝雀/蓝绿理念。
产出：
- 完整 CI/CD YAML 与 Helm Chart；截图与说明文档。

第4周｜可观测性（监控/日志/告警）

目标：对节点/服务/接口建立可观察性与告警。
行动：Prometheus/Alertmanager、Node/Blackbox Exporter、ServiceMonitor；Grafana 仪表盘；Loki 或 ELK 入门；告警路由与分级。
产出：
- 关键SLO监控面板与告警策略；《可观测性与告警设计》文档。

第5周｜中间件与发布回滚

目标：掌握 Nginx/DB/缓存常见运维，建立可靠发布回滚路径。
行动：Nginx 灰度、限流与缓存；MySQL/Redis 基础运维；回滚策略（镜像回滚、Helm 回滚、数据备份与恢复演练）。
产出：
- 发布回滚演练记录与数据库备份恢复验证报告。

第6周｜云平台与 IaC/自动化

目标：把环境上云并用 IaC/Ansible 管理。
行动：选一云（阿里/华为/AWS），VPC/ECS/SLB/RDS；Terraform 建模（网络+ECS）；Ansible 批量配置；安全组与最小权限。
产出：
- Terraform/Ansible 仓库与一键部署脚本；成本与容量报告初版。

第7周｜可靠性提升与成本优化

目标：容量与成本意识，SLO 驱动优化。
行动：HPA/KEDA，资源配额与限额；压测与瓶颈定位；成本可视化（估算亦可）；改进发布策略（Argo Rollouts 可选）。
产出：
- 《容量与成本优化报告》与优化前后对比图。

第8周｜整合复盘与面试准备

目标：打磨产出、复盘、演练面试。
行动：汇总架构图、Runbook、故障复盘；录屏 5-8 分钟项目Demo；准备 STAR 面经与手撕题（YAML/脚本）。
产出：
- 完整项目 README、演示脚本、复盘报告、截图集与一页式能力地图。

可展示项目（3选2或全做，难度由浅到深）

项目A：Kubernetes 上的电商示例应用落地（通用度高）

场景：前端+后端+数据库（可用开源示例如 Sock Shop/HotROD），Ingress 暴露，TLS 终止，水平扩缩容。
关键点：
- CI/CD：代码提交→镜像→安全扫描（Trivy）→Helm 部署到 Dev/Prod。
- 发布：滚动升级+简单金丝雀（比例流量/分组 header）。
- 观测：业务QPS/延迟/错误率、Pod 资源、节点健康；告警（错误率、延迟、Pod 重启）。
可交付：
- 仓库结构：

repo-root/
  app-frontend/ app-backend/
  helm/ (charts)
  .gitlab-ci.yml 或 Jenkinsfile
  k8s/ (namespace/rbac/ingress/hpa)
  observability/ (prometheus rules, grafana dashboards)
  docs/ (架构图、发布回滚、Runbook)

演示：合并 MR 触发流水线→自动发布→Grafana 指标变化→回滚一键。

项目B：可观测性与自愈平台（SRE风格）

场景：统一监控/日志与自动修复。
关键点：Prometheus + Alertmanager + Blackbox/Node Exporter + Loki；告警 Webhook 触发 Ansible/脚本做自愈（如重启异常 Pod、扩容副本）。
可交付：
- 告警规则库与分级路由；自愈脚本；仪表盘与演示录屏。
- 故障演练：人为制造 5xx/延迟升高→告警触发→自动扩容/回滚→复盘报告。

项目C：云上 IaC 一键落地（Terraform+Ansible+k3s）

场景：在公有云或本地虚拟机用 Terraform 创建网络/实例，Ansible 装 k3s 与 SRE 套件（Ingress/Prometheus/Grafana/Loki）。
关键点：模块化 Terraform、幂等 Ansible、最小权限安全组、成本与容量记录。
可交付：
- 一键脚本与变量化模板；《成本与安全组设计说明》；环境回收脚本与演示。

面试产出清单（把“看得见”的成果放到位）

代码仓库（公开或演示权限）：应用、Helm、CI/CD、K8s manifests、Terraform/Ansible。
架构图：整体与模块图（部署拓扑、流量与观测链路）。
Grafana 仪表盘截图：SLO（错误率、延迟）、节点/Pod 资源、业务指标。
告警策略与自愈：规则与路由配置、演练记录与截图。
Runbook：发布回滚、扩容、数据库恢复、证书更新、日志排障等场景化流程。
故障复盘（Postmortem）：一次注入故障的事后分析（时间线、根因、改进项、负责人与计划）。
成本与容量报告：实例/节点规格、负载/资源使用、优化前后对比与估算成本。
演示脚本与 5-8 分钟录屏：流水线→自动发布→观测→告警→回滚/自愈。

学习与实践资源（精选）

Kubernetes 文档与 Tutorial（官方）: Kubernetes Docs
Helm 官方文档: Helm Docs
Prometheus 与 Alertmanager: Prometheus Docs
Grafana: Grafana Docs
Loki/日志采集: Grafana Loki
GitLab CI: GitLab CI/CD Docs
Jenkins: Jenkins Docs
Terraform: Terraform Docs
Ansible: Ansible Docs
Trivy（镜像扫描）: Trivy Docs

环境建议

本地：Windows + WSL2（Ubuntu），Docker Desktop 或 Colima 替代；k3d/kind 搭 K8s；Minikube 可选。
云上：选一种云，小额度即可（2-3 台轻量实例），注意关机/销毁策略控制成本。
配额与资源：尽量使用 k3s/轻量组件；日志保留期设置合理，避免磁盘暴涨。

时间分配参考（每周 15-20 小时）

学习（文档/视频）：6-8 小时；
实操与项目：8-10 小时；
文档沉淀与复盘：1-2 小时；
每周至少一次“演练+录屏+文档化”。

面试要点速记（STAR）

S（场景）：高并发发布/告警风暴/接口慢查询/磁盘打满/证书过期。
T（任务）：构建可观测性、保证可用性、自动化发布与回滚、降本与容量规划。
A（行动）：CI/CD + Helm；HPA 与限额；Prom+Grafana+Loki；Terraform+Ansible；Runbook 与演练。
R（结果）：发布失败率下降、平均恢复时间缩短、资源利用率提升、成本下降X%、SLO 达标率提升。

简历表述模板（可直接复用）

设计并落地基于 Kubernetes 的 CI/CD 与发布回滚方案（Helm/Argo Rollouts），实现从提交到上线全自动化，发布失败率降低 60%。
构建统一可观测性平台（Prometheus/Grafana/Loki），覆盖节点/服务/业务指标，SLO 达标率提高 15%，平均故障恢复时间缩短 40%。
基于 Terraform+Ansible 的 IaC 方案，实现云上环境一键部署与回收，测试环境成本下降约 30%。
制定发布与回滚 Runbook、搭建告警分级与自愈机制，完成季度演练 3 次，关键系统 7×24 稳定运行。

清单复核（你现在就可以开始）

初始化仓库与目录结构（应用/Helm/CI-CD/k8s/observability/docs）。
第1周完成《Linux排障速查》与安装脚本；
第2-3周完成容器化、K8s部署与 CI/CD；
第4周完成监控/日志/告警面板与策略；
第5周完成发布回滚演练与数据库备份恢复；
第6周完成云上 IaC 最小集；
第7周完成容量/成本优化；
第8周打磨文档、录屏与复盘，准备面试。

Vmware扩容根目录单机 Sre展示项目详细部署方案