计算机系统运维核心知识清单
计算机系统运维核心知识点详尽清单(2026最新版参考)
计算机系统运维(O&M / SRE / DevOps方向)是保障IT系统稳定、高可用、安全的核心领域。以下清单基于行业标准(RHCSA/RHCE、CompTIA Server+、SRE实践)、GitHub BestSRE路线图、一线大厂技能要求(阿里、腾讯等)和主流资源(如Zabbix/Prometheus、Docker/K8s官方文档)整理,覆盖初级→中级→高级→架构级全阶段。
清单按模块分层,每个模块包含核心知识点 + 必会工具/命令 + 进阶实践,便于查漏补缺和学习路径规划。Linux占比70%+(服务器主流),Windows补充企业桌面/域环境需求。
1. 基础知识与计算机硬件
-
计算机组成原理:CPU架构(x86/ARM)、内存层次(Cache/RAM/Swap)、存储介质(HDD/SSD/NVMe)、I/O总线(PCIe)。 -
服务器硬件选型:机架/刀片/塔式、RAID级别(0/1/5/6/10)、HBA卡、BMC/IPMI远程管理、电源冗余、散热系统。 -
安装部署:BIOS/UEFI设置、PXE无人值守安装、Cobbler/Kickstart自动化装机。 -
Windows Server基础:Server 2019/2022安装、角色与功能(AD DS、DNS、DHCP、IIS)、Hyper-V。 - 必会工具
:dmidecode、lshw、lspci、ipmitool;Windows:msinfo32、servermanager。
2. 操作系统核心管理(Linux为主 + Windows)
Linux(CentOS/RHEL 8/9、Ubuntu、Rocky Linux):
-
文件系统与权限:目录结构(/etc、/var、/boot)、ext4/XFS/Btrfs、LVM逻辑卷、ACL、umask、sudoers。 -
用户/组/权限:useradd、groupadd、chown/chmod、PAM认证、密码策略(chage)。 -
进程与服务:ps/top/htop、systemd(unit文件、journalctl)、nice/renice、supervisor。 -
包与软件管理:yum/dnf/apt、rpm/deb、编译安装(make)、容器化替代。 -
磁盘与存储:fdisk/parted、mkfs、mount/fstab、quota、iostat。 -
内核与调优:sysctl参数(net.ipv4、vm.swappiness)、GRUB引导、模块管理(lsmod/modprobe)。 - Windows补充
:PowerShell(Get-Process、Get-Service)、组策略(gpedit.msc)、事件查看器、注册表编辑、AD域用户/组管理。
必会命令:find、grep、awk、sed、cut、sort、uniq、df/du、free、vmstat、netstat/ss、lsof。
3. 网络基础与运维
-
协议栈:OSI 7层 vs TCP/IP 4层、TCP三次握手/四次挥手、UDP、IP子网划分/CIDR、NAT、路由。 -
常见服务:DNS(BIND/ unbound)、DHCP、NTP、SSH(密钥登录、Fail2Ban)、FTP/SFTP、SMTP/Postfix。 -
诊断工具:ping、traceroute/mtr、tcpdump、Wireshark、nslookup/dig、curl、iperf。 -
防火墙与安全:iptables/firewalld/nftables、SELinux(enforcing/permissive)、Windows Firewall。 -
高级网络:VLAN/Trunk、Bonding/Team、VXLAN、SDN/OpenvSwitch。 - 进阶
:BGP/OSPF基础、负载均衡原理(4层/7层)。
4. 脚本编程与自动化运维
-
Shell/Bash:变量、条件/循环、函数、正则(sed/awk/grep)、expect自动交互。 -
Python运维脚本:paramiko、fabric、subprocess、psutil、requests。 -
自动化工具:Ansible(Playbook、Inventory、Role、Tower/AWX)、Puppet/Chef/SaltStack。 -
IaC:Terraform、CloudFormation、Ansible + Terraform结合。 - 实践
:自动巡检脚本、批量部署、配置漂移检测。
5. Web服务与应用中间件
-
Nginx/Apache/Tomcat:虚拟主机、反向代理、负载均衡、限流、平滑重启、Lua扩展。 -
LNMP/LAMP架构搭建与优化。 -
缓存:Redis(数据类型、持久化RDB/AOF、Sentinel/Cluster、缓存穿透/雪崩)、Memcached。 -
消息队列:Kafka(分区、副本、消费者组)、RabbitMQ(交换机、队列、死信)、RocketMQ。 -
配置中心:Zookeeper、Nacos、Consul。
6. 数据库运维
- MySQL/MariaDB
:存储引擎(InnoDB)、事务/锁、索引优化、慢查询日志、主从复制/GTID、MHA/Orchestrator/MGR高可用、XtraBackup/Percona备份、性能调优(innodb_buffer_pool)。 -
PostgreSQL:逻辑复制、Patroni高可用、分区表。 -
NoSQL:MongoDB(副本集、分片)、Elasticsearch(索引、DSL查询、集群)。 - 必会
:SQL调优、备份恢复策略、监控(pt-query-digest、Orzdba)。
7. 监控、日志与可观测性
-
监控体系:Zabbix(自动发现、Proxy)、Prometheus + Grafana + Alertmanager(PromQL、Exporter、Service Discovery)、OpenTelemetry。 -
日志平台:ELK/EFK(Beats)、Loki + Grafana、Graylog。 -
全链路追踪:Jaeger/SkyWalking。 -
告警通道:企业微信/钉钉/短信、阈值/基线、根因分析。 - 进阶
:AIOps、机器学习异常检测。
8. 虚拟化、容器与云原生
-
传统虚拟化:VMware vSphere、KVM/libvirt、Hyper-V、Proxmox。 -
Docker:镜像构建(Dockerfile)、网络(bridge/overlay)、存储卷、Compose、Registry(Harbor)。 -
Kubernetes(核心进阶):架构(Master/Node)、资源对象(Pod/Deployment/StatefulSet/DaemonSet)、Service/Ingress、ConfigMap/Secret、Helm、Operator、CRD、集群高可用(kubeadm/Rancher)、CNI(Calico/Flannel)、CSI存储。 -
服务网格:Istio。
9. 高可用、负载均衡与集群
-
负载均衡:LVS(DR/NAT/TUN)、Nginx/HAProxy、Keepalived(VIP、抢占/非抢占、脑裂解决)。 -
集群软件:Pacemaker + Corosync、Heartbeat、RHCS。 -
分布式存储:Ceph(RBD/CephFS/Object)、GlusterFS、MinIO。 - 实践
:LVS+Keepalived+Nginx高可用集群、K8s多Master。
10. 安全运维与合规
-
系统加固:最小权限、最小服务、SSH配置、Fail2Ban、OSSEC。 -
漏洞管理:Nessus/OpenVAS、CVE跟踪、补丁管理。 -
网络安全:WAF(ModSecurity)、IDS/IPS(Snort/Suricata)、零信任(BeyondCorp)。 -
加密与认证:TLS 1.3、LDAP/AD集成、Keycloak。 -
合规:等保2.0、GDPR、日志审计。 - Windows
:BitLocker、AppLocker、Credential Guard。
11. 备份、恢复与灾难恢复
-
备份策略:3-2-1规则、全/增/差、冷热备份。 -
工具:rsync、rsnapshot、Bacula、Veeam、Percona XtraBackup、Velero(K8s)。 -
异地容灾:DRBD、ZFS replication、云快照。 -
测试:定期演练、RPO/RTO指标。
12. 性能调优与故障排除
-
工具链:sar、iostat、vmstat、mpstat、pidstat、perf、strace、tcpdump、blktrace、flamegraph。 -
四维度分析:CPU(上下文切换)、内存(OOM、Swap)、磁盘(IOPS、队列)、网络(丢包、重传)。 -
方法论:5Why、故障树、根因分析(RCA)、Chaos Engineering。 -
常见场景:慢查询、内存泄漏、连接池耗尽。
13. 云平台、DevOps与软技能
-
公有云:AWS(EC2/VPC/S3/EKS)、阿里云(ECS/SLB/ACK)、Azure。 -
CI/CD:Jenkins/GitLab CI/GitHub Actions/ArgoCD、Git Flow/Github Flow。 -
代码管理:Git(分支、rebase、hook)。 -
DevOps文化:基础设施即代码(IaC)、持续交付、SRE原则(SLO/SLI/Error Budget)。 -
软技能:ITIL/ITSM(变更/事件/问题管理)、文档(Wiki/Confluence)、团队协作、On-Call轮值。
学习路径建议
- 初级
(0-1年):Linux命令 + Shell + 基础服务(Nginx/MySQL) + Zabbix。 - 中级
(1-3年):Ansible + Docker + K8s基础 + Prometheus + Redis集群。 - 高级
(3-5年):K8s生产实践 + 云原生 + 性能调优 + 安全合规。 - 架构/SRE
(5年以上):多云架构 + AIOps + Chaos + 成本优化。 - 推荐资源
:鸟哥Linux私房菜、《Linux就该这么学》、BestSRE GitHub仓库、《SRE:Google运维解密》、RHCE官方课程、Prometheus官网。
这份清单覆盖95%+生产场景,实际工作中根据企业规模(传统/互联网/金融)侧重点不同(如金融重安全合规,互联网重K8s)。建议结合实践项目(自建集群、GitHub开源贡献)+ 证书(RHCSA、CKA/CKAD、AWS SAA)验证。持续学习是运维核心竞争力——技术迭代快,保持好奇心与动手能力最重要!


评论