计算机系统运维核心知识清单

chengsenw 项目开发评论2阅读模式

计算机系统运维核心知识清单

计算机系统运维核心知识点详尽清单(2026最新版参考)

计算机系统运维(O&M / SRE / DevOps方向)是保障IT系统稳定、高可用、安全的核心领域。以下清单基于行业标准(RHCSA/RHCE、CompTIA Server+、SRE实践)、GitHub BestSRE路线图、一线大厂技能要求(阿里、腾讯等)和主流资源(如Zabbix/Prometheus、Docker/K8s官方文档)整理,覆盖初级→中级→高级→架构级全阶段。

清单按模块分层,每个模块包含核心知识点 + 必会工具/命令 + 进阶实践,便于查漏补缺和学习路径规划。Linux占比70%+(服务器主流),Windows补充企业桌面/域环境需求。

1. 基础知识与计算机硬件

  • 计算机组成原理:CPU架构(x86/ARM)、内存层次(Cache/RAM/Swap)、存储介质(HDD/SSD/NVMe)、I/O总线(PCIe)。
  • 服务器硬件选型:机架/刀片/塔式、RAID级别(0/1/5/6/10)、HBA卡、BMC/IPMI远程管理、电源冗余、散热系统。
  • 安装部署:BIOS/UEFI设置、PXE无人值守安装、Cobbler/Kickstart自动化装机。
  • Windows Server基础:Server 2019/2022安装、角色与功能(AD DS、DNS、DHCP、IIS)、Hyper-V。
  • 必会工具
    :dmidecode、lshw、lspci、ipmitool;Windows:msinfo32、servermanager。

2. 操作系统核心管理(Linux为主 + Windows)

Linux(CentOS/RHEL 8/9、Ubuntu、Rocky Linux)

  • 文件系统与权限:目录结构(/etc、/var、/boot)、ext4/XFS/Btrfs、LVM逻辑卷、ACL、umask、sudoers。
  • 用户/组/权限:useradd、groupadd、chown/chmod、PAM认证、密码策略(chage)。
  • 进程与服务:ps/top/htop、systemd(unit文件、journalctl)、nice/renice、supervisor。
  • 包与软件管理:yum/dnf/apt、rpm/deb、编译安装(make)、容器化替代。
  • 磁盘与存储:fdisk/parted、mkfs、mount/fstab、quota、iostat。
  • 内核与调优:sysctl参数(net.ipv4、vm.swappiness)、GRUB引导、模块管理(lsmod/modprobe)。
  • Windows补充
    :PowerShell(Get-Process、Get-Service)、组策略(gpedit.msc)、事件查看器、注册表编辑、AD域用户/组管理。

必会命令:find、grep、awk、sed、cut、sort、uniq、df/du、free、vmstat、netstat/ss、lsof。

3. 网络基础与运维

  • 协议栈:OSI 7层 vs TCP/IP 4层、TCP三次握手/四次挥手、UDP、IP子网划分/CIDR、NAT、路由。
  • 常见服务:DNS(BIND/ unbound)、DHCP、NTP、SSH(密钥登录、Fail2Ban)、FTP/SFTP、SMTP/Postfix。
  • 诊断工具:ping、traceroute/mtr、tcpdump、Wireshark、nslookup/dig、curl、iperf。
  • 防火墙与安全:iptables/firewalld/nftables、SELinux(enforcing/permissive)、Windows Firewall。
  • 高级网络:VLAN/Trunk、Bonding/Team、VXLAN、SDN/OpenvSwitch。
  • 进阶
    :BGP/OSPF基础、负载均衡原理(4层/7层)。

4. 脚本编程与自动化运维

  • Shell/Bash:变量、条件/循环、函数、正则(sed/awk/grep)、expect自动交互。
  • Python运维脚本:paramiko、fabric、subprocess、psutil、requests。
  • 自动化工具:Ansible(Playbook、Inventory、Role、Tower/AWX)、Puppet/Chef/SaltStack。
  • IaC:Terraform、CloudFormation、Ansible + Terraform结合。
  • 实践
    :自动巡检脚本、批量部署、配置漂移检测。

5. Web服务与应用中间件

  • Nginx/Apache/Tomcat:虚拟主机、反向代理、负载均衡、限流、平滑重启、Lua扩展。
  • LNMP/LAMP架构搭建与优化。
  • 缓存:Redis(数据类型、持久化RDB/AOF、Sentinel/Cluster、缓存穿透/雪崩)、Memcached。
  • 消息队列:Kafka(分区、副本、消费者组)、RabbitMQ(交换机、队列、死信)、RocketMQ。
  • 配置中心:Zookeeper、Nacos、Consul。

6. 数据库运维

  • MySQL/MariaDB
    :存储引擎(InnoDB)、事务/锁、索引优化、慢查询日志、主从复制/GTID、MHA/Orchestrator/MGR高可用、XtraBackup/Percona备份、性能调优(innodb_buffer_pool)。
  • PostgreSQL:逻辑复制、Patroni高可用、分区表。
  • NoSQL:MongoDB(副本集、分片)、Elasticsearch(索引、DSL查询、集群)。
  • 必会
    :SQL调优、备份恢复策略、监控(pt-query-digest、Orzdba)。

7. 监控、日志与可观测性

  • 监控体系:Zabbix(自动发现、Proxy)、Prometheus + Grafana + Alertmanager(PromQL、Exporter、Service Discovery)、OpenTelemetry。
  • 日志平台:ELK/EFK(Beats)、Loki + Grafana、Graylog。
  • 全链路追踪:Jaeger/SkyWalking。
  • 告警通道:企业微信/钉钉/短信、阈值/基线、根因分析。
  • 进阶
    :AIOps、机器学习异常检测。

8. 虚拟化、容器与云原生

  • 传统虚拟化:VMware vSphere、KVM/libvirt、Hyper-V、Proxmox。
  • Docker:镜像构建(Dockerfile)、网络(bridge/overlay)、存储卷、Compose、Registry(Harbor)。
  • Kubernetes(核心进阶):架构(Master/Node)、资源对象(Pod/Deployment/StatefulSet/DaemonSet)、Service/Ingress、ConfigMap/Secret、Helm、Operator、CRD、集群高可用(kubeadm/Rancher)、CNI(Calico/Flannel)、CSI存储。
  • 服务网格:Istio。

9. 高可用、负载均衡与集群

  • 负载均衡:LVS(DR/NAT/TUN)、Nginx/HAProxy、Keepalived(VIP、抢占/非抢占、脑裂解决)。
  • 集群软件:Pacemaker + Corosync、Heartbeat、RHCS。
  • 分布式存储:Ceph(RBD/CephFS/Object)、GlusterFS、MinIO。
  • 实践
    :LVS+Keepalived+Nginx高可用集群、K8s多Master。

10. 安全运维与合规

  • 系统加固:最小权限、最小服务、SSH配置、Fail2Ban、OSSEC。
  • 漏洞管理:Nessus/OpenVAS、CVE跟踪、补丁管理。
  • 网络安全:WAF(ModSecurity)、IDS/IPS(Snort/Suricata)、零信任(BeyondCorp)。
  • 加密与认证:TLS 1.3、LDAP/AD集成、Keycloak。
  • 合规:等保2.0、GDPR、日志审计。
  • Windows
    :BitLocker、AppLocker、Credential Guard。

11. 备份、恢复与灾难恢复

  • 备份策略:3-2-1规则、全/增/差、冷热备份。
  • 工具:rsync、rsnapshot、Bacula、Veeam、Percona XtraBackup、Velero(K8s)。
  • 异地容灾:DRBD、ZFS replication、云快照。
  • 测试:定期演练、RPO/RTO指标。

12. 性能调优与故障排除

  • 工具链:sar、iostat、vmstat、mpstat、pidstat、perf、strace、tcpdump、blktrace、flamegraph。
  • 四维度分析:CPU(上下文切换)、内存(OOM、Swap)、磁盘(IOPS、队列)、网络(丢包、重传)。
  • 方法论:5Why、故障树、根因分析(RCA)、Chaos Engineering。
  • 常见场景:慢查询、内存泄漏、连接池耗尽。

13. 云平台、DevOps与软技能

  • 公有云:AWS(EC2/VPC/S3/EKS)、阿里云(ECS/SLB/ACK)、Azure。
  • CI/CD:Jenkins/GitLab CI/GitHub Actions/ArgoCD、Git Flow/Github Flow。
  • 代码管理:Git(分支、rebase、hook)。
  • DevOps文化:基础设施即代码(IaC)、持续交付、SRE原则(SLO/SLI/Error Budget)。
  • 软技能:ITIL/ITSM(变更/事件/问题管理)、文档(Wiki/Confluence)、团队协作、On-Call轮值。

学习路径建议

  • 初级
    (0-1年):Linux命令 + Shell + 基础服务(Nginx/MySQL) + Zabbix。
  • 中级
    (1-3年):Ansible + Docker + K8s基础 + Prometheus + Redis集群。
  • 高级
    (3-5年):K8s生产实践 + 云原生 + 性能调优 + 安全合规。
  • 架构/SRE
    (5年以上):多云架构 + AIOps + Chaos + 成本优化。
  • 推荐资源
    :鸟哥Linux私房菜、《Linux就该这么学》、BestSRE GitHub仓库、《SRE:Google运维解密》、RHCE官方课程、Prometheus官网。

这份清单覆盖95%+生产场景,实际工作中根据企业规模(传统/互联网/金融)侧重点不同(如金融重安全合规,互联网重K8s)。建议结合实践项目(自建集群、GitHub开源贡献)+ 证书(RHCSA、CKA/CKAD、AWS SAA)验证。持续学习是运维核心竞争力——技术迭代快,保持好奇心与动手能力最重要!

 
chengsenw
  • 本文由 chengsenw 发表于 2026年2月23日 06:17:23
  • 转载请务必保留本文链接:https://www.gewo168.com/11236.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: