第1章 运维的本质
1.1顶级公司的运维定义/ 2
1.1.1没有运维的Netflix / 2
1.1.2 Netflix是如何成为行业典范的/ 3
1.1.3总结/ 7
1.2运维体系建设的核心概念:应用/ 7
1.2.1应用的起源/ 8
1.2.2应用模型及关系模型的建立/ 9
1.2.3微服务架构时代下为什么要以应用为核心/ 12
第2章 运维体系建设
2.1标准化体系建设基础/ 16
2.1.1标准化的原因和步骤/ 16
2.1.2基础设施层面的标准化/ 17
2.1.3应用层面的标准化/ 19
2.1.4总结/ 21
2.2标准化体系建设实践:基础架构标准化/ 22
2.2.1常见的分布式基础架构组件/ 23
2.2.2基础架构组件的选型问题/ 24
2.2.3基础架构的服务化/ 26
2.2.4运维的职责/ 27
2.3 应用运维体系建设:从生命周期的视角看 / 28
2.3.1 怎样理解生命周期 / 29
2.3.2 应用的生命周期分析 / 30
2.3.3 总结 / 33
第3章 配置管理数据库(CMDB)
3.1 CMDB的前世今生/ 36
3.1.1 CMDB源起/ 36
3.1.2传统运维思路下的CMDB / 37
3.1.3互联网运维体系下的CMDB / 39
3.1.4 CMDB进行时/ 40
3.2有了CMDB,为什么还需要应用配置管理/ 41
3.2.1 CMDB是面向资源的管理,是运维的基石/ 42
3.2.2应用配置管理是面向应用的管理,是运维的核心/ 43
3.2.3总结/ 45
3.3在CMDB中落地应用的概念/ 46
3.3.1如何有效组织和管理应用/ 46
3.3.2应用的集群服务分组建设/ 49
3.3.3 CMDB在基础服务体系中的核心位置/ 51
3.3.4总结/ 54
第4章 运维组织架构及模式
4.1运维组织架构和转型/ 56
4.1.1自助化运维能力的建设/ 56
4.1.2从价值呈现的角度看运维/ 57
4.1.3运维协作模式的改变/ 59
4.1.4运维的组织架构/ 61
4.1.5总结/ 62
4.2 Google SRE的运维模式/ 63
4.2.1 SRE岗位的定位/ 63
4.2.2 SRE岗位的职责/ 64
4.2.3如何借鉴和落地/ 67
4.3从Google CRE谈运维的服务意识/ 67
4.3.1 CRE产生的背景/ 68
4.3.2 CRE岗位的职责/ 69
4.3.3从CRE谈谈做运维为什么要有服务心态/ 70
4.4云计算和AI时代下的运维转型/ 73
4.4.1应用运维的转型/ 75
4.4.2云计算和AI带给我们的挑战/ 78
4.4.3总结/ 80
第5章 持续交付
5.1提升效率,为什么要先做持续交付/ 84
5.1.1什么是持续交付/ 85
5.1.2持续交付的关键点/ 86
5.2持续交付的第一关键点:配置管理/ 88
5.2.1版本控制/ 89
5.2.2依赖管理/ 90
5.2.3软件配置/ 91
5.3多环境配置管理/ 94
5.3.1多环境问题/ 94
5.3.2不同环境下的应用配置管理/ 95
5.3.3环境配置管理解决方案/ 96
5.3.4总结/ 100
5.4多环境建设/ 101
5.4.1环境分类/ 101
5.4.2线下环境分类建设/ 102
5.4.3环境建设上的关键技术点/ 106
5.4.4总结/ 109
5.5线上环境建设/ 110
5.5.1生产环境/ 110
5.5.2 Beta环境/ 112
5.5.3预发环境/ 113
5.5.4办公网生产环境/ 116
5.5.5总结/ 117
5.6流水线模式/ 118
5.6.1持续交付流水线简要说明/ 119
5.6.2项目需求分解/ 119
5.6.3提交阶段之开发模式选择/ 121
5.6.4开发模式的选型原则/ 123
5.7流水线软件构建/ 125
5.7.1构建环节/ 126
5.7.2几个关键问题/ 127
5.8流水线构建完成后的质量保障/ 131
5.8.1依赖规则限制/ 131
5.8.2功能测试/ 132
5.8.3非功能测试/ 133
5.8.4总结/ 135
5.9持续交付实践:根据业务场景找方案/ 136
5.9.1软件的持续部署发布/ 137
5.9.2发布策略/ 139
5.9.3持续交付体系的收益/ 141
5.9.4总结/ 141
第6章 稳定性保障
6.1极端业务场景下的稳定性保障/ 144
6.1.1我们所面对的极端业务场景/ 144
6.1.2技术上的挑战/ 146
6.1.3极端业务场景下的不确定因素/ 148
6.2稳定性实践/ 150
6.2.1容量规划/ 150
6.2.2限流降级/ 160
6.2.3开关和预案/ 167
6.2.4全链路跟踪系统/ 172
第7章 故障管理
7.1我对故障的理解/ 182
7.2故障定级和定责/ 186
7.2.1故障的定级标准/ 187
7.2.2故障的定责标准/ 189
7.3故障定责的目的/ 192
7.3.1关于定责和处罚/ 192
7.3.2目的是鼓励做事,而不是处罚错误/ 194
7.3.3处罚的“负”作用远超我们的想象/ 196
7.4故障应急和故障复盘/ 197
7.4.1故障应急/ 198
7.4.2故障复盘/ 201
7.4.3定期总结故障案例/ 203
7.4.4总结/ 204
第8章 云运维的技术选型
8.1为什么蘑菇街会选择上云/ 206
8.1.1我们所面临的问题/ 206
8.1.2纵观技术发展趋势/ 211
8.1.3没有银弹/ 212
8.2为什么混合云是未来云计算的主流形态/ 213
8.2.1关于混合云/ 213
8.2.2我们所经历的几个基础设施建设阶段/ 215
8.2.3总结/ 219
8.3面向应用层的云架构解决方案:Spring Cloud / 219
8.3.1 Spring Cloud框架中云的影子/ 220
8.3.2 CNCF / 223
8.3.3可以预见的技术发展趋势/ 224
8.4云计算时代的弹性伸缩/ 225
8.4.1弹性伸缩的主体是谁/ 225
8.4.2总结/ 228
第9章CDN
9.1从CDN和云存储来聊聊云生态的崛起/ 230
9.1.1 CDN和云存储/ 230
9.1.2云生态的优势/ 231
9.1.3总结/ 234
9.2页面静态化架构和二级CDN建设/ 235
9.2.1静态化架构建设的业务场景/ 235
9.2.2页面静态化架构/ 237
9.2.3静态化架构在大促场景中的应用/ 239
9.2.4二级CDN建设/ 240
9.2.5总结/ 241
第10章 运维人员的成长之路
10.1我是如何走上运维岗位的/ 244
10.1.1我是怎么开始做运维工作的/ 244
10.1.2我为什么会把运维当作职业发展的方向/ 247
10.1.3给我们的一点启发/ 251
10.2运维需要懂产品和运营吗/ 252
10.2.1运维的角色转变和价值体现/ 253
10.2.2技术产品/ 254
10.2.3技术运营/ 254
10.2.4总结/ 256
10.3从技术到管理,如何转身/ 257
10.3.1从员工离职说起/ 257
10.3.2关于员工离职的两个观点/ 258
10.3.3谈谈如何做好技术管理/ 259
10.3.4技术管理中引以为戒的一些反模式/ 261
10.3.5总结/ 262
10.4树立个人品牌意识/ 263
10.4.1对求职者的背景调查/ 263
10.4.2如何树立个人口碑/ 265
10.4.3要引以为戒的反例/ 266
10.4.4共勉/ 268
拓展阅读:运维与安全
· · · · · · (
收起)