今日好书丨《智能运维:从0搭建大规模分布式AIOps系统》

Posted 博文视点Broadview

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了今日好书丨《智能运维:从0搭建大规模分布式AIOps系统》相关的知识,希望对你有一定的参考价值。



《智能运维:从0搭建大规模分布式AIOps系统》

彭冬 朱伟 刘俊 等 著

2018年8月出版


今日好书丨《智能运维:从0搭建大规模分布式AIOps系统》 

小编推荐:智能运维即未来,来自新浪微博智能运维团队多年前瞻探索与生产实践,面向运维热点方向,技术思路可落地,解决方案有说服力。


内容简介

本书结合大企业的智能运维实践,全面完整地介绍智能运维的技术体系,让读者更加了解运维技术的现状和发展。同时,帮助运维工程师在一定程度上了解机器学习的常见算法模型,以及如何将它们应用到运维工作中。

全书共分4篇。第1篇运维发展史,重点阐述当前运维的发展现状及面临的技术挑战;第2篇智能运维基础设施,重点讲述大数据场景下的数据存储、大数据处理和分析的方法与经验,以及海量数据多维度多指标的处理分析技术;第3篇智能运维技术详解,重点关注在新时期大数据时代下智能化的运维技术,包括数据聚合与关联、数据异常点检测、故障诊断和分析、趋势预测算法;第4篇技术案例详解,为大家梳理了通过开源框架ELK快速构建智能监控系统的整体方案,还将分享微博平台和微博广告两个不同业务场景下智能监控系统的技术实践。

本书适合运维、开发、架构、DevOps工程师及广大互联网技术爱好者研读和借鉴。


作者简介
  • 彭冬

微博广告基础架构团队负责人、技术专家,商业大数据平台及智能监控平台发起人,目前负责广告核心引擎基础架构、Hubble智能监控系统、商业基础数据平台(D+)等基础设施建设。关注计算广告、大数据、人工智能、高可用系统架构设计、区块链等方向。在加入微博之前,曾就职于百度负责大数据平台建设,曾担任趣点科技联合创始人兼CTO等职位。毕业于西北工业大学,曾在国内外知名期刊发表多篇学术论文,拥有9项发明专利。

  • 朱伟@kimi

微博广告SRE团队技术负责人,高级运维工程师,2016年4月加入微博,目前主要负责微博广告智能监控报警平台和服务治理等项目的建设与研究。

  • 刘俊

微博平台部监控技术负责人,负责微博平台、PC微博大规模监控系统的建设,主要关注实时大数据、运维自动化、智能化方向。2014年加入微博,之前曾在新浪、搜狐等公司从事运维监控方面的工作。

  • 王莉

University of Georgia硕士研究生,主要研究用机器学习方法,识别植物被水淹没的季节性规律,研究成果已发表在SCI高影响因子期刊。2017年加入微博广告团队,致力于用数据分析和机器学习模型,优化广告业务策略,洞悉商业价值。

  • 陆松林

微博广告数据仓库负责人,高级研发工程师,先后就职于搜狐、爱奇艺,主要研究数据仓库、数据治理相关技术。

  • 车亚强

微博广告大数据开发工程师,曾在百度外卖负责实时流、微服务相关研发工作,目前主要研究方向为实时流、微服务架构设计。


业内推荐


  • 杨卫华(Tim Yang),微博研发副总经理

  • 张志强,微博广告业务部总经理

  • 李东升 ,微博广告业务部总监

  • 萧田国,高效运维社区发起人 AIOps标准及白皮书发起人

  • 裴丹,清华大学计算机系长聘副教授 青年千人 美国AT&T研究院前主任研究员 智能运维算法专家

  • 王鹏云,多盟联合创始人  蓝色光标技术创新孵化中心总经理

  • 梁定安,腾讯运维技术总监 专家工程师

  • 钟华,美团打车技术研发部负责人

  • 饶琛琳,日志易产品总监  前新浪微博系统架构师

  • 陈晓峰,火币集团副总裁

  • 陆沛,滴滴打车SRE团队负责人 技术专家


本书目录


  • 篇幅限制,完整目录请见本书


第1篇 开门见山:运维发展史 

第1章 运维现状  2 

1.1 运维工程  2 

1.2 运维发展历程  6 

1.3 运维现状  9 

1.4 本章小结  14 

1.5 参考文献  14 

第2章 智能运维  15 

2.1 海量数据的存储、分析和处理  16 

2.2 多维度、多数据源  18 

2.3 信息过载  19 

2.4 复杂业务模型下的故障定位  21 

2.5 本章小结  22 

2.6 参考文献  22 

第2篇 站在巨人肩上:智能运维基础设施 

第3章 开源数据采集技术  25 

3.1 数据采集工具对比  25 

3.2 轻量级采集工具Filebeat  26 

3.3 日志采集解析工具  38 

3.4 本章小结  49 

3.5 参考文献  50 

第4章 分布式消息队列  51 

4.1 开源消息队列对比与分析  51 

4.2 Kafka的安装与使用  53 

4.3 案例分析  57 

4.4 本章小结  58 

4.5 参考文献  59 

第5章 大数据存储技术  60 

5.1 传统数据存储  60 

5.2 基于HDFS的分布式存储  63 

5.3 分层存储  68 

5.4 案例分析  73 

5.5 本章小结  80 

5.6 参考文献  80 

第6章 大规模数据离线计算分析  82 

6.1 经典的离线计算  82 

6.2 分布式离线计算  89 

6.3 案例分析  101 

6.4 本章小结  104 

6.5 参考文献  105 

第7章 实时计算框架  106 

7.1 关于实时流计算  106 

7.2 Spark Streaming计算框架介绍  107 

7.3 Flink计算框架  115 

7.4 案例分析  124 

7.5 本章小结  126 

7.6 参考文献  126 

第8章 时序数据分析框架  127 

8.1 时序数据库简介  127 

8.2 时序数据库Graphite  131 

8.3 多维分析利器Druid  139 

8.4 性能神器ClickHouse  147 

8.5 本章小结  160 

8.6 参考文献  160 

第9章 机器学习框架  161 

9.1 简介  161 

9.2 TensorFlow介绍  162 

9.3 TensorFlow进阶  166 

9.4 本章小结  178 

9.5 参考文献  179 

第3篇 运维新时代:智能运维技术详解 

第10章 数据聚合与关联技术  182 

10.1 数据聚合  182 

10.2 降低维度  188 

10.3 数据关联  192 

10.4 实时数据关联案例  193 

10.5 本章小结  195 

10.6 参考文献  195 

第11章 数据异常点检测技术  196 

11.1 概述  196 

11.2 异常检测方法  198 

11.3 独立森林  204 

11.4 本章小结  207 

11.5 参考文献  207 

第12章 故障诊断和分析策略  208 

12.1 日志标准化  209 

12.2 全链路追踪  210 

12.3 SLA的统一  210 

12.4 传统的故障定位方法  211 

12.5 人工智能在故障定位领域的应用  213 

12.6 本章小结  222 

12.7 参考文献  222 

第13章 趋势预测算法  223 

13.1 移动平均法  223 

13.2 指数平滑法  224 

13.3 ARIMA模型  226 

13.4 神经网络模型  236 

13.5 本章小结  241 

13.6 参考文献  242 

第4篇 智能运维架构实践:技术案例详解 

第14章 快速构建日志监控系统  244 

14.1 Elasticsearch分布式搜索引擎  244 

14.2 可视化工具Kibana  258 

14.3 ELK搭建实践  265 

14.4 本章小结  274 

14.5 参考文献  274 

第15章 微博广告智能监控系统  275 

15.1 背景介绍  275 

15.2 整体架构  277 

15.3 核心功能分析  278 

15.4 本章小结  287 

第16章 微博平台通用监控系统  288 

16.1 背景  289 

16.2 整体架构  290 

16.3 核心模块  291 

16.4 第三方应用  301 

16.5 本章小节  302 

附录A 中国大数据技术大会2017(BDTC 2017)CSDN专访实录  303


今日好书丨《智能运维:从0搭建大规模分布式AIOps系统》


今日好书丨《智能运维:从0搭建大规模分布式AIOps系统》 

博文视点

您阅读的专业智库

了解更多本书详情请点击阅读原文

长按二维码轻松关注


点击阅读原文,查看本书详情。

以上是关于今日好书丨《智能运维:从0搭建大规模分布式AIOps系统》的主要内容,如果未能解决你的问题,请参考以下文章

今日好书丨《深入理解 Flask》

智能运维:从 0 搭建 AIOps 系统

013.智能运维AIOps

微博大规模分布式AIOps系统探索与实践(赠重磅好书)

今日好书丨《Laravel框架关键技术解析》

今日好书丨Python高效开发实战——DjangoTornadoFlaskTwisted