朋友要求的运维建议
Posted aguncn
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了朋友要求的运维建议相关的知识,希望对你有一定的参考价值。
一,多参考查看网上文档或其它同行经验,不断完善公司IT运维体系。
二,根据公司具体的发展阶段和技术人员配比,剪裁规范,贴合公司实情。
三, IT运维规范定好之后,一定要严格执行。不能执行的规范=无规范。
四,运维着眼于三大块内容:静态资源管理,动态流程管理,系统安全透明调优。
五,静态资源要区分自购设备及云主机,网络服务。
六,流程涉及上架,故障,下架,巡检,续费,软件及应用更新,应急,知识库一系统流程。
七,IT运维也涉及系统安全管理,系统及应用的监控报警,优化系统各项指标。
八,IT运维系统,由一系列的开源或商业软件支撑。可分散管理,或二次开发进行统一管理。暂时没有建立IT管理系统的,纸质工单替代。
九,公司的IT运维体系,必须和研发,测试,产品,项目,运营等岗位联动。
十,运维和研发,测试尽管往DevOps流程上靠,形成CI/CD工作流。
十一,在源代码管理,编译,测试,需求管理上,引入Git,Jenkins,Jira等业界最佳实践。
十二,在应用软件发布上,建议逐渐引入docker,k8s。配置管理,分布式应用都应完善。
十三,服务器安全方面,留心重要漏洞补丁升级,防火墙只开放必要协议及端口,非root帐号,ssh证书登陆。进行源IP限制。
十四,在服务器集中管理环节,引入salt stack或ansible。
十五,在服务器监控报警环节,前期可用zabbix满足, 大屏展示,grafana即可。
十六,在服务器及应用日志收集分析环节,ELK套装,或是filebeat,kafka均可引入方案中。
十七,重要数据,备份,备份,再备份。指定保留份数,并滚动更新。
十八,灾难恢复方案,不同级别的灾难,指定不同的恢复时间和损失可能性,这几个方面的细节,必须形成文档,一年至少两次演练。(因为灾备涉及更新ip或域名,需要研发在开发时,注意配置的灵活性。)
以上是关于朋友要求的运维建议的主要内容,如果未能解决你的问题,请参考以下文章