-
构建企业DevOps度量体系-DevOps驱动价值的交付2019年7月20日
多数企业的指标度量偏向于滞后性指标,对真正的IT研发意义不大;本次分享通过识别引领性指标、滞后性指标,将有助于研发团队快速定义正确的度量引领性指标,从传统的滞后性指标中逃脱出来,实现IT工程效率的高效。
聚焦在DevOps的软件度量领域,度量数据可以帮助我们确定整个组织的开发效率,识别组织潜在的有机会进行过程改进的区域,并为组织实施过程改进建立基础。
-
从自动化运维到智能运维的变革升级之路2019年7月21日随着信息化、数字化技术的快速发展,各行各业都在拓展企业内外IT应用,加之虚拟化、容器等IaaS技术的大量普及,使企业运维职能迅速向异构、海量及应用层转变,迫使企业运维团队不得不向自动化、无人值守及运营领域转型。结合腾讯互动娱乐事业群数百人的运维团队七年转型历程,向大家分享传统运维团队向自动化、运维开发、智能运维及it运营领域转型所必经的管理架构及技术平台架构变革之路。
-
超大型运维平台的面向终态设计2019年7月21日主观判断的不确定性随之放大,这给我们运维平台的稳定性保障带来了极大的挑战,同时也让我们认识到,面向过程与操作的的运维模式将难以为续。
面对这样的处境,业界巨头其实早已开始了这方面的探索。典型系统有微软的AutoPilot、Google的brog(K8S),阿里的Apsara Infrastructure。这些系统的背后,都具有一个共同的基本原理 - 面向终态。虽然一百个人会有一百种走法,但每个人要到的目的地都是罗马。如果我们直接告诉系统,最后想要的结果,而让系统自主决定操作方式的话,就能很好规避操作不确定性的问题。这意味着用户不必再心惊胆战的规划执行路径,而是简单告诉系统,你的最终目的。而至于系统怎么规划执行路径,则根据线上实时状况以及知识库来决定,动态调整,使命必达。 -
携程大规模实时监控系统演进2019年7月21日监控系统是保证网站可用性的第一道防线,一个优秀的监控系统能够大幅度提高网站的可用性和服务质量并且减少运维成本,因此提供更加实时可靠高效的监控告警,对IT企业具有非凡的意义。 致力于这个目标,经过不断地改进,携程研发了新一代监控告警平台Hickwall,它在存储效率、查询速度和告警可靠性方面都有极大的改善。目前整个监控系统每分钟处理上亿的写入量,上万次的查询,几十万次的报警规则。