大数据平台架构与Hadoop集群治理实践
2019年7月21日
大数据平台和数据应用
尹正军
联通大数据基础平台负责人
联通大数据基础平台负责人,联通大数据架构师,10多年的软件研发项目经验,擅长分布式系统技术栈。负责大数据平台架构及咨询、大规模Hadoop集群治理、DevOps&AIOps项目交付。曾任联想研究院高级研究员,前期重点研发移动云平台Push系统,完整经历设备用户从“周活十万”到“日活五千万”的高并发高性能高可扩展性架构演进过程。后期主导开发联想移动云服务集团广告营销平台、移动设备质量预测系统,同时负责LEAP企业级大数据分析平台等核心大数据平台研发、咨询、方案设计等工作,申请数据处理相关专利15项。后加入联通大数据,负责大数据平台整体架构,带领研发团队先后完成了平台数据集群治理专项工程、智能运维平台一期、DevOps开发运维一体化平台一期、数据可视化大屏等多个项目的研发交付。
  • 分享简介

    结合团队近几年的一线实践经验,深度分享运营商大规模数据集群的治理实践经验,包括数据治理和集群治理工程的定位、背景、组织架构和方法论、实施路径、案例分析、成果收益、对外产品化进展等重点内容。

    系统性介绍联通大数据平台(数千节点规模、近百PB数据量、日新增数据百TB以上、万亿级信令和互联网日志数据、数百个多租户模型运营)的整体架构,包括数据采集交换平台、核心生产平台、能力开放平台、点查询中心、安全网关、智能运维平台等关键子系统的技术架构和演进历程。

    分享HadoopMR、Spark、Flink在平台数据采集加工等具体场景的应用情况,剖析典型的故障定位、踩坑经验和性能调优案例

  • 分享提纲

    1大数据平台整体架构介绍

    2 大数据平台数据仓库建设

    3 大数据平台数据引擎演进与应用调优实践(包含HadoopMR、Spark、Flink等主流框架)

    4大数据平台数据治理体系

    5大数据平台能力开放运营

    6大数据平台治理实践-定位、背景、效果收益

    7 大数据平台治理实践-实施路径、技术方案、踩坑经验

    l  理清大规模数据集群的现状和治理需求点

    l  明确治理的组织架构、方法论、技术框架

    l  构建针对大数据集群的智能运维技术平台

    l  实现YARN作业&HDFS画像、小文件洞察

    l  实现NN RPC画像、关键Master服务预警

    l  实现冗余计算挖掘,以目录维度评估冗余度

    l  重构数据血缘、元数据、数据资产管理应用

    l  智能分析集群用户行为画像,检测预测异常

    总结

  • 分享收益

    目标:

    了解联通大数据平台整体架构、数据采集交换加工过程、数据治理体系、数据安全管控、能力开放平台运营和大规模集群治理实践内容

    成功要点:

    1构建支撑运营商级别的大规模数据平台架构,实现数据统一高效采集与加工分析,完善的质量稽核、安全合规与治理保障,通过能力开放平台赋能外部租户并完成数据资产管理体系化运营

    2实用的顶层数据治理架构设计、Hadoop与MPP技术混搭、容器&DevOps&AIOps深度融合应用,拥抱并吃透开源社区新技术

    启示:

    充分结合商业产品&开源社区技术建设平台、在采集交换源头解决数据质量问题、构建精益高效的数据治理文化、通过大规模集群治理实践保障集群稳定性和业务连续性,同时敏捷驱动数据治理体系的价值落地


热门推荐