万亿级大数据平台的数据管理与设计实践
2019年7月21日
大数据平台和数据应用
赵群
百分点研发总监、大数据平台技术负责人
百分点研发总监、大数据平台技术负责人。主导并负责大数据操作系统BD-OS、数据开放服务平台、机器学习平台等多款产品的架构设计和研发;曾就职于搜狐和宜搜,从事核心架构研发工作,专注于搜索引擎、大数据、复杂业务系统的微服务架构设计,负责过新闻、小说、图片、游戏等多个垂直搜索产品的架构设计与引擎研发。
  • 分享简介
    在数据智能阶段,“中台”应运而生。基于大数据平台对数据的进行存储、融合、分析、管理等“中台”的基础能力的支撑日益重要。本次分享将以一个国家级大数据平台建设为例,介绍百分点的超大规模实时数据分析与数据管理的典型架构和实战经验。在该案例中,我们搭建了以Kafka、Spark Streaming、ClickHouse、HBase、Ceph和ES为基础的大数据平台,承载了万亿级数据的存储、处理和应用, 平台支持了线上2000+亿/天,峰值500+万/秒的数据处理能力。并基于大数据平台建立了统一的数据资产管理平台支持多数据源的数据管理与融合分析, 实现对400+数据源,几千张表进行了数据集成与数据管理和加工。支撑了数据标签化构建,模型化构建,及知识图谱的构建的构建与存储。本次分享将介绍平台的设计理念、关键技术选型、数据管理与融合设计。
  • 分享提纲

    1、万亿级平台实时数据分析面临的问题和挑战;

    2、百分点数据分析典型架构;

    3、核心组件的设计与选型;

    4、多数据源数据管理与融合设计。

    QA

  • 分享收益

    目标

    1百分点超大规模实时数据分析的典型架构;

    2大数据平台数据资产管理方法;
    3统一数据模型的数据融合设计。
    成功(或教训)要点
    1基于业务场景的组件选型与设计方法;
    2基于数据元标准化方法论的数据资产管理方法;
    3统一数据模型的Pipeline与交互式数据融合设计。

热门推荐