国内顶级开源数据仓库实践:Kyligence&HashData
2017年6月25日
分布式数据库
李杨 / 简丽荣
李杨:Kyligence Inc 联合创始人兼CTO;简丽荣:HashData的联合创始人兼CEO

李杨:Kyligence  Inc 联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。

简丽荣:HashData的联合创始人兼CEO,开源分布式数据库Apache HAWQ的committer和Greenplum Database的contributor。先后在IBM中国研究院、雅虎北京研发中心、和Pivotal中国研发中心从事分布式计算相关的研发工作,发表了多篇国际会议期刊论文(包括数据库顶级会议SIGMOD和计算机网络顶级会议INFOCOM)和10多个国际专利,涉及无线网络、云计算、Hadoop和分布式数据库。


,
  • 分享简介

    一 揭秘Apache Kylin :Hadoop上的数据仓库
    随着大数据领域开源工具的不断发展,越来越多的企业将数据平台搭建到Hadoop、Hive、Spark等。Apache Kylin作为Hadoop上的新型数据仓库。它在大数据上提供标准的SQL接口,能够提供亚秒级的查询速度和超大规模的并发性能。大数据直接对接在线应用重新成为可能,交互式的BI极大解放大数据生产能力。

    其中:
    Apache Kylin背后的技术原理为何?
    企业如何根据自身情况使用开源软件Apache Kylin?
    在最新的Apache Kylin版本中灵活查询(Ad-hoc Query)又是如何实现的?
    实际操作中,如何让Apache Kylin替代传统的Hive和SparkSQL?
    揭秘全球100多家公司是如何部署Apache Kylin?
    本次演讲理论结合实际案例,娓娓道来其背后的演变历史和设计考量。


    二 :云端数据仓库HashData的设计与实现

    随着信息技术的迅速发展,各行各业正产生和积累爆炸式增长的数据。如何通过分析这些规模和复杂度不断增长的数据、挖掘数据的价值来为公司提供商业决策支持,正成为困扰企业高管的一大难题。尽管近年来大数据相关的工具和产品不断涌现

    企业利用数据仓库进行大数据分析的门槛依然很高,具体体现在以下几方面:

    (1)除了以生成报表为代表的传统应用场景,越来越多的企业开始将数据分析作为服务提供给它的员工、客户和合作伙伴,同时在线的用户将达到数百上千的级别。传统MPP架构的数据仓库无法支撑如此高的并发数量。
    (2)除了传统来自业务系统的结构化数据外,企业数据中心收集和保存了越来越多像地理信息、传感器数据、服务器日志等半结构化和非结构化数据。传统关系型数据库处理这类数据显得越来越力不从心。
    (3)随着数据量的增多,为了在可接受的时间内完成数据分析,要求数据仓库集群规模不断增大;而传统MPP架构的数据仓库,相对于Hadoop技术来说,恰恰在扩展性上存在很大的局限性。
    (4)传统数据仓库在系统升级、扩缩容的时候需要停止服务或者进入只读模式,而且时间窗口比较长,严重影响正常的业务。
    分析完传统数据仓库面临的技术问题后,我们将重点介绍云端数据仓库是如何解决这些问题的:围绕着对象存储和抽象服务构建,通过将管理(元数据)、计算和存储(对象存储)三者分离的创新架构,提供传统解决方案无法媲美的高并发、可扩展、弹性和易用性,包括在线升级(正常的查询完全不受影响)、秒级扩缩容、支持的并发数随集群规模线性增长、几乎无限的计算和存储能力等。


  • 分享提纲

    第一:

    a)  Apache Kylin的工作原理
    i.如何提升查询速度
    ii.无缝融合预计算和在线计算的实现
    b)Apache Kylin亚秒级查询实践
    i.SSB基准测试和TPC-H基准测试
    ii.性能的优化以及最新的研发成果的使用
    c)灵活查询(Ad-hoc Query)的系统设计、工作原理和用户案例
    d)问题和解答

    第二:

    a. 在线分析(OLAP)系统不同的技术路线以及它们尝试解决的问题;
    b. 数据仓库的技术;
    c. MPP架构的分布式关系型数据库;
    d. 传统MPP架构的数据仓库面临的技术问题:
    e. 并发数;
    f. 半结构化和非结构化数据;
    g. 扩展性;
    h. 扩缩容;
    i. 升级;
    j. 云端数据仓库的快速崛起;
    k. 云端数据仓库的商业出发点;
    l. 云端数据仓库的技术特点;
    m. 抽象服务;
    n. 弹性伸缩;
    o. 在线升级;
    p. 管理、计算和存储分离,多维度弹性;
    q. 云端数据仓库的技术基础;
    r. 元数据服务;
    s. 对象存储;
    t. 一致性哈希算法;
    u. 云端数据仓库的典型代表;
    v. 云端数据仓库HashData的功能特点与实践
    w. HashData的功能特点;
    x.  HashData的实践试用;

  • 分享收益

    第一:

    a)了解Hadoop上的新型数据仓库-Apache Kylin的工作原理

    b)如何使用经典Cube理论极大解放数据查询速度
    c)了解如何使用在线自助平台优化工具
    d)Apache Kylin最新功能-Snowflake雪花模型、Spark Cubing构建以及Streaming流式构建等

    e)了解灵活查询的系统设计以及经典案例

    第二:

    a) 在线分析(OLAP)系统的技术分类;
    b) OLAP技术选型的最佳实践;
    c) 数据仓库底层技术干货;
    d) 最新的云端数据仓库介绍;
    e) 云端数据仓库使用的最佳实践;



热门推荐