李杨:Kyligence Inc 联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。
李杨:Kyligence Inc 联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。
一 揭秘Apache Kylin :Hadoop上的数据仓库
随着大数据领域开源工具的不断发展,越来越多的企业将数据平台搭建到Hadoop、Hive、Spark等。Apache Kylin作为Hadoop上的新型数据仓库。它在大数据上提供标准的SQL接口,能够提供亚秒级的查询速度和超大规模的并发性能。大数据直接对接在线应用重新成为可能,交互式的BI极大解放大数据生产能力。
其中:
Apache Kylin背后的技术原理为何?
企业如何根据自身情况使用开源软件Apache Kylin?
在最新的Apache Kylin版本中灵活查询(Ad-hoc Query)又是如何实现的?
实际操作中,如何让Apache Kylin替代传统的Hive和SparkSQL?
揭秘全球100多家公司是如何部署Apache Kylin?
本次演讲理论结合实际案例,娓娓道来其背后的演变历史和设计考量。
二 :云端数据仓库HashData的设计与实现
随着信息技术的迅速发展,各行各业正产生和积累爆炸式增长的数据。如何通过分析这些规模和复杂度不断增长的数据、挖掘数据的价值来为公司提供商业决策支持,正成为困扰企业高管的一大难题。尽管近年来大数据相关的工具和产品不断涌现
企业利用数据仓库进行大数据分析的门槛依然很高,具体体现在以下几方面:
(1)除了以生成报表为代表的传统应用场景,越来越多的企业开始将数据分析作为服务提供给它的员工、客户和合作伙伴,同时在线的用户将达到数百上千的级别。传统MPP架构的数据仓库无法支撑如此高的并发数量。
第一:
a) Apache Kylin的工作原理
i.如何提升查询速度
ii.无缝融合预计算和在线计算的实现
b)Apache Kylin亚秒级查询实践
i.SSB基准测试和TPC-H基准测试
ii.性能的优化以及最新的研发成果的使用
c)灵活查询(Ad-hoc Query)的系统设计、工作原理和用户案例
d)问题和解答
第二:
a. 在线分析(OLAP)系统不同的技术路线以及它们尝试解决的问题;
b. 数据仓库的技术;
c. MPP架构的分布式关系型数据库;
d. 传统MPP架构的数据仓库面临的技术问题:
e. 并发数;
f. 半结构化和非结构化数据;
g. 扩展性;
h. 扩缩容;
i. 升级;
j. 云端数据仓库的快速崛起;
k. 云端数据仓库的商业出发点;
l. 云端数据仓库的技术特点;
m. 抽象服务;
n. 弹性伸缩;
o. 在线升级;
p. 管理、计算和存储分离,多维度弹性;
q. 云端数据仓库的技术基础;
r. 元数据服务;
s. 对象存储;
t. 一致性哈希算法;
u. 云端数据仓库的典型代表;
v. 云端数据仓库HashData的功能特点与实践
w. HashData的功能特点;
x. HashData的实践试用;
第一:
a)了解Hadoop上的新型数据仓库-Apache Kylin的工作原理
b)如何使用经典Cube理论极大解放数据查询速度e)了解灵活查询的系统设计以及经典案例
第二:
a) 在线分析(OLAP)系统的技术分类;
b) OLAP技术选型的最佳实践;
c) 数据仓库底层技术干货;
d) 最新的云端数据仓库介绍;
e) 云端数据仓库使用的最佳实践;