Kylin设计Cube

时间 2021-01-04 标签 K Kylin

1.导入Hive表定义

Kylin会在后台触发一个MapReduce任务，计算此表每列的基数。

注：Kylin对基数的计算方法采用的是HyperLogLog的近似算法，与精确值略有误差，参考足矣。

2.创建数据模型

输入模型名称

选择事实表（查询的数据表），然后添加维度表

添加维度列

添加度量列

为模型补充分割时间列信息（如果此模型中的事实表记录是按时间增长的，那么可以指定一个日期/时间作为模型的分割时间列，从而可以让Cube按此列做增量构建参见第三章）和过滤条件

3.创建Cube

创建Cube维度，WEEK_BEG_DT，实际是由PART_DT来决定，WEEK_BEG_DT为衍生维度。

根据聚合需求，为Cube定义度量的聚合形式

Cube自动合并阈值，默认7天进行一次合并，28天进行一次合并，保留时间阈值为0，即不对Cube做自动清理；根据分段时间列，选择分段起始时间。

高级设置优化Cube存储大小和查询速度，设置聚合组和Rowkey；

Kylin默认所有维度都放在同一个聚合组中，如果维度数较多（>10），建议用户根据查询的习惯和模式，单机"New Aggregation Group+"，将维度分为多个聚合组（Cuboid从2^m+n变为2^m+2ⁿ）。

Mandatory维度，总是会出现在Where条件或Group By语句里的维度，Kylin就可以不用预计算那些不包含此维度的Cuboid，从而减少计算量。

Hierarchy是一组有层级关系的维度，例如“国家”“省”“市”，“国家”高级别维度，“省”“市”依次是低级别的维度。用户会按照高级别维度进行查询，也会按低级别维度进行查询，但在查询低级别维度是，往往都会带上高级别维度的条件，而不会孤立地审视低级别维度的数据。

Joint将多个维度组合成一个维度：总是会在一起查询的维度；基数很低的维度

参与Cuboid生成的维度都会作为Rowkeys，经常出现在过滤条件中的列放在Rowkeys前

Kylin以Key-Value的方式将Cube存储到HBase中。HBase的key，也就是Rowkey，是由各维度的值拼接而成的；为了更高效地存储这些值，Kylin会对它们进行编码和压缩；每个维度均可以选择合适的编码（Encoding）方式，默认采用的是字典（Dictionary）编码技术，整数（int）和固定长度（Fixed Length）的编码

字典编码：将此维度下的所有值构建成一个从string到int的映射表；Kylin会将字典序列化保存，在Cube中存储int值，减少存储大小。字典是保持顺序的，使得在HBase中进行比较查询时，依然使用编码后的值，而无需解码。

注：将过滤频率较高的列放置在过滤频率较低的列之前，将基数高的列放置在基数低的列之前，利用过滤条件来缩小在HBase中扫描的范围。

Kylin全局参数在conf/kylin.properties中配置；Cube在Property中设置，如：kylin.hbase.region.cut=1，Kylin将会为每个HTable Region分配1GB来创建一个HTable Region

测试SQL

select sum(price) from KYLIN_SALES ks where ks.part_dt between '2013-12-01' and '2013-12-31' and ks.ops_region='Shanghai'