Apache CarbonData 1.4.0 正式发布，多项新功能及性能提升

时间 2021-01-16

Apache CarbonData 1.4.0 下载地址：https://dist.apache.org/repos/dist/release/carbondata/1.4.0/
Apache CarbonData 官方文档：http://carbondata.apache.org/mainpage.html
Apache CarbonData 源码：https://github.com/apache/carbondata

更多详情请参见 https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=85475081 （点击下面阅读原文即可进入）

Apache CarbonData社区很高兴发布1.4.0版本，在社区开发者和用户的共同努力下，1.4.0解决了超过230个JIRA Tickets（新特性和bug修复），欢迎大家试用。

简介

CarbonData是一个高性能的数据解决方案，目标是实现一份数据支持多种分析场景，包括BI分析，即席SQL查询，明细数据分析，流式分析等。CarbonData已经部署在许多企业生产环境中，例如一个规模较大的场景，支持单个表3PB数据(超过5万亿条记录)上明细数据分析，响应时间小于3秒!下面是1.4.0支持的新特性介绍。

Carbon Core

数据加载性能提升

通过增强入库过程中的IO读写(包括排序临时文件改进，分区排序，免拷贝等)，数据加载性能得到了显著提高。在一个实际的生产环境中，与上一版本相比，我们观察到多达300%的改进。

数据Compaction性能提升

通过在Compaction过程中采用数据预取和矢量化读取的改进，CarbonData表上的Compaction执行性能与上一版本相比提高了500%。得益于这个提升，在一个面向IoT的场景中，做到每5分钟的数据加载(数据量为几百GB)的同时达到秒级查询响应，通过设置自动Compaction，系统每隔30分钟和60分钟进行一次Compaction("carbon.compaction.level.threshold"设置为"6,2")，减少了Segments的数量，使CarbonData的索引更有效。

DataMap管理

1.4.0中的CREATE DATAMAP语句中引入了新的语法'DEFERRED REBUILD'，这使得用户可以选择DataMap管理机制是自动或手动。在创建DataMap时，如果用户指定了'DEFERRED REBUILD'，系统会默认设置DataMap的状态为不可用，当用户执行REBUILD DATAMAP命令后，系统会触发DataMap的加载，并在查询时使用该DataMap。这使用户可以控制何时加载DataMap，有利于用户控制对资源的使用。相对地，用户也可以不指定'DEFERRED REBUILD', 每当有新的数据加载发生时系统会自动触发所有相关DataMap的加载（与老版本一样）。详细操作请参阅DataMap管理。

外部表

现在您可以通过CREATE TABLE ... LOCATION ...来指定Carbon数据文件的存储位置，这个特性的行为和用户与Hive External Table相同。

支持云存储

您可以使用云存储来建立CarbonData外部表，例如将CarbonData表存储在AWS S3，华为云OBS等云存储中。例子请参阅CarbonData云存储例子。

支持在独立应用程序中使用SDK

1.4.0提供了Java SDK，通过使用该SDK，应用程序可以不依赖Hadoop和Spark来创建表格、写入和读取CarbonData文件。例如，用户可以写一个独立的Java程序将现有数据转换为CarbonData文件。目前，SDK支持把以下格式转换为CarbonData文件，支持写入到本地磁盘或云存储。

CSV数据，Schema由用户指定。
JSON数据，Schema通过Avro对象表达。

具体例子请参阅CarbonData SDK应用例子

针对OLAP场景的增强

支持在Streaming Table里使用预汇聚 (PreAggregate DataMap)

在上个版本中，一个表格不能同时进行流式入库和创建预汇聚表，在1.4.0中去除了这个限制。现在您可以在流式表上创建预聚合表，既缩短了数据从产生到可分析的时间，也可以利用预汇总表来提高查询性能。此特性的实现机制是把一个查询分为两个部分，一部分查询流数据，另一部分查询预聚合数据，最终系统自动合并查询结果。由于预聚合数据比原始数据少得多，所以使查询更快。

预聚合表支持分区

针对分区表，用户创建预汇聚表（preaggregate DataMap）后，预汇聚表会具备相同的分区属性（相同的分区列）。由于此时主表和预汇聚表的分区是Aligned的，因此当您在主表上执行数据管理操作(如创建/删除/覆盖写分区)时，同样的操作将在聚合表上自动完成，使两者保持同步。例如，用户可以创建一个天分区表，每天导入数据到新分区，这样系统也会自动完成对应预汇聚表的新分区导入。

支持物化视图(Alpha功能, MV DataMap)

与1.3.0版中引入的预汇聚表（PreAggregate DataMap）相比，1.4.0中引入了功能更强大的物化视图（MV DataMap），它可以涵盖更多的 OLAP分析场景。用户通过类似的DataMap语句(CTAS)创建、删除、显示物化视图，在查询时系统会根据查询条件和执行成本找到合适的物化视图，将查询语句重写为针对物化视图的查询，提升查询性能。

CarbonData物化视图作为一个长期演进特性，目前支持SPJGH的形式(select-predicate-join-groupby-having)，用户可以创建单表或多表的汇聚表，也可以针对单表只做过滤，不做汇聚。

这个特性目前是Alpha版本，仍存在不完善的地方，不建议用户在生产系统中使用，但我们鼓励所有用户在非生产系统中试用，该特性会在未来版本中逐步改进。

针对明细数据分析的增强

针对高基数列的BloomFilter DataMap(Alpha功能)
为了提升高基数列的过滤效果和查询性能，1.4.0引入了BloomFilter索引。它针对的场景是类似用户名/ID等高基数列上进行精确匹配。在一个与上一版本的对比测试中，我们针对用户名进行过滤查询，发现并发查询性能提高了3~5倍。有关更多详细信息，请参阅 BloomFilter DataMap指南

针对文本检索的Lucene DataMap(Alpha功能)

Lucene是一个高性能全文检索引擎，1.4.0实现了一个基于Lucene的DataMap索引，用户可以创建Lucene DataMap来提高长文本字符串列的模糊匹配查询性能。有关更多详细信息，请参阅 Lucene DataMap指南

支持搜索模式(Alpha功能)

为了提高并发过滤查询性能，CarbonData新增了一种“搜索模式”（Search Mode）来执行查询（包含查询调度和执行）。该模式不使用Spark RDD和DAG Scheduler，避免了由于RDD带来的性能开销。在一个与“Spark模式”的对比测试中，“搜索模式”使查询时延降低了一半，从1秒降低到500ms。例子请参考SearchMode例子

其他重要改进

改进了EXPLAIN命令输出，通过EXPLAIN命令，用户可以得知某个查询是否被重写针对预聚合表或物化视图的查询，使用了哪个索引，命中了多少个文件和Blocklet等，可以基于此对物化视图和索引进行调优。
在Carbon Core中增加了性能调优日志，包括输出SQL解析和优化器占用时间，索引过滤信息，Carbon文件IO读取时间，解码Blocklet的数量和时间，向上层引擎填充结果的时间等。参考“enable.query.statistics”配置设置。
支持数据加载和Compaction并发执行。
支持将可见和不可见的Segment元数据分隔为两个文件，并在SHOW SEGMENTS命令中显示它们。
支持分区表上的全局排序选项
减少全局排序表中的对象生成，减少GC
对DESC命令进行优化以显示分区表的分区值和位置