大数据hive面试题

时间 2019-12-05 标签大数据 hive 面试题

 
 1)Hive数据倾斜问题： 

 
 倾斜缘由： map输出数据按Key Hash分配到reduce中,因为key分布不均匀、或者业务数据自己的特色。】【等缘由形成的reduce上的数据量差别过大。 

 
 1.1)key分布不均匀 

 
 1.2)业务数据自己的特性 

 
 1.3)SQL语句形成数据倾斜 

 
 解决方案： 

 
 1>参数调节： 

 
     hive.map.aggr=true 

 
     hive.groupby.skewindata=true 

 
 有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每一个Reduce作部分聚合操做，并输出结果，这样处理的结果是相同Group By Key有可能被分发到不一样的Reduce中，从而达到负载均衡的目的；第二个MR Job在根据预处理的数据结果按照 Group By Key 分布到Reduce中(这个过程能够保证相同的 Group By Key 被分布到同一个Reduce中)，最后完成最终的聚合操做。 

 
 2>SQL语句调节： 

 
    1)选用join key 分布最均匀的表做为驱动表。作好列裁剪和filter操做，以达到两表join的时候，数据量相对变小的效果。 

 
    2)大小表Join： 使用map join让小的维度表（1000条如下的记录条数）先进内存。在Map端完成Reduce。 

 
    3)大表Join大表： 
 把空值的Key变成一个字符串加上一个随机数，把倾斜的数据分到不一样的reduce上，因为null值关联不上，处理后并不影响最终的结果 
 。 

 
    4)count distinct大量相同特殊值：count distinct时，将值为空的状况单独处理，若是是计算count distinct，能够不用处理，直接过滤，在作后结果中加1。若是还有其余计算，须要进行group by，能够先将值为空的记录单独处理，再和其余计算结果进行union. 

 
 2)请说明hive中 sort by ，order by ，cluster by ，distribute by各表明什么意思。 

 
 order by ：会对输入作全局排序，所以只有一个reducer(多个reducer没法保证全局有序).只有一个reducer,会致使当输入规模较大时，须要较长的计算时间。 

 
 sort by ：不是全局排序，其在数据进入reducer前完成排序 

 
 distribute by ：按照指定的字段对数据进行划分输出到不一样的reduce中 

 
 cluster by ：除了具备distribute by 的功能外还兼具sort by 的功能 

 
 3)描述数据中的null,在hive底层如何存储 

 
 null在hive底层默认是用"\N"来存储的，因此在sqoop到mysql以前须要将为null的数据加工成其余字符，不然sqoop提示错误 

 
 4)Hive中 split、coalesce以及collect_list函数的用法 

 
    split将字符串转化为数组 

 
     coalesce(T v1,T v2,...) 返回参数中的第一个非空值；若是全部值都为null,那么返回null 

 
     collect_list列出该字段全部的值,不去重 select collect_list(id) from table; 

 
 5)将文件导入到hive表中 

 
    load data local inpath '/a.txt' overwrite into table test partition(xx='xx') 

 
 6)Hive文件压缩格式有哪些，压缩效率如何 

 
 开启压缩 

 
 set hive.exec.compress.output=true; 

 
 set mapred.output.compress=true; 

 
 set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 

 
 set io.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 

 
 set mapred.output.compression.type=BLOCK; 

 
 TextFile (压缩方式Gzip,Bzip2压缩后不支持split) 

 
 SequenceFile 

 
 RCFile(存储方式：数据按行分块，每块按列存储。结合了行存储和列存储的优势) 

 
 ORCFile  

 
 7)Hive的分组方式 

 
 row_number() 是没有重复值的排序(即便两天记录相等也是不重复的),能够利用它来实现分页 

 
 dense_rank() 是连续排序,两个第二名仍然跟着第三名 

 
 rank()       是跳跃排序的,两个第二名下来就是第四名