Hbase万亿级存储性能优化总结

hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,天天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对hbase集群服务和应用全面监控的报警系统。总结下hbase优化(针对0.94版本)方面的一些经验也算对这两年hbase工做的一个描述。java


服务端node

1.hbase.regionserver.handler.count:rpc请求的线程数量,默认值是10,生产环境建议使用100,也不是越大越好,特别是当请求内容很大的时候,好比scan/put几M的数据,会占用过多的内存,有可能致使频繁的GC,甚至出现内存溢出。api


2.hbase.master.distributed.log.splitting:默认值为true,建议设为false。关闭hbase的分布式日志切割,在log须要replay时,由master来负责重放
缓存


3.hbase.regionserver.hlog.splitlog.writer.threads:默认值是3,建议设为10,日志切割所用的线程数
服务器


4.hbase.snapshot.enabled:快照功能,默认是false(不开启),建议设为true,特别是对某些关键的表,定时用快照作备份是一个不错的选择。网络


5.hbase.hregion.max.filesize:默认是10G, 若是任何一个column familiy里的StoreFile超过这个值, 那么这个Region会一分为二,由于region分裂会有短暂的region下线时间(一般在5s之内),为减小对业务端的影响,建议手动定时分裂,能够设置为60G。session


6.hbase.hregion.majorcompaction:hbase的region主合并的间隔时间,默认为1天,建议设置为0,禁止自动的major主合并,major合并会把一个store下全部的storefile重写为一个storefile文件,在合并过程当中还会把有删除标识的数据删除,在生产集群中,主合并能持续数小时之久,为减小对业务的影响,建议在业务低峰期进行手动或者经过脚本或者api按期进行major合并。多线程



7.hbase.hregion.memstore.flush.size:默认值128M,单位字节,一旦有memstore超过该值将被flush,若是regionserver的jvm内存比较充足(16G以上),能够调整为256M。app


8.hbase.hregion.memstore.block.multiplier:默认值2,若是一个memstore的内存大小已经超过hbase.hregion.memstore.flush.size *  hbase.hregion.memstore.block.multiplier,则会阻塞该memstore的写操做,为避免阻塞,建议设置为5,若是太大,则会有OOM的风险。若是在regionserver日志中出现"Blocking updates for '<threadName>' on region <regionName> : memstore size <多少M> is >= than blocking <多少M> size"的信息时,说明这个值该调整了。jvm


9.hbase.hstore.compaction.min:默认值为3,若是任何一个store里的storefile总数超过该值,会触发默认的合并操做,能够设置5~8,在手动的按期major compact中进行storefile文件的合并,减小合并的次数,不过这会延长合并的时间,之前的对应参数为hbase.hstore.compactionThreshold。


10.hbase.hstore.compaction.max:默认值为10,一次最多合并多少个storefile,避免OOM。


11.hbase.hstore.blockingStoreFiles:默认为7,若是任何一个store(非.META.表里的store)的storefile的文件数大于该值,则在flush memstore前先进行split或者compact,同时把该region添加到flushQueue,延时刷新,这期间会阻塞写操做直到compact完成或者超过hbase.hstore.blockingWaitTime(默认90s)配置的时间,能够设置为30,避免memstore不及时flush。当regionserver运行日志中出现大量的“Region <regionName> has too many store files; delaying flush up to 90000ms"时,说明这个值须要调整了


12.hbase.regionserver.global.memstore.upperLimit:默认值0.4,regionserver全部memstore占用内存在总内存中的upper比例,当达到该值,则会从整个regionserver中找出最须要flush的region进行flush,直到总内存比例降到该数如下,采用默认值便可。


13.hbase.regionserver.global.memstore.lowerLimit:默认值0.35,采用默认值便可。


14.hbase.regionserver.thread.compaction.small:默认值为1,regionserver作Minor Compaction时线程池里线程数目,能够设置为5。


15.hbase.regionserver.thread.compaction.large:默认值为1,regionserver作Major Compaction时线程池里线程数目,能够设置为8。


16.hbase.regionserver.lease.period:默认值60000(60s),客户端链接regionserver的租约超时时间,客户端必须在这个时间内汇报,不然则认为客户端已死掉。这个最好根据实际业务状况进行调整


17.hfile.block.cache.size:默认值0.25,regionserver的block cache的内存大小限制,在偏向读的业务中,能够适当调大该值,须要注意的是hbase.regionserver.global.memstore.upperLimit的值和hfile.block.cache.size的值之和必须小于0.8。


18.dfs.socket.timeout:默认值60000(60s),建议根据实际regionserver的日志监控发现了异常进行合理的设置,好比咱们设为900000,这个参数的修改须要同时更改hdfs-site.xml


19.dfs.datanode.socket.write.timeout:默认480000(480s),有时regionserver作合并时,可能会出现datanode写超时的状况,480000 millis timeout while waiting for channel to be ready for write,这个参数的修改须要同时更改hdfs-site.xml


jvm和垃圾收集参数:

export HBASE_REGIONSERVER_OPTS="-Xms36g -Xmx36g -Xmn1g -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=15 -XX:CMSInitiatingOccupancyFraction=70 -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:/data/logs/gc-$(hostname)-hbase.log"


因为咱们服务器内存较大(96G),咱们给一部分regionserver的jvm内存开到64G,到如今为止,尚未发生过一次full gc,hbase在内存使用控制方面确实下了很多功夫,好比各类blockcache的实现,细心的同窗能够看源码。



Client端

1.hbase.client.write.buffer:默认为2M,写缓存大小,推荐设置为5M,单位是字节,固然越大占用的内存越多,此外测试过设为10M下的入库性能,反而没有5M好

2.hbase.client.pause:默认是1000(1s),若是你但愿低延时的读或者写,建议设为200,这个值一般用于失败重试,region寻找等

3.hbase.client.retries.number:默认值是10,客户端最多重试次数,能够设为11,结合上面的参数,共重试时间71s

4.hbase.ipc.client.tcpnodelay:默认是false,建议设为true,关闭消息缓冲

5.hbase.client.scanner.caching:scan缓存,默认为1,避免占用过多的client和rs的内存,通常1000之内合理,若是一条数据太大,则应该设置一个较小的值,一般是设置业务需求的一次查询的数据条数 

若是是扫描数据对下次查询没有帮助,则能够设置scan的setCacheBlocks为false,避免使用缓存;

6.table用完需关闭,关闭scanner

7.限定扫描范围:指定列簇或者指定要查询的列,指定startRow和endRow

8.使用Filter可大量减小网络消耗

9.经过java多线程入库和查询,并控制超时时间。后面会共享下个人hbase单机多线程入库的代码

10.建表注意事项:

开启压缩

合理的设计rowkey

进行预分区

开启bloomfilter


zookeeper调优

1.zookeeper.session.timeout:默认值3分钟,不可配置过短,避免session超时,hbase中止服务,线上生产环境因为配置为1分钟,若是太长,当regionserver挂掉,zk还得等待这个超时时间(已有patch修复),从而致使master不能及时对region进行迁移。

2.zookeeper数量:建议5个或者7个节点。给每一个zookeeper 4G左右的内存,最好有独立的磁盘。

3.hbase.zookeeper.property.maxClientCnxns:zk的最大链接数,默认为300,无需调整。

4.设置操做系统的swappiness为0,则在物理内存不够的状况下才会使用交换分区,避免GC回收时会花费更多的时间,当超过zk的session超时时间则会出现regionserver宕机的误报


hdfs调优

1.dfs.name.dir:namenode的数据存放地址,能够配置多个,位于不一样的磁盘并配置一个nfs远程文件系统,这样namenode的数据能够有多个备份

2.dfs.namenode.handler.count:namenode节点RPC的处理线程数,默认为10,能够设置为60

3.dfs.datanode.handler.count:datanode节点RPC的处理线程数,默认为3,能够设置为30

4.dfs.datanode.max.xcievers:datanode同时处理文件的上限,默认为256,能够设置为8192


其它

列族名、column名、rowkey均会存储到hfile中,所以这几项在设计表结构时都尽可能短些

regionserver的region数量不要过1000,过多的region会致使产生不少memstore,可能会致使内存溢出,也会增长major compact的耗时


转载请注明原文连接:http://blog.csdn.net/odailidong/article/details/41794403