太平洋保险家园大数据项目DSG应用(30多个Oracle等实时同步到KAFKA)

太平洋保险集团
“家园项目”大数据平台DSG应用(oracle&kafka)mysql

项目背景
根据太平洋保险集团的IT建设规划,在2017年年末,须要完成“一个太保,共同的家园”项目(简称家园项目),旨在给客户提供更加便携、全面的服务,经过一个家园平台,就可以完成全部的服务。
众所周知,太平洋保险的业务范围很是普遍,囊括了产险、寿险、车险等业务,同时,一个险种又由多个系统共同提供服务。如今要在一个平台上完成这些服务,数据的汇聚、集中、转换就成了整个项目的核心与难点。sql

项目需求
根据太保家园项目的最终目标,在一期建设中,须要将太平洋保险集团下属的寿险,产险,车险等30多个核心系统数据,经过实时同步复制的方式,统一集中到大数据平台。其中涉及数据的转换,标化,清洗,去重等一系列过程,具体需求以下:
一、 须要将核心数据从30多个系统同步到大数据平台的kafka组件。
二、 确保数据复制的实时性(秒级)和数据的准确性
三、 复制的数据须要加上时间,操做类型等标签,便于后端应用识别
四、 以生产环境的dg库做为数据的汇聚源端,减轻对生产库的影响
五、 入kafka的数据格式可灵活配置,以便更好的适配后端应用
六、 须要具有数据操做统计和数据比对功能,便于核对数据的准确性数据库

项目难点
在实现整个家园项目的数据汇聚中,根据项目需求和实际的生产环境状况,要完成整个数据同步,主要存在如下一些难点:json

  1. 涉及的业务系统众多。据初步规划,此平台须要接入的核心生产系统有30多个,既有oracle,也有mysql、db2等,每一个系统的基础平台和数据格式千差万别,
  2. 数据量大。目前整个平台须要的数据容量超过30T。而且源端业务系统是很是严格的7x24小时系统,这就给初始化带来很大的难度。
  3. 网络带宽资源有限。生产环境数据都在上海数据中心,大数据平台在成都数据中心,中间的网络带宽是全部业务系统共用,所以不能过大占用带宽资源。
  4. 业务量大。数据库天天的归档量均在800G以上,参与复制的核心表,每秒钟均有几百上千笔业务。
  5. 延迟时间短。因为家园平台须要给客户提供实时的业务咨询与办理服务,复制的延迟不能超过10S,不然,用户的体验度大打折扣,违背家园项目建设的初衷。
  6. 数据准确性要求高。家园平台承载着全部的查询、部分业务办理,若是数据不许确,必然引发业务逻辑混乱,没法为用户提供服务等问题。后端

    解决方案
    在此方案中,采用DSG SuperSync产品完成oracle到kafka的数据复制,方案架构如上图所示。在太保的系统架构中,生产中心位于上海,灾备中心位于成都。全部核心系统在本地生产中心均建有一级DG库,在成都灾备中心建有二级DG库。同时,这次项目的大数据中心也位于成都灾备中心。基于这种架构考虑,把数据量较大的全量同步放在成都的二级DG库上,这样能够节省上海到成都的带宽资源,同时提升同步效率。同时增量同步放在上海本地的一级DG库,以知足实时同步的要求。
    太平洋保险家园大数据项目DSG应用(30多个Oracle等实时同步到KAFKA)安全

    方案优点
    该方案具备如下优点:网络

  7. 从架构层面,依赖于DSG产品对异构平台的完美支持,将全量数据同步到集群的hdfs,增量数据同步到kafka,很好地解决了两个数据中心的网络带宽资源有限的问题。
  8. 为减轻生产库的压力,支持以生产库的DG库做为源端进行数据复制
  9. 经过cjson模板,可高度自定义入kafka的数据格式
  10. 可自定义输出数据内容,针对采集的数据可进行增删改操做后,投递到kafka中
  11. 数据可校验。投递入kafka的数据,操做数据会经过明细,定时统计,累计统计三个维度进行记录,并把该记录定时存放在指定位置,例如数据库中,hdfs中或者文件系统中,以便后续业务进行数据操做的回查,实现数据校验的功能。
  12. DSG SuperSync软件支持不一样平台上的Oracle数据库之间的快速同步,包括首次数据同步和增量数据复制。DSG SuperSync采用彻底逻辑的方式进行数据同步,能够跨越不一样平台;而且在数据同步过程当中,采用了DSG独有的XF1文件格式、数据流压缩技术和快速数据抽取和装载技术。在配置多个同步通道的状况下,能够快速将现有数据库内的数据同步到目标数据库,并在其后将同步期间的增量数据一并复制到目标数据库实现数据追平。目前DSG SuperSync支持主流平台(HP/IBM/SUN/Comppaq/PC)上的Oracle各版本(Oracle8i – 10g)之间的数据复制。
  13. DSG SuperSync产品的数据复制效率,在该领域中是最高的。在kafka的投递端,能够采用多线程、多并发等方式进行加速投递,现场效率能够达到每秒2万条的多线程

    DSG简介
    DSG是领先的致力于数据存储管理的专业厂商,提供优秀的大数据管理软件和数据安全、灾难恢复、数据抽取共享、数据归档检索和一体化管理平台在内的解决方案,产品包括:备份、容灾、数据同步复制/抽取/共享、数据归档、数据稽核等,在国内获得了普遍的应用。目前公司拥有员工近300余人、全国设有3个研发中心、20多个办事处和分支机构,服务网点覆盖全国,在中国市场拥有数百家电信、金融和政府行业的高端用户。
    SuperSync数据同步复制软件应用:(国内800余家客户,在原有强大的Oracle的实时同步复制/灾备外,还能够支持Mysql/Sql/DB2/PostgreSql/Hana/Qcubic/Redis/Teradata/浪潮K-DB/达梦/南大Gbase等国内外各种数据库与Hadoop、HBase、Phoneix、Storm、Flume、Spark、Kafka、tibc、阿里云间的实时同步复制,可根据kafka等格式需求定制(添加字段/数据转换/分类等),应用在大数据共享、读写分离和实时灾备等方面。架构