工业大数据漫谈13:Hadoop在工业大数据中的做用

如今,一谈到大数据的技术,Hadoop都是绕不开的话题,彷佛在项目中不使用Hadoop或者相似的分布式数据库技术,就不是大数据应用。那么,到底在工业大数据应用中,没有不必使用Hadoop,或者在什么样的应用环境中使用Hadoop才是适合的呢?数据库

首先,让咱们来看一看Hadoop是什么,它是为解决什么问题而发展起来的。架构

简单说,Hadoop是一个可以对大量数据进行分布式处理的软件框架。它包含众多的应用,其最核心的是分布式文件系统HDFS(Hadoop Distributed FileSystem)、分布式计算框架MapReduce。2003年Google发表了一篇技术学术论文详细讲解了谷歌文件系统(GFS),2004年Google又发表了一篇技术学术论文讲解了MapReduce。2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。2006 年 ,Apache将Map/Reduce 和 Nutch Distributed FileSystem (NDFS) 分别被归入称为 Hadoop 的项目中。今后,Hadoop做为开源界的分布式大数据处理框架开始迅速流行起来。框架

Hadoop除了核心HDFS和MapReduce外,还有许多实现具体应用的子项目,其核心组件以下图所示:分布式



具体每一个组件的功能咱们改天另文介绍。今天主要谈谈Hadoop的优势和适用领域。Hadoop因为其自身的特色,在如下场景中有比较大的优点:oop

一、存储大量的半结构化的数据集。因为HDFS会将一个完整的大文件平均分块存储到不一样计算机上,因此一个磁盘的失败并不会带来数据丢失。同时,在读取文件时,系统也是同时从多个主机取不一样区块的文件,所以效率要比传统数据库高许多。性能

二、高效的分布式计算。经过MapReduce,能够快速地跨多台机器处理大型数据集合。实现高效的分布式计算。大数据

三、低廉的部署成本。Hadoop因为其分布式架构,可使用普通的廉价计算机组合成数据集群来实现之前只有大型高性能计算机实现的工做。搜索引擎

可是,在工业大数据领域,并非全部场合都须要或者适宜使用Hadoop这样的系统。阿里云

工业大数据项目通常有如下几种状况:3d

一种是针对单一的生产企业内部建设的工业大数据项目,那么,它的数据主要是企业内部的设备产生的监控数据,这些数据虽然相比传统组态等应用量很大了,可是,并达不到须要分布式计算这么大的数据量和计算量。这种状况下,这部分数据能够选择传统的工业实时数据库,或者使用Hadoop的组件Hbase,也可使用基于Hbase的OpenTSDB,基本就能够知足存储、处理的须要。

另外一种是大型集团企业内部的工业大数据项目,因为其监测的设备很是多,产生的数据量巨大,须要的运算量也巨大。那么,能够考虑在集团公司部署Hadoop环境,或者使用公有云的Hadoop服务(好比阿里云、百度云、腾讯云等),使用Hbase存储监控数据,同时存储大量的非结构化数据,在数据积累到必定程度时,再进行大数据的分析应用。

还有一种是针对企业销售出去的产品建设的工业大数据项目,例如,某汽车企业将其全部的汽车进行联网监测(特斯拉如今就在作这件事)。这样的项目,尤为是大型企业的产品数量是海量的,其监测数据也是海量的,这种状况在目前比较适合的就是自行建设Hadoop环境。可是远期看,随着公有云技术的逐步成熟,与公有云服务商合做应该会是一种主流。

说白了,小型的项目,不太用得着分布式计算,通常不建议使用Hadoop。固然,小型项目仍是不是严格意义上的大数据项目也很难说。中型的项目,建议采用公有云提供的Hadoop环境,也不要本身搭建,成本和收益实在不成比例。大型的项目,当前的实际状况比较适合自行搭建Hadoop环境,远期,除非是中移动、中石油这样的巨无霸企业,仍是搭建在公有云上为好。