有没有想过 你的数据分析方法可能已通过时?


0?wx_fmt=jpeg

做者:谢涛前端


信息时代,能吃到虫子的已再也不是早起的鸟儿,而是那些数据驱动的、早起的鸟儿。像百度、阿里巴巴和腾讯这样的大公司,都在不断囤积数据,由于他们都知道数据是金灿灿的宝贝。程序员


但仅仅囤积数据是不够的。你须要熟练地筛选、全盘了解数据湖中溢出的全部数据。只有这样,你才能经过这些数据,作出更好的决策,打造更智能的产品。数据库


然而,在拥挤不堪、投资过剩的数据分析市场上,供应商为了卖出本身的产品不断放出烟雾弹,想要穿过烟雾看到“真相”,倒是一大难事。如下五点,是将来数据分析市场可能的走向,仅供参考。缓存


1BI迁移到应用程序网络


在过去的20年里,咱们见证了一场革命。不是一晚上之间发生的那种,而是逐渐发生的,缓慢的,可能不少人没有注意到。BI(商业智能)正走向死亡。或者更准确地说,BI正在进行着彻头彻尾的改变。架构


每一年,用户都在经过他们使用的应用程序——好比HubSpot、SalesForce和MailChimp——进行更多的分析。分析正在迁移到业务应用程序的结构中。机器学习

从本质上讲,业务应用程序正在获取它们本身的分析接口,根据它们的数据和用例进行定制。这种集成和自定义使得其分析接口比深奥的、复杂的通用BI更容易被用户接受。随着B2B应用程序开始在数据智能产品上展开竞争,这一趋势将会继续下去。工具


2 编译器超越分析引擎oop


历史上,数据分析有两种提供方式:经过预计算,或者经过分析引擎。性能


分析引擎,如Spark和Tableau的数据引擎,负责执行所需的计算,以回答关于组织数据的关键问题。


如今,这个领域出现了一个新的玩家:分析编译器。分析编译器能够灵活地将计算部署到不一样的基础设施。分析编译器的例子包括如今大火的TensorFlow,它能够将计算部署到GPU或CPU等。


编译器比分析引擎灵活得多,由于它们能够进行数据处理,并且咱们能够将它们进行转换,以在不一样的基础设施中运行(在数据库中,在Spark中,在GPU中,等等)。在理论上,编译器也能够生成比任何解释引擎都快的工做流。


甚至Spark也一直在获取基本的编译工具,这无疑是编译器在此驻留的标志,而且可能最终会使遗留的纯计算引擎相形见绌。


3ETL多样化


不多有一个术语能比“ETL”(提取转换加载)更让大佬们头疼。ETL堆积了大量不完整的、重复的、不相关的数据,像污水同样被排放出来,清理干净,而后被推到一个能够处理这些数据的地方。

ETL是现代、敏捷和数据驱动等关键词的对立面。ETL意味着不断重复的数据,无数的延迟,以及高额的费用。它没法回答重要的问题。


为了让ETL变得更加灵活,行业内已经开发出了各类各样的替代方案。这些解决方案包括高级的ETL工具——使ETL更容易进入Hadoop或数据仓库,到流ETL解决方案,再到利用机器学习交叉引用和删除重复数据的ETL解决方案。


另外一个很是有趣的技术类别包括像Dremio和Xcalar这样的工具,它们将ETL重构为提取-加载-转换(或ELT)。本质上,它们将转换的步骤推到最后,所以没必要再预先进行提取、加载或转换。


从历史上看,ELT的速度很慢,但这些下一代解决方案经过动态调整、索引和缓存常见的转换来快速地进行拼写。这提供了传统ETL的性能,同时具备后期转换的灵活性。


无论你如何看待它,ETL正在经历着戏剧性的演变,这将使组织可以比以往更容易地快速地利用数据,而无需耗费大量时间和昂贵的前期投入。


4 数据仓库开放


大型组织的问题多数在于没法从专一于精心设计的分析。大多数公司甚至没法合计和计算他们有多少数据。不是由于计数很困难,而是由于一个大型组织中的数据通常分散在万个数据竖井中。


不过因为云(包括API革命和管理数据解决方案)和ETL最近的进展,使得组织以结构化的方式访问更多的数据变得比以往任什么时候候都要容易。


下一代数据管理解决方案将在利用这些技术进步中发挥重要做用,使全部的组织的数据可以及时地对全部合适的人进行分析。


5 机器学习落到实处


机器学习刚刚度过了炒做的高峰期,或者至少咱们能够但愿是如此。机器学习是不完美和无罪的致命组合。当机器学习出错的时候(一般也是不可避免的),咱们不知道该去责怪谁。


这对于任何一种关键任务分析都是绝对不能容忍的。


所以,距离咱们把人工智能训练成社会最聪明的人,吸取所有知识,还是很是遥远的,远超过5年。


在此以前,咱们极可能会看到机器学习专一于某些场景的应用。例如结构化数据集的黑盒预测分析;人类辅助技术可让人们看到不一样数据源之间的链接,纠正常见错误,发现异常现象。这些并非科幻小说中所提到的超级大脑,但它们会让用户更容易找到问题,并帮助引导他们找到正确的答案。


虽然分析是一个巨大的市场,充斥着使人困惑的营销言论,但一些大的趋势也能够帮助企业决定在哪里进行投入。


将来5年,这些大的趋势可能会影响到组织使用的工具,获得融资的数据分析型创业公司,以及咱们在整个数据分析领域中看到的创新,从数据仓库到可视化分析前端。在须要弄清楚数据架构和技术堆栈应该是什么样子的时候,要根据自身实际状况,作出明智的决策。


 End 

阅读排行榜/精华推荐1 入门学习

若是有人质疑大数据?不妨把这两个视频转给他 

视频:大数据究竟是什么 都说干大数据挣钱 1分钟告诉你都在干什么

人人都须要知道 关于大数据最多见的10个问题

2 进阶修炼

从底层到应用,那些数据人的必备技能

如何高效地学好 R?

一个程序员怎样才算精通Python?

3 数据源爬取/收集

排名前50的开源Web爬虫用于数据挖掘

33款可用来抓数据的开源爬虫软件工具

在中国咱们如何收集数据?全球数据收集大教程

4 干货教程

PPT:数据可视化,到底该用什么软件来展现数据?

干货|电信运营商数据价值跨行业运营的现状与思考

大数据分析的集中化之路 建设银行大数据应用实践PPT

【实战PPT】看工商银行如何利用大数据洞察客户心声?              

六步,让你用Excel作出强大漂亮的数据地图

 数据商业的崛起 解密中国大数据第一股——国双

双11剁手幕后的阿里“黑科技” OceanBase/金融云架构/ODPS/dataV

金融行业大数据用户画像实践


讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最普遍的大数据人群

640?wx_fmt=jpeg

36大数据

长按识别二维码,关注36大数据


搜索「36大数据」或输入36dsj.com查看更多内容。

投稿/商务/合做:dashuju36@qq.com


点击下方“阅读原文”查看更多

↓↓↓