云湖共生，下一代数据湖来了？

时间 2021-05-29 标签存储缓存人工智能分布式计算 Cloud Native 安全大数据 Serverless 对象存储 Spark

简介：导语：应用导向呈现数据价值，阿里云在数据湖上的创新实践，支撑起数据快速洞察和数据输出迭代。

导语：应用导向呈现数据价值，阿里云在数据湖上的创新实践，支撑起数据快速洞察和数据输出迭代。

数据湖并非新概念，最近又被越来越多的人提及，成为新晋网红，并呈现出千人千面的现象。
在今年云栖大会上，当云原生数据湖体系在线上正式发布时，就吸引了企业的关注。如果不是2020特殊时期，在10月23日举行的线下“数据湖高峰论坛规模估计会扩大几倍。
在阿里云智能存储产品资深总监陈起鲲看来，线下数据湖高峰论坛提供了与用户更多的直接互动交流机会，他希望“云原生+数据湖仓共生”给更多企业带来的技术演进和技术价值。
此时，阿里云发布的业内首个云原生企业级数据湖解决方案成为他们的新选择，这套方案将大规模应用于今年双11，支撑阿里巴巴经济体及百万客户全面上云。

数据价值的两极化

2020年，数据量继续爆发式增长，数字化转型再次成为行业的热点，我们可以切身感受到基于云计算、大数据、AI的“新基建”带来的社会效应。
数据需要更深度的价值挖掘，在陈起鲲看来，数据的价值呈现两极化的特征，一是及时发现，实时分析快速促进业务发展；二是长期存放，数据累积起来，探索数据后隐藏的规律，统一分析其价值，为业务发展提供参考。
新的数据价值给企业带来更多智能创新应用，比如增长黑客、推荐系统，用户行为分析，AIoT带来的更多模型，这也意味着IT基础设施的变革。
以往的计算和存储耦合的架构就会呈现资源利用率非常低的状况，数据是不断累积、不断增长，但计算的算力要求可能是峰谷，为了存储更多的数据购买更多的计算，扩容的时候必须一起扩容，最终导致稳定性不是最优，两种资源无法独立扩展，使用成本也不是最优。
当然，在传统架构中，原始数据统一存放在HDFS系统上，引擎以Hadoop和Spark 为主，受到开源软件本身能力的限制，传统技术无法满足企业用户在数据规模、存储成本、查询性能以及弹性计算架构升级等方面的需求。

重新定义下一代数据湖

数据湖虽然是存在很久的概念，但最近不断被提及的关键还在于应用需求，随着企业业务演进，需要更低廉的数据存储成本、更精细的数据资产管理、可共享的元数据、更实时的数据更新频率以及更强大的数据接入工具，基于此，阿里云正式发布了云原生企业级数据湖解决方案。

数据湖统一存储用云上对象存储OSS取代HDFS，提升数据规模、降低存储成本、实现计算和存储分离架构；
数据湖构建（DLF）服务提供统一元数据和统一的权限管理，支持多套引擎接入；
EMR上Spark等计算引擎的云原生化，可以更好的利用弹性计算资源；
云上的数据开发治理平台 Dataworks解决了数据湖元数据治理、数据集成、数据开发等问题。

在陈起鲲看来，阿里云云原生的数据湖解决方案重新定义了下一代数据湖体系，更具有企业特性。
首先必须承载移动互联网、IoT业务的核心生产环境。对于企业而言，新的互联网应用的生产环境，必须是企业级的生产环境。由移动应用或社交媒体应用产生的PB级数据，搬到分析引擎进行实时分析是不可能的，必须在生产环境中进行大数据分析。
其次必须有承载EB级别的数据量的数据湖。通过阿里云对象存储OSS作为大数据存储，大文件瞬时Rename、缓存加速等都不是问题。
同时要做到与业务强耦合的数据实时分析，需要有弹性的算力，还要有弹性性能SLA的保证，阿里云对象存储 OSS 是数据湖的统一存储层，因为存算分离的架构，可以选择不一样的计算引擎，同时可存储任意规模的数据，非常适合企业基于OSS构建数据湖。
另外在这次论坛中，阿里云还发布了OSS加速器，不同与基于传统集群自建的缓存，OSS加速器弹性伸缩，其能够每TB提供200MBps的吞吐能力，线性扩展，随时可以开启。同时，基于OSS智能元数据架构，OSS加速器提供了传统缓存方案不具备的一致性，当OSS上文件被更新时，加速器能自动识别，确保引擎读取到的都是最新数据。
再者必须是安全的存放、统一的管理，确保业务安全和数据安全。阿里云全链路加密、云上多层保护，自带防御功能这些都可以保证云上数据的安全性，再加上全球部署的集群、端到端的CRC和主动排查故障的硬件能力，互联网应用的生产环境确保业务安全。

管得住、用的上、用的好

数据在哪里，分析就在哪里，如何存储和分析数据，从数据当中提取出规律和价值，阿里巴巴集团副总裁、阿里云智能计算平台事业部负责人贾扬清认为，管得住、用得上，用的好，这是阿里云构建数据湖体系的核心，这些都来自于客户现场的真实需求。

管得住数据指的就是通过OSS构建数据湖，通过管理元数据能够让我们知道数据在什么地方，在未来面向海量数据的数据湖场景下，对象存储OSS非常适合企业构建海量、高效、安全的数据湖。
用得上数据需要通过多样化计算引擎，无论是传统的、开源的引擎还是阿里云通过自己的应用构建的横向计算引擎，可对接业务应用、各类计算分析平台，让用户更容易的用上数据。
数据湖的对接主要体现在元数据与存储引擎两个方面，元数据为所有用户所共享，提供统一的元数据访问接口，各个引擎使用定制化的元数据访问客户端来访问元数据，元数据服务为各个用户提供租户隔离保证和认证鉴权服务。
阿里云数据湖OSS和数据仓库MaxCompute可以快速实现企业想要的湖仓一体方案，实现了数据湖和数仓之间的无缝流转，统一智能化管理和调度，打通了数据存储和计算的不同的层面，极大的提升了平台化服务能力，真正实现用的好数据。

全面向云原生演进

阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人李飞飞认为，从传统的自建数据分析系统、传统大数据平台、传统数仓、传统分析型数据库等维度，到极致弹性、低成本、服务化这三个关键词定义的云原生数据库时代。
具体来讲就是将Serverless、存储计算分离、资源池化、容器化部署等技术整合起来，提供云原生的数据服务，降低了客户的门槛和学习成本。

与传统大数据解决方案不同的是，通过Serverless技术提供一键建湖，管理、建湖、计算分析一体化的服务，采用DLA对接OSS提供开放存储服务和开放分析计算服务，多种数据源通过一键建湖的方式对原数据进行自动发现和管理，对下利用OSS提供低成本、高效能、强安全的云原生存储能力，对上通过数据湖管理以及缓存加速，以及利用社区的能力、缓存加速的能力，集成Spark和Crystal两种引擎提供交互式查询和复杂的ETL计算分析。
用Serverless方法调用计算资源，企业在用DLA时真正做到对多元异构数据自动管理、自动发现、按需按量配置资源，尽可能降低成本。

眼下，IT系统已经从成本中心变为创新中心，云和湖共生是下一代数据湖2.0的架构，我们都熟知的英语学习平台流利说从2016年上线高效AI英语老师，流利说自主研发的APP定制板块中以人工智能课的形式推出，基于AI深度学习的自适应课程系统，给用户系统化推出英语学习解决方案，截至到2020年6月30日，已经累计大概504亿句的录音句子数量，用户的练习语音时长已经累积到了37亿分钟。
面临这么大的语音数据的挑战，流利说在阿里云上基于OSS进行架构设计，确保数据存储的方案简单高效，基于阿里云的数据湖架构高效建设数据湖体系，支撑整个数据迭代。
某国内知名社交游戏公司基于阿里云数据湖方案，通过日志服务SLS，将全球数据实时采集加工后，投递到OSS统一存储。利用OSS海量弹性能力冷热分层，通过EMR和DLA对接OSS，搭建存算分离的大数据架构，实现千万日活的玩家链路智能推荐实时分析，实时渠道统计，精细化运营，帮助公司提升了30%的用户留存率。
目前，已有几千家企业在阿里云上构建云数据湖，数据湖就应该是不断演进中、可扩展的大数据存储、处理、分析的基础设施；以数据为导向，实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理；并通过与各类外部异构数据源的交互集成，支持各类企业级应用。
着眼未来，如果是云原生的企业，可以享受到大数据分析的红利；对于更多企业而言，上云有不同阶段，需要云上数据湖和云下数据连通，通过混合云存储或者混合云产品把客户的线下数据和公共云的数据打通，统一在云端管理、统一分层，在云上对接不一样的计算引擎。在数据驱动的时代当中，阿里云将助力客户快速迭代，协同创新。

原文链接：https://developer.aliyun.com/article/777636?

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。