阿里云为什么要重构数据湖解决方案？

2022.09.23

    数据湖并不是一个新概念，大概在十多年前，从有Hadoop开始，就有很多人提出这样的设想。面对海量数据增长，要想挖掘数据价值，首先得有一个能够存储各类数据的“湖”，这个湖的“蓄水能力”要足够强大，能存储、分析和处理各类数据，包括结构化数据、非结构化数据、机器数据以及来自物联网设备的数据等等。之后，随着大数据、云计算以及云存储技术的不断成熟，数据湖解决方案被主流云计算厂商极力推崇，并且演绎出不同版本。走到今天，数据湖解决方案似乎已足够成熟，但从应用场景来看，一切才刚刚开始，还有大量变革空间，这也是阿里云为什么要重构数据湖解决方案，主推下一代技术的根本原因。
    什么是下一代数据湖解决方案？
    如何理解阿里云数据湖解决方案的最新特性？阿里云智能存储产品资深总监陈起鲲认为，数据湖解决方案由数据分析架构演化而来。
    早期大数据分析架构，是强耦合扩容模式，同一份数据需要在不同的计算集群中重复拷贝，空间利用率低，计算资源过剩；但数据是不断积累状态，并且有波峰波谷期，为了满足业务需求，承载更多数据，计算和存储要一起扩容。因为是两套系统，从生产导入数据肯定需要时间，所以会出现数据导入缓慢的状况，最终无法实时洞察业务。
    这时，聪明人就提出了数据湖架构。早期的数据湖架构一般是分布式文件存储，可以横向扩展，通过纠删码提高资源利用率；同时，计算和存储是分离状态，你可以按需扩展算力。另外，底层是分布式文件存储，基于块存储、对象存储等很多协议，用户可以把结构化和半结构化数据放在一起，数据可以统一管理，底层的分布式存储对元数据、小文件和性能都有一定提升。
    对于用户来说，数据湖带来的好处显而易见，不管是过去的数据仓库，还是现在的大数据、运营数据、交互式查询，以及可视化数据、实时分析以及预测分析数据，都能基于数据湖进行存储、分析，进而获得更大的商业价值。
    而从服务提供商的角度来看，各家都在说自己是最先提供数据湖解决方案的企业。事实上，数据在哪里，分析就在哪里。这也是为什么云厂商在推出数据库产品的时候，很多用户都愿意去尝试。因为产品本身就在承载互联网场景应用，具有海量数据云上处理能力，有更强大的计算引擎，能真正和生产环境融合在一起。云与互联网应用场景结合，才能孕育出最强大功能的解决方案，而在这方面，谁更具有独特优势？非阿里云莫属！
    至于，阿里云的数据湖解决方案到底在哪些地方进行了重构？其实一句话就可以概括，那就是“云湖共生，数仓同步”。
    云湖共生，数仓同步
    “作为业内首个云原生、企业级数据湖解决方案，阿里云数据湖解决方案可提供EB级数据存储、分析能力，能实现一站式湖存储、湖加速、湖管理、湖计算，帮助企业深入挖掘与分析数据。”陈起鲲强调，数据湖虽然是一个早已存在的概念，但阿里云的数据湖在继承以往优势的基础上已演绎出新的特色。
    首先，最新数据湖解决方案要能承载移动、互联网、IoT业务的生产数据。数据湖不应该只是解决分析环节的问题，而是要和生产环境结合。尤其在现代业务环境下，很多企业的大部分数据都来源于移动应用或者社交媒体，这种数据搬到分析引擎上，通常都是PB级别，如果等搬完后再分析，已不具备实时性。所以，真正的数据湖解决方案必须基于企业级的生产环境做大数据分析，在线生成环境产生的数据，直接可以分析。其次，必须是一个能承载EB级数据量的数据湖。其三，具有秒级响应能力，有SLA的保证，能满足高性能和高弹性需求。其四，能对数据加密，并对数据高效管理，确保业务安全。
    如何理解这些能力呢？其实一切都是客户应用价值驱动。比如：五年前，你问一个客户，建了一个多大量的数据湖？用来干什么？他会说，有多少个TB，主要功能就是每天晚上做数据分析，等早晨把数据分析的结果打印出来，给领导看，用于当天决策。但是五年后的今天，很多分析都是PB级，领导需要实时看到分析结果。如何让生产环境具有高度的弹性和稳定性？如何让数据分析和业务保持强耦合状态？一定要有SLA的保证！另外，数据是企业最宝贵的资源，必须要安全地存放，统一管理。
    基于客户应用场景的最新需求，阿里云在底层技术以及整体架构上进行了四个方面的重构。
    阿里云提供了全球领先的、最高水平的SLA，引领对象存储可用性SLA进入5位数。阿里云承诺，在每十万次请求中，单可用区错误概率不超过10次，多可用区错误概率不超过5次，这比其他云厂商提供的服务提高了10－20倍的可用性。同时，最多有12个9的持久性设计，有多层的冗余架构设计和主动排查故障的能力。
    能支持全球数十EB级数据规模。在阿里云的数据湖应用场景中，每天有上万亿次的读写或者API调用请求，因为数据量非常大，通常会分标准型、低频访问型、归档型，用户可以按数据类型分类。同时，数据架构也是强一致性模型，用户可以做全生命周期管理，系统会提供Bucket清单，方便企业盘点、查找资源。所以，用户如果使用阿里云的数据湖解决方案，等于在用上EB别的数据管理功能去管理企业的数据。
    用户可以灵活、更具弹性地选择计算引擎。在算力方面，阿里云承诺在单客户、单可用区3分钟提供50万核vCPU交付能力。在存储上，阿里云可以提供上TB级别的数据吞吐量，同时有海量数据的处理能力。在现实业务环境中，企业应用往往遭遇巨大的性能挑战，如果有一个资源爆掉，其他资源会受影响。比如：在一个Bucket里面，可能会有很多业务在同时分析，会互相干扰。即使只有一个业务在分析，也有脚本的优先级。为了从性能方面保障高可用性，阿里云提供了同Bucket分业务的QoS性能隔离功能，满足客户不同业务分析需求。最重要的是，不管是机器学习引擎还是深度学习引擎，都可以自然接入阿里云OSS，让一份数据用于多个计算引擎。
    数据安全。很多人担心上云后数据不安全。实际上，只有上云后数据才安全。在阿里云上，只需点击几个按钮，就可以全链路加密云上数据，并且密钥可管可控，你可以集成阿里云的密钥管理服务，也可以集成自己的KMS服务，系统支持多种加密算法。另外，云上数据加密，不能影响性能，还要有防误删、自带DDoS攻击防护功能。可能有人会问，那万一阿里的人干了什么坏事，怎么办？这点无需担心！阿里云资源的所有操作，都通过日志这种不能篡改的方式记录，并且阿里内部对用户资源的日志可以实现对外透明化，你可以通过第三方审计来核实。
    值得一提的是，为了更好地提升客户体验，阿里云围绕数据湖解决方案推出了一系列新产品。比如：对象存储OSS加速器功能，主要用于数据湖重复复读场景，能极大地解决读吞吐挑战，从根本上解决数据读取的一致性问题。同时，阿里云针对对象存储OSS，还重磅发布了冷归档存储类型产品，提供接近磁带级的成本，并解决磁带方案在兼容性、数据失效、取回效率低等的问题，是海量数据长期留存的最佳解决方案。另外，在构建数据洞察力方面，开源Spark性能差，资源成本较高，阿里云最新发布的Databricks数据洞察产品内置了商业版的Spark和DataLake，可以为用户带来高于开源Spark50倍的性能计算能力，确保结构化数据、半结构化数据以及流式数据处理的高性能、高可靠和弹性扩展。
    目前，阿里云最新推出的数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地，尤其在人工智能、物联网、自动驾驶等拥有海量数据场景的新兴行业，未来大有广阔空间。另外，混合云趋势的到来，也会加速推动数据湖解决方案的落地。公共云＋私有云的结合，导致很多企业会把一部分数据迁移到云端，因为相对于IDC架构，云更有弹性、技术创新更快，企业成本更低、业务迭代可以更敏捷。同时，随着业务数字化、在线化，数据的容灾保护更加重要，企业会更重视对生产环境的灾备。而从降本增效的角度考虑，企业也更愿意对数据进行冷热分层，把一部分数据留在本地，把剩余的数据放在云端，然后在云上可以基于大数据、AI来做训练和分析。
    总体来看，数据湖的未来发展前景更加可期，而随着企业应用上云进程的加快，阿里云将勇往直前，秒杀所有对手！