阿里云为什么要重构数据湖解决方案?


    数据湖并不是一个新概念,大概在十多年前,从有Hadoop开始,就有很多人提出这样的设想。面对海量数据增长,要想挖掘数据价值,首先得有一个能够存储各类数据的“湖”,这个湖的“蓄水能力”要足够强大,能存储、分析和处理各类数据,包括结构化数据、非结构化数据、机器数据以及来自物联网设备的数据等等。之后,随着大数据、云计算以及云存储技术的不断成熟,数据湖解决方案被主流云计算厂商极力推崇,并且演绎出不同版本。走到今天,数据湖解决方案似乎已足够成熟,但从应用场景来看,一切才刚刚开始,还有大量变革空间,这也是阿里云为什么要重构数据湖解决方案,主推下一代技术的根本原因。
    什么是下一代数据湖解决方案?
    如何理解阿里云数据湖解决方案的最新特性?阿里云智能存储产品资深总监陈起鲲认为,数据湖解决方案由数据分析架构演化而来。
    早期大数据分析架构,是强耦合扩容模式,同一份数据需要在不同的计算集群中重复拷贝,空间利用率低,计算资源过剩;但数据是不断积累状态,并且有波峰波谷期,为了满足业务需求,承载更多数据,计算和存储要一起扩容。因为是两套系统,从生产导入数据肯定需要时间,所以会出现数据导入缓慢的状况,最终无法实时洞察业务。
    这时,聪明人就提出了数据湖架构。早期的数据湖架构一般是分布式文件存储,可以横向扩展,通过纠删码提高资源利用率;同时,计算和存储是分离状态,你可以按需扩展算力。另外,底层是分布式文件存储,基于块存储、对象存储等很多协议,用户可以把结构化和半结构化数据放在一起,数据可以统一管理,底层的分布式存储对元数据、小文件和性能都有一定提升。
    对于用户来说,数据湖带来的好处显而易见,不管是过去的数据仓库,还是现在的大数据、运营数据、交互式查询,以及可视化数据、实时分析以及预测分析数据,都能基于数据湖进行存储、分析,进而获得更大的商业价值。
    而从服务提供商的角度来看,各家都在说自己是最先提供数据湖解决方案的企业。事实上,数据在哪里,分析就在哪里。这也是为什么云厂商在推出数据库产品的时候,很多用户都愿意去尝试。因为产品本身就在承载互联网场景应用,具有海量数据云上处理能力,有更强大的计算引擎,能真正和生产环境融合在一起。云与互联网应用场景结合,才能孕育出最强大功能的解决方案,而在这方面,谁更具有独特优势?非阿里云莫属!
    至于,阿里云的数据湖解决方案到底在哪些地方进行了重构?其实一句话就可以概括,那就是“云湖共生,数仓同步”。
    云湖共生,数仓同步
    “作为业内首个云原生、企业级数据湖解决方案,阿里云数据湖解决方案可提供EB级数据存储、分析能力,能实现一站式湖存储、湖加速、湖管理、湖计算,帮助企业深入挖掘与分析数据。”陈起鲲强调,数据湖虽然是一个早已存在的概念,但阿里云的数据湖在继承以往优势的基础上已演绎出新的特色。
    首先,最新数据湖解决方案要能承载移动、互联网、IoT业务的生产数据。数据湖不应该只是解决分析环节的问题,而是要和生产环境结合。尤其在现代业务环境下,很多企业的大部分数据都来源于移动应用或者社交媒体,这种数据搬到分析引擎上,通常都是PB级别,如果等搬完后再分析,已不具备实时性。所以,真正的数据湖解决方案必须基于企业级的生产环境做大数据分析,在线生成环境产生的数据,直接可以分析。其次,必须是一个能承载EB级数据量的数据湖。其三,具有秒级响应能力,有SLA的保证,能满足高性能和高弹性需求。其四,能对数据加密,并对数据高效管理,确保业务安全。
    如何理解这些能力呢?其实一切都是客户应用价值驱动。比如:五年前,你问一个客户,建了一个多大量的数据湖?用来干什么?他会说,有多少个TB,主要功能就是每天晚上做数据分析,等早晨把数据分析的结果打印出来,给领导看,用于当天决策。但是五年后的今天,很多分析都是PB级,领导需要实时看到分析结果。如何让生产环境具有高度的弹性和稳定性?如何让数据分析和业务保持强耦合状态?一定要有SLA的保证!另外,数据是企业最宝贵的资源,必须要安全地存放,统一管理。
    基于客户应用场景的最新需求,阿里云在底层技术以及整体架构上进行了四个方面的重构。
    阿里云提供了全球领先的、最高水平的SLA,引领对象存储可用性SLA进入5位数。阿里云承诺,在每十万次请求中,单可用区错误概率不超过10次,多可用区错误概率不超过5次,这比其他云厂商提供的服务提高了10-20倍的可用性。同时,最多有12个9的持久性设计,有多层的冗余架构设计和主动排查故障的能力。
    能支持全球数十EB级数据规模。在阿里云的数据湖应用场景中,每天有上万亿次的读写或者API调用请求,因为数据量非常大,通常会分标准型、低频访问型、归档型,用户可以按数据类型分类。同时,数据架构也是强一致性模型,用户可以做全生命周期管理,系统会提供Bucket清单,方便企业盘点、查找资源。所以,用户如果使用阿里云的数据湖解决方案,等于在用上EB别的数据管理功能去管理企业的数据。
    用户可以灵活、更具弹性地选择计算引擎。在算力方面,阿里云承诺在单客户、单可用区3分钟提供50万核vCPU交付能力。在存储上,阿里云可以提供上TB级别的数据吞吐量,同时有海量数据的处理能力。在现实业务环境中,企业应用往往遭遇巨大的性能挑战,如果有一个资源爆掉,其他资源会受影响。比如:在一个Bucket里面,可能会有很多业务在同时分析,会互相干扰。即使只有一个业务在分析,也有脚本的优先级。为了从性能方面保障高可用性,阿里云提供了同Bucket分业务的QoS性能隔离功能,满足客户不同业务分析需求。最重要的是,不管是机器学习引擎还是深度学习引擎,都可以自然接入阿里云OSS, 让一份数据用于多个计算引擎。
    数据安全。很多人担心上云后数据不安全。实际上,只有上云后数据才安全。在阿里云上,只需点击几个按钮,就可以全链路加密云上数据,并且密钥可管可控,你可以集成阿里云的密钥管理服务,也可以集成自己的KMS服务,系统支持多种加密算法。另外,云上数据加密,不能影响性能,还要有防误删、自带DDoS攻击防护功能。可能有人会问,那万一阿里的人干了什么坏事,怎么办?这点无需担心!阿里云资源的所有操作,都通过日志这种不能篡改的方式记录,并且阿里内部对用户资源的日志可以实现对外透明化,你可以通过第三方审计来核实。
    值得一提的是,为了更好地提升客户体验,阿里云围绕数据湖解决方案推出了一系列新产品。比如:对象存储OSS加速器功能,主要用于数据湖重复复读场景,能极大地解决读吞吐挑战,从根本上解决数据读取的一致性问题。同时,阿里云针对对象存储OSS,还重磅发布了冷归档存储类型产品,提供接近磁带级的成本,并解决磁带方案在兼容性、数据失效、取回效率低等的问题,是海量数据长期留存的最佳解决方案。另外,在构建数据洞察力方面,开源Spark性能差,资源成本较高,阿里云最新发布的Databricks数据洞察产品内置了商业版的Spark和DataLake,可以为用户带来高于开源Spark50倍的性能计算能力,确保结构化数据、半结构化数据以及流式数据处理的高性能、高可靠和弹性扩展。
    目前,阿里云最新推出的数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地,尤其在人工智能、物联网、自动驾驶等拥有海量数据场景的新兴行业,未来大有广阔空间。另外,混合云趋势的到来,也会加速推动数据湖解决方案的落地。公共云+私有云的结合,导致很多企业会把一部分数据迁移到云端,因为相对于IDC架构,云更有弹性、技术创新更快,企业成本更低、业务迭代可以更敏捷。同时,随着业务数字化、在线化,数据的容灾保护更加重要,企业会更重视对生产环境的灾备。而从降本增效的角度考虑,企业也更愿意对数据进行冷热分层,把一部分数据留在本地,把剩余的数据放在云端,然后在云上可以基于大数据、AI来做训练和分析。
    总体来看,数据湖的未来发展前景更加可期,而随着企业应用上云进程的加快,阿里云将勇往直前,秒杀所有对手!