飞天是如何从“骗子”变成“娇子”的?


    ——飞天,阿里云12年前种下的一粒种子,如今已经蔚然成林。
    在今年的阿里云北京云峰会上,飞天宣布了三大升级:一云多芯、本地Region、计算巢。
    一云多芯,阿里云在飞天加持下,能够兼容x86、ARM乃至当下热门的RISC-V等多种芯片架构,以标准化的云计算服务拥抱未来更多可能性。
    本地Region,阿里云让公有云从中心延伸到本地,让这朵计算的云更靠近地面。
    计算巢,通过向PaaS伙伴开放飞天技术底座,让云上客户得到更好的PaaS服务,从而大幅降低上云成本。
    这三大升级,从技术上扫平了阿里云服务各类用户的屏障,包括政企。而这一切,阿里云要感谢他们创造了飞天。而飞天也注定将成为这个时代的符号——云计算在飞天的操控之下,让万物能够随时随地被连接、计算、智能化。
    谁都知道,飞天不是一夜之间一飞冲天的。甚至在最开始,飞天各种被嫌弃。
    “骗子”
    这是段IT江湖耳熟能详的故事。
    2008年,阿里巴巴确立云计算战略,开启了自研飞天的征程。
    砍掉小型机、弃用Oracle数据库和EMC存储设备——阿里云还没出生,就要释放“去IOE”这头怪兽,难度可想而知。
    用阿里云创始人王坚的话来说,这个征程不是爬香山,而是向珠峰进发。
    2009年,飞天的第一行代码诞生。然而,这行代码将会链接到一个什么样的未来,所有人都没有答案。
    
    飞天第一行代码
    万事开头难。在阿里云初创时代,“捆绑创业”被发明出来。被捆绑的是阿里金融(即蚂蚁金服的前身),阿里金融的“牧羊犬”项目成为阿里云第一个客户。
    “牧羊犬”是这样一个项目:要用数据和计算去解决中小企业融资难的问题。彼时正值移动互联网时代大幕初启,这个逻辑没有任何问题。但阿里金融总裁胡晓明被要求,必须基于阿里云。
    当年,OpenStack已经发布,市场纷纷拥抱开源。这边厢却要从零开始搭建飞天,胡晓明和团队十分费解,但最终都被一句“阿里云是未来”顶了回来。
    奈何,初生的阿里云经常出现不稳定和数据错误的情况。
    因为系统常常出错,分布式计算被调侃是“分步试计算”;专人24小时盯着系统,阿里云又被戏谑是“人肉云计算”。
    与此同时,阿里金融业务开展步履维艰,但也不得不咬牙坚持。因该项目名为“牧羊犬”,阿里内部自嘲这是“吃自己的狗粮”。
    自嘲归自嘲,现实的痛是刀刀到肉的。Bug不断,项目赔钱,团队出走——最严重的时候,百分之七八十的工程师陆续离开。
    阿里云和飞天被嫌弃之状,大抵如此。
    带着“骗子”的标签,阿里云终于完成了从0到1到突破。
    2012年阿里年会,王坚在台上掩面落泪,那一刻的百感交集,只有经历了才知道。
    阿里巴巴将这一年的“飞天奖”颁给阿里云所有员工,颁奖词是:“坚持就是伟大。”
    “骄子”
    从被嫌弃到变成阿里骄子,2013年是个分水岭。在这一年,借助飞天,阿里云一次性将5000台服务器的计算性能整齐划一。
    这是一场漂亮的翻身仗,也是一个标志性的里程碑——阿里云成为世界上第一家对外提供5K云计算服务能力的公司。
    算力底座宣告落成。当年,阿里云最后一台小型机下线。
    2015年,12306部署在飞天上,阿里云为其分流了春运高峰75%的流量,一战成名。
    云计算自此风靡,但飞天没有停止升级。2016年,阿里云针对虚拟化的开销做了架构和产品的研发,“神龙架构”破壳而出。
    “神龙”之后,“盘古”存储、“洛神”网络平台、“玄武”高性能服务器……阿里云都有了。它们共同融合成为强大的云平台,支撑阿里云将计算资源像供水供电那样送到万千用户。
    基于飞天,阿里云把水井变成自来水。
    2017年,“飞天云操作系统核心技术及产业化”项目获得中国电子学会科学技术奖科技进步奖特等奖,这是该奖项设立15年来首次颁发的特等奖。
    后面的故事,可以直接上数字说话。
    阿里近期发布的2021财报数据显示,阿里云市场营收突破600亿元,同比增长50%,成为推动阿里巴巴集团整体收入增长的重要引擎。
    IDC最新发布的《全球及中国公有云服务市场跟踪》显示,2020年全球IaaS市值达到671.9亿美元,同比增长33.9%,亚马逊、微软、阿里巴巴坐稳前三,“云计算3A”无可撼动。
    一云多芯
    在这次阿里云峰会上,飞天携三大升级再次进入人们视野,以“做深基础”之姿,行“做厚中台”之便——根深才能叶茂,厚积然后薄发,阿里云通过飞天对百万台服务器的计算能力体系化、建制化、标准化,最终通向云计算的“做强生态、做好服务”。
    三大升级中,“一云多芯”可谓光芒万丈,被业内津津乐道。大家觉得,这是飞天提升能力、提供更丰富云计算部署形态的一大步,是阿里云向广阔政企市场发起冲锋的一个信号。
    诚然。但“一云多芯”所谋深远。它要解决的是什么行业命题?且看——云平台管理的计算节点越来越多,很快面临到这样一个问题:不同CPU架构的计算节点,很难统一管理。比如一个云平台上既有x86架构节点、又有ARM节点,往往用两朵云分而治之。
    这样的好处是,x86(复杂指令集)和ARM(精简指令集)可以各自发挥传统优势,以性能、功耗之长等分别适用不同场景。
    然而,市场对计算的需求是动态变化的。
    举两个例子。
    一个是,英特尔最新发布的至强Ice Lake芯片中的安全计算指令集SGX,给解决多方可信计算问题提供了可行性,这对于云计算在一些关键行业如医疗、金融等的使用非常重要。这些领域对于既能打破“数据孤岛”、发挥数据价值又能做到“数据可用不可见”的可信计算或安全计算有更大的买单冲动。
    另一个是,人工智能模型对算力要求越来越高,且往往规模越大的AI模型越能展现出更好的AI性能。因此创业者和开发者希望通过AI云用上最新的、参数规模更大AI模型。在提高AI算力方面,平头哥先后推出的多款产品,包括RISC-V处理器“玄铁910”和强劲的AI推理芯片“含光800”,可通过AI云服务为AI场景提供澎湃AI算力。
    再如英伟达今年4月发布的基于ARM的数据中心CPU芯片“Grace”,将CPU与GPU之间的通信速度提高近10倍,使其具备更强的AI推理能力。
    那么问题来了,如果用户既想要超强的AI推理能力,又希望进行多方安全计算(这在政企市场有望成为主流需求),怎么办?
    此前的方案是多云协同,但那样需要给ARM集群和x86集群分别提供存储与网络的配套,不仅浪费资源,还要额外关注多云协作的管理开销。
    而阿里云的一云多芯,能够做到用一套云操作系统(飞天)来管理不同架构的硬件服务器集群,将不同的架构的CPU算力标准化,进而从根上解决不同类型CPU共存所带来的多云管理问题。
    云为中心
    从这一视角可以看到,云计算已不是单纯的计算力,而是变成一个体系化的创新集成体,它往往要瞄准关乎IT生态发展的问题。
    无怪乎张建锋在阿里云峰会上说:“对阿里云来说,云计算是一个巨大的产业变革的机会,也是一个巨大的技术变革的机会——数字创新的云将面向所有开发者。”
    的确,在算力经济时代,云越来越成为技术变革的中心。过去以芯片为核心的IT创新仍在发挥作用,只是已经成为云计算的附庸——用户并不必关心计算节点的构成,也不用在意服务器的组合、芯片架构乃至型号,只要能通过云计算得到最适用的算力或SaaS服务就够了。
    这是云计算发展趋向于成熟的必然。这自下而上地驱动云厂商不断加速创新、做深基础,不断丰富生态、做厚储备积累。对于阿里云来说,就是如张建锋所言,在庞大的技术体系中做自己的创新,然后向上重塑技术软件,最后呈现SaaS化服务。
    阿里云当初坚定打造“飞天”,让这一切变得“容易”起来——无论技术体系内诸如神龙架构、POLARDB云数据库等的创新,还是自此塑就的云钉一体、计算巢、本地Region,都离不开飞天这个技术底座。
    
    飞天技术底座
    可以说,飞天在解决人类计算规模、效率、安全问题方面取得了空前的成就,在飞天之上,可供使用的算力更强、更通用、更普惠。
    飞天也以实打实的成绩证明了这一点:十多年来,飞天经受双11、12306春运购票等极限并发场景挑战。目前,阿里云为全球客户部署200多个飞天数据中心,通过底层统一的飞天操作系统,为全球用户提供云计算。
    梦回十多年前,中国几大互联网巨头只有阿里先发占道云计算,阿里云最终成为“先驱”而没有成为“先烈”,到底是因为做对了什么?
    我想,这才是飞天更加值得骄傲的地方。