阿里云张北数据中心:一年300天,制冷“不花钱”


    咱们今天要唠的这个热点,不是娱乐圈都某竹吴某凡“决战”事件的惊天反转(感兴趣的可以看看菜乙几的这篇:《都美竹:『想红』是新时代的荡妇羞辱》),也不是鸿星尔克一夜爆红后又被质疑诈捐多方回应(感兴趣的可以看看西坡的这篇:《鸿星尔克让我想起了陈光标》),而是实打实的“热点”——热得发烫的数据中心机房里的服务器。
    你别看数据中心的照片一个个都拍得美观大方清风拂面的,机房里边可是热火朝天。想象一下,数据中心机房里,每台狭小的服务器机柜里少说数十颗滚烫的“芯”,它们一年365天、7x24小时不停地高速运转,那么多服务器一起,散发的热量汇聚起来得是多大的热浪。
    这也就难怪大多数机房里都吵得不行——无他,多少台空调风机开足了马力在吹啊,得散热不是。
    但这个场景在张北(张家口市张北县),空调却没什么存在感,使用率很低。
    为什么要提张北?因为那里有目前中国规模最大的云数据中心——阿里云张北数据中心。在这里,已建成的和正在建的数据中心园区加总,服务器规模百万台级。
    要说这种规模的数据中心,应该更热不是?怎么会不用空调?怎么就“凉透了”?
    本来我也不太信,直到在今年“大暑”前一天,我见到了这些机器。
    一年300天,制冷“不花钱”
    张北,位于河北省西北部、内蒙古高原南缘,为坝上第一县。从北京向西北方向出发200多公里,途经草原天路没多远,就到了张北数据中心。
    阿里云张北数据中心尽管挑了个最热的日子来张北,这里“避暑圣地”的实惠还是惊到了人:北京连日下雨天气已经很“温柔”了,但是张北最高26℃的体感温度,这才叫真的凉爽!
    网上一查才知道,张北坐拥得天独厚的气候优势,年均气温只有2.6℃,年内最低气温曾经创下零下40℃的记录。零上二十五六度的天气,也就在“大暑”前后才幸得一见。
    掌握了这个情况,张北数据中心的空调开机频率,便在心中猜到了七八分。
    参观数据中心,第一项例行是严格的安检——进出都要两遍检查,这是出于数据安全的需要,不多赘述。我们直奔此行的主题:数据中心机房。
    说张北数据中心空调利用率极低,倒不如说这里更多用得是最高大上的“天然空调”。
    在园区的气冷机房,运转着的不是空调,而是一种类似于新风系统的设备——AHU风墙。
    AHU是Air Handler Unit(风机矩阵空气处理单元)的缩写,它的工作原理大概是:当室外温度低于设置值(如25℃)时,设备将室外冷空气经过滤及湿度处理后直接送入数据机房;当室外温度高于设置值时,或通过喷淋降温及过滤后送入数据机房,或启动备用制冷空调为机房服务器降温。
    在张北,几乎每年都有300多天可以利用室外冷空气为数据机房降温,而AHU风墙技术的使用,可以大大减少空调机组的运行而节能。
    阿里云内部有个测算,按照张北这靠近草原的自然风冷却服务器,夏天最热时的电源是用效率(即PUE值,数值越接近1表明效能越高)也只有1.3左右,在寒冷的冬天,PUE最低可达1.09。
    于是,在那个再过十几个小时就迎来大暑节气的中午,我进入阿里云张北数据中心的风冷机房,靠着风墙站了不到一分钟,就被风墙以3.5米/秒的风速(机房正常风力)吹得浑身上下凉飕飕,完全忘了“空调Wi-Fi西瓜”才是这个季节的标配。
    假如服务器会说话,每天这小风儿吹着,想必它们也会很得意这种被“小确凉”吹拂的舒坦日子。
    科幻大片桥段:服务器泡“水”里
    平心而论,张北数据中心有自然风冷却就够了,在张北“鼓捣”液冷技术属于多此一举。但是当看到满机房都是一个个“tank”——一台台价值不菲的服务器安安静静地浸泡在液体里——就像科幻大片里的桥段那样,心里还是震动不已。
    “将服务器泡在液体里”的这项技术叫做浸没式液冷技术。这里的液体是一种特殊的绝缘冷却液,冷却液与服务器各元器件零距离全方位接触,器件在运行中产生的热量将直接被吸收进入外循环冷却。
    加上张北年均2.6℃的气候条件,泡在液体里的服务器这下真的“凉透了”——整个房间静悄悄,全程用于散热的能耗几乎为零。
    浸没式液冷的散热表现,对于传统风冷而言称得上是“降维打击”,无非是因为液体的热传导效率高出前者百倍。
    前面提到的自然风冷却也不是对手。高山渊说:“如果将浸没式液冷向全国推广,那么全国数据中心的PUE都会降低到1.1以下。”
    随着未来对能耗密集型服务器(如AI服务器)的需求加剧,浸没式液冷或许是唯一解。
    液冷的好处不仅体现在散热方面,还在于它能够提升设备的稳定性、降低设备事故率。高山渊告诉笔者,液冷tank运行三年,与同等规模的其他机房相比,事故率降低了54%。
    但是,浸没式液冷也不是全无死角的“六边形战士”。
    一方面液冷虽然从全生命周期*来看成本还可以接受,但它的一次性投入的确有点小贵;另一方面,绝缘冷却液跟各类元器件的“磨合”还需要时间给以证明。比如,目前还未校验它与GPU等新兴计算单元、第三代半导体器件的兼容性如何;再如还发现某电容器件会在冷却液作用下慢慢失效等。此外,囿于生产工艺和技术,目前我们使用的绝缘冷却液距离实现国产化还有一段路程。
    *理论上绝缘冷却液的寿命是30年,且损耗很低。
    “减碳三环”能否带来“零碳云”
    高山渊说,加上模块化设计、AI调温等技术,张北数据中心的全年PUE低于1.2,最低可以达到1.09——这是一个领先行业的数字,这一能效约等于每年可节约标煤8万吨,相当于种植了400万棵树木。
    用大自然的冷风吹、用绝缘冷却液浸泡,把数据中心的PUE值降低到接近于1,这些手段非常高明,但这也丝毫无改数据中心仍是耗电大户的本来面目。据“中国IDC圈”统计,2019年数据中心总耗电量超过2045亿千瓦时,占全社会用电总量超过2.4%。
    数据中心负荷实在太大了,就算是能耗全部用来支撑计算,它们全年无休地开机运行,用电量也是一个天文数字。
    这个天文数字遇到“碳中和”这样的宏伟目标,无疑是一个“需要解决的问题”。
    好在张北有的是“绿电”。
    早在七八年前,张北就是“广袤的原野上风车林立,数千亩光伏电板如波荡漾”,经过这些年的发展,风车和光伏电板已经成为张家口市的重要电力来源。使用“绿电”,成为张北数据中心的应然之选。
    高山渊透露,张北数据中心无疑是张北绿电的消纳大户。2018年起,阿里就加入张家口“四方协作机制”风电交易,截至今年5月,共交易绿电约4.5亿千瓦时,累计减排二氧化碳近40万吨。
    从自身节能减排做起,还只是阿里云数据中心迈向“零碳云”的一环。
    由内向外,他们希望继续向生态企业拓能,向电力能源、钢铁、交通、制造等碳排放大户提供高效云平台支持,为其引入大数据、AI技术,帮助上云企业提高效率、节能降耗。
    比如,通过向攀钢集团引入阿里云工业大脑,对其炼钢全流程(脱硫、提矾、转炉、配合金、精炼、连铸等)进行工艺优化,帮助攀钢旗下的西昌钢钒公司炼钢厂节省了25%的人工、每生产一吨钢节省1.28公斤铁,生产效益提升2.4倍。
    在西南某大型垃圾焚烧发电机组上,阿里云利用优化的AI算法帮助客户将固废垃圾焚烧效率提升2.6%,相当于燃烧同样的垃圾每年可多发电4000多万千瓦时,碳排放相比之前降低约48%。
    在阿里巴巴,一直有个“煮蛋”梗——2005年,阿里每10笔电商交易所消耗能源能煮熟4颗鸡蛋;到2019年,只能煮熟1颗鹌鹑蛋;2021年“618”的时候,在算法继续优化下,只能煮出一颗溏心鹌鹑蛋了。
    这一“煮蛋史的变迁”,形象地展示了数据中心绿色节能的进程。
    践行“碳中和”,打造“零碳云”,阿里希望利用数字化能力做好“减碳三环”:自身节能减排的“内环”,推动生态企业脱碳减排的“中环”,公众绿色低碳消费的“外环”。
    就像阿里巴巴首席技术官程立说得那样,碳中和不仅是环保概念,更是技术路线,在落实“双碳”战略过程中,数字基建会朝着绿色基建迈进。