AI提升数据中心的可用性和效率


    机器学习为数据中心运营商带来了更好的散热,功耗和性能。
    随着企业开始采用经过大型数据中心运营商和托管服务提供商试用和测试过的机器学习技术,人工智能将在数据中心运营中扮演更重要的角色。
    今天的混合计算环境通常跨越了内部数据中心、云和配置站点以及边缘计算。企业发现传统的数据中心管理方法并不是最优的。通过使用人工智能,机器学习,可以简化复杂计算设施的管理。
    目前,数据中心的AI主要围绕机器学习来监控和自动化设施组件的管理,如电力和配电元件,冷却基础设施,机架系统和物理安全。
    在数据中心设施内部,越来越多的传感器正在从设备(包括备用电源,配电设备,开关设备和冷却器)收集数据。有关这些设备及其环境的数据将通过机器学习算法进行分析,例如,该算法可以详细了解性能和容量,并确定适当的响应,更改设置或发送警报。随着条件的变化,机器学习系统能从变化中不断学习 - 它本质上是通过训练进行自我调整,而不是依靠特定的编程指令来执行其任务。
    目标是使数据中心运营商能够提高设施的可靠性和效率,并更自主地运行它们。但是,获取数据并不是一项简单的任务。
    基本要求是获得来自主要组件的实时数据,施耐德电气数据中心全球解决方案高级总监Steve Carlini说。包括冷水机组,冷却塔,空气处理机,风机等等设备。在IT设备方面,你需要收集诸如服务器利用率,温度和功耗等指标。
    “计量一个数据中心不是一件容易的事。”Carlini说, “如果你想尝试做人工智能,你需要从数据中心获取数据,并且确保在数据中心有很多连接点用于供电和散热。”
    IT专业人员习惯于设备监控和实时警报,但在房屋设施方面则没有这个传统。“人们希望即时得到IT设备的通知。但在你的电力系统上,这不是直接能够得到的数据,“Carlini说。 “这是一个不同的世界。”
    只有在过去的十年左右,第一批数据中心才完全装备了仪器,并使用仪表来监控电力和制冷。只要存在计量的地方,标准化的实现往往都是困难的:数据中心运营商依赖于使用多种通信协议来构建管理系统——从Modbus和BACnet到LONworks和Niagara——它们必须满足于那些无法共享数据或不能通过远程控制操作的设备。“TCP/IP,以太网连接——这些连接以前在动力系统端和冷却端是闻所未闻的,”Carlini说。
    好消息是,数据中心的监控正在向高级分析和机器学习所需的深度发展。服务提供商和托管服务提供商一直非常擅长在机架级别进行监控,特别是监控能源使用情况。企业正在开始部署它,这取决于数据中心的规模,“Carlini说。
    机器学习使数据中心时刻保持凉爽
    由于电力系统故障导致的达美航空数据中心停运事件,使其在2016年的三天时间内停飞约2000次航班,造成损失1.5亿美元。这正是基于机器学习的自动化技术可以避免的场景。 由于数据中心计量技术的进步以及云中数据池的出现,智能系统有可能以手动流程无法发现的方式发现数据中心运行中的漏洞并提高效率。
    机器学习驱动智能的一个简单示例是基于条件的维护策略,它应用于数据中心中的消耗品,例如,冷却过滤器。Carlini说,通过监测通过多个过滤器的空气流量,智能系统可以检测出一些过滤器是否比其他过滤器堵塞更多,然后将空气导向堵塞较少的单元,直到需要更换所有过滤器为止。
    另一个例子是监控UPS系统中电池的温度和放电。智能系统可识别在较热环境中运行且可能比其他系统更频繁运行的UPS系统,然后将其指定为备用UPS而不是主系统。 “它可以为你做一些思考。这原本是需要手动完成的,但现在机器也可以做到。这些是基本的案例,”Carlini说。
    更高层次的功能是动态冷却优化,这是当今数据中心中最常见的机器学习的例子之一,特别是在较大的数据中心操作人员和托管服务提供商之间。
    通过动态冷却优化,数据中心管理人员可以根据环境条件监控和控制设施的冷却基础设施。当设备移动或计算流量激增时,建筑物内的热负荷也会发生变化。动态调整冷却输出以转移热负荷可帮助消除不必要的制冷量并降低运营成本。
    451 Research数据中心技术和生态高效IT频道的研究主管Rhonda Ascierto说,托管服务提供商是动态冷却优化的主要采用者。“机器学习对数据中心来说并不陌生,”Ascierto说。 “在很长一段时间内人们都试图根据容量和需求来改善散热,机器学习可以让你实时做到这一点。”
    Vigilent是动态冷却优化领域的领导者。其技术可以优化数据中心设施的气流,自动发现并消除热点。
    Vigilent的创始人,总裁兼首席技术官Cliff Federspiel说,数据中心运营商之前倾向于运行比他们所需要的更多的冷却设备。 “它通常会产生半可接受的温度分布,且成本非常高。”
    如果有热点,传统的措施是增加更多的冷却能力。实际上,较高的空气速度会产生压力差,干扰穿过设备的空气流动或妨碍热空气返回到冷却设备。可能这不是直觉,有时候降低风扇速度可能更有效。
    Vigilent的基于机器学习的技术可以了解哪些气流设置可以优化每个客户的散热环境。该公司表示,提供适当的冷却量在需要的地方,通常能使冷却能耗降低40%。
    除了自动化冷却系统之外,Vigilent的软件还允许客户使用分析工具来对其设施进行运营决策。
    Federspiel说:“我们的客户越来越有兴趣利用这些数据来帮助管理他们的资本支出、能力规划和可靠性计划。这为数据中心内的大量新型的数据相关的决策创造了机会。”
    AI使现有流程更完善
    展望未来,数据中心运营商正在努力将动态制冷优化的成功扩展到其他领域。一般来说,适合机器学习的领域是那些需要大量重复性的工作的地方。
    Ascierto表示:“新的基于机器学习的数据中心方法很可能会应用于现有的业务流程,因为当您彻底了解业务问题和规则时,机器学习会表现的更好。”
    企业已经有一些在使用中的监控工具。有一种长期存在的数据中心基础设施管理(DCIM)软件,可以为数据中心资产、相互依赖性、性能和容量提供可见性。DCIM软件具有远程设备监控,电力和环境监控,IT资产管理,数据管理和报告等功能。企业使用DCIM软件来简化容量规划和资源分配,并确保尽可能高效地使用电力,设备和占地面积。
    “如果你有一个基本的监控和资产管理,你的预测能力将会大大提高,”Ascierto说。 “人们已经在使用他们自己的数据。”
    接下来的目标是:将外部数据添加到DCIM组合中。这就是机器学习发挥关键作用的地方。
    数据中心管理即服务或DMaaS是基于DCIM软件的服务。但它不仅仅是一个SaaS版本的DCIM软件。 DMaaS将进一步收集数据,汇总来自数十个数据中心的设备和设备数据。然后将这些数据匿名化,汇总并使用机器学习进行大规模分析。
    两家DMaaS市场的早期参与者是Schneider Electric和Eaton。这两家厂商都从他们在数据中心领域多年的经验中挖掘出了大量数据,其中包括设计和构建数据中心,楼宇管理,配电以及电力和制冷服务。
    “Schneider Electric和Eaton正在做的事情将产生重大的变化,那就是拥有众多客户数据的数据湖。这对于数据中心部门来说非常有趣,”Ascierto说。
    通过从广泛的操作环境中获取这类数据,使企业能够将自己的数据中心性能与全球基准进行比较。例如,Schneider的DMaaS产品名为EcoStruxure IT,它与来自500多个客户和220万个传感器的基准数据的数据湖相关联。
    “您不仅可以使用自己的数据理解和解决问题。而且,您还可以使用数千个其他设施的数据,其中包括许多与您的设施非常相似的数据。这是最大的区别,”Ascierto说。
    例如,预测性和预防性维护可以从更深层次的智能中受益。 Ascierto说:“以其他机器为基础,在使用水平相似、使用时间相近、部件相似的环境中工作,人工智能可以提前预测出可能会出现的故障。”
    情景规划是另一个可以从机器学习中获益的过程。例如,公司今天进行情景规划,估算设备移动对功耗的影响。 “这几乎无法进行机器学习,”Ascierto说。“但通过将机器学习数据、历史数据应用到特定的配置和不同的设计中——使得确定特定配置或设计的结果的能力大大提升。”
    风险分析和风险对冲计划也将受益于更深入的分析。 Ascierto说:“数据中心非常复杂,今天的规模如此之大,以至于人类真的很难从中找到规律,但对于机器来说这是轻而易举的。”
    未来,机器学习在数据中心的广泛应用将为企业在决定运行某些工作负载的位置时提供更多建议。 “这对组织来说非常有价值,特别是如果他们正在围绕最佳执行场所做出决定时,”Ascierto说。 “这个应用程序应该在这个数据中心运行吗?或者我们应该使用额外的数据中心吗?”
    展望未来,智能系统可以承担更复杂的任务,使数据中心能够根据运行效率最高或最可靠的设置来动态调整工作负载。 Carlini说:“复杂的人工智能在未来仍有一段路要走。”
    与此同时,对于刚入门的公司,他强调了让设备和IT团队进行更多合作的重要性。
    Carlini说:“考虑到数据中心的所有部件 - 电源系统,冷却系统和IT管理室都是非常重要的。必须努力保证不同领域的技术之间的互操作性。同时,企业需要在人员配置方面也这样做。
    “虽然这在技术层面上很容易做到,但在组织上,提升的空间依然非常巨大,”他说。