剖析Google如何利用神经网络压榨PUE-网络通信专区

剖析Google如何利用神经网络压榨PUE

作者：腾讯数据中心编辑：闫志坤 2015-02-04 10:57 IT168网站原创

　　　　【IT168 技术】互联网的飞速发展拉动了对大规模数据中心的胃口，同时也带来能耗的巨幅上升，目前数据中心的能耗已经超过了全球能源使用量的1.3%。Google的数据中心以高能效著称，通过创新的市电直供、热空气隔离、水侧节能等技术和大量的运营优化，PUE达到了令人称奇的1.12领先水平。

　　“压榨PUE不停歇”但是他们“贪心不足”，在新加坡举办的Datacenter Dynamics 2014会议上，Google数据中心副总裁Joe Kava和天才小子Jim Gao介绍了Google是如何利用机器学习和人工智能进一步改进数据中心，以期将能效降到1.1以下的。

▲图1 数据中心可以更为节能

　　业界一般用 PUE(电能使用效率)来衡量数据中心的能效，PUE=数据中心总设备能耗/IT设备能耗，其典型值为2，越接近1表明能效越高。图2中，一个典型的Google数据中心在投产初期的PUE约为1.25，Google通过持续的运营优化将PUE降低到了1.12。

　　但即便优秀如Google，要想进一步降低PUE值也变得步履维艰。因为到了某一阶段，制冷和电气系统之间的相互作用和各种复杂反馈回路，使得我们使用传统的工程公式难以准确推导数据中心的效率。

　　比如冷通道温度的较小提升都会导致制冷系统的很多变化，如冷机、冷却塔、换热器、水泵等的功耗都将增减不定，且非线性变化，其结果很可能是冷通道温度提升而总功耗增加。

▲ Google数据中心的PUE进一步优化碰到瓶颈

　　面临瓶颈，Google 决定利用机器学习神经网络算法让其数据中心能效更上一层楼。

　　神经网络是一类机器学习算法，它模拟神经元之间相互作用的认知行为。

　　机器学习的这个分支常见的应用包括语音识别，图象处理，和自主软件代理等。机器学习方法利用现有的大量传感器数据来建立一个数学模型，理解操作参数之间的关系从而提升整体学习效率，如图3语音识别。

▲图3 机器学习在语音识别中的应用

　　据 Kava 介绍，该项目仅为Google的20%业余时间创新项目。他们不断跟踪 IT 设备能耗、室外气温以及制冷等机电设备的设置情况，每30秒就计算一次 PUE。

　　Google的BMS、PMS以及控制系统每天产生数以亿计的原始运行数据，虽然人类难以理解，但机器却擅长于挖掘。

　　Google数据中心团队的Jim Gao洞察到了这一点，于是他回归本源，获取数据并通过机器学习对这些数据进行研究，建立模型以预测并改善数据中心的能效情况。

　　结果表明，该模型的预测准确率高达 99.6%。极高的准确率意味着Google对数据中心下一步的能量需求情况了如指掌，并可通过调整参数设置进一步提升能效。

　　Kava 举例称，几个月前，他们有几台服务器要下线几天，其结果是数据中心能效会有所降低。但利用Jim Gao的模型他们临时调整了制冷参数，通过与历史数据的结合进行PUE仿真，该团队选定了一套新的运营参数，从而将 PUE 再降低了0.02。

▲图4 谷歌某个数据中心在夏天一个月内的实际PUE值(黄线)和预测值(黑线)

　　这个0.02可不容小觑，乘上Google上百万台服务器量，0.02也有可观的节能效果。值得一提的是，该案例中PUE值大于1.14只因缺乏实际运行数据支持，否则其PUE模型的精度值预计随时间会进一步增加。

　　Jim Gao 在随后发布的白皮书上解释说：

　　采用神经网络机器学习方法对复杂系统建模具有优势，因为神经网络不需要用户预设模型的交互特征，而是让数据自行寻找模式和交互，然后自动生成非常好的匹配模型。

　　如图5，该神经网络研究的要素包括了服务器总负载、水泵、冷却塔、冷水机组、干式冷却器、湿球温度、户外湿度、风速、风向等多达19个变量。Google利用传感器部署了几万个数据点来收集这些基础设施运行数据和电能使用信息。不过，Google只用一台服务器就能跑整个神经网络系统了。

▲图5 典型数据中心建模涉及到的各种变量

　　准确又健壮的PUE机器学习模型将使数据中心运营方和业主受益匪浅。

　　例如，对于给定充足条件的数据中心，其实际性能与预测性能的比较数据，可用于自动运行报警、运行效益指标设定和故障排除等。

　　一个强大的效率模型还使数据中心运营商方便评估数据中心变量参数的PUE敏感性。

　　例如图6中，利用谷歌某个数据中心冷通道温度(CAT)和PUE之间关系模拟，可推导出通过增加3华氏度的冷却塔出水温度(LWT)，理论上有望降低0.5%的总PUE。这种PUE值降低的模拟分析，在实际测试优化中得以验证。这种影响参量确定和PUE降低的幅度敏感度分析，可以显著降低试验成本、减少碳排放。

　　Jim Gao 在白皮书中声明，Google 数据中心的实际测试表明：

　　机器学习是利用传感器数据对数据中心能效建模的不二法门。

　　不过目前国内粗放式管理的数据中心短时间内恐怕难以效仿。

▲图6 机器学习方法用于数据中心能效建模

　　基于现代数据中心的复杂性，以及多个控制系统之间的相互作用。目前，数据中心运营方很难预测改变配置参数将会带来的影响。机器学习方法可以利用现有的传感器数据，来开发能够理解运行参数和整体能源效率之间关系的数学模型。

　　准确的数据中心效率模型可以让数据中心运营商无需现场调试就能够优化运行配置。

　　这样，数据中心运营方利用数据中心虚拟化仿真得到了最优模型参数，便可减少冷站参数变化带来的不可控风险。(未完待续)

▲图7 虚拟数据中心建模可用于仿真分析减少现场试验不确定性

　　 本文来自“腾讯数据中心”公共账号文章，属于腾讯数据中心原创，感谢腾讯数据中心给予的深度解析，转载敬请注明来自腾讯数据中心。

关注我们