广告

AI加速器能促成绿色数据中心吗?

2020-08-10 Sally Ward-Foxton 阅读:
加速器使AI处理受益最大,CPU则继续在超大规模和企业数据中心市场赢得席位,因为CPU应用更加灵活。随着AI应用的不断扩大,以及新的5G应用产生更多的非结构化数据,数据中心的能耗不太可能很快下降。

由于大部分繁重的AI任务都是在云端完成的,因此人们很容易忘记AI需要大量的计算资源及电力。UkOednc

马萨诸塞州大学阿默斯特分校去年的一项研究发现,训练一个大型自然语言处理(BERT)AI模型因消耗电力而产生的二氧化碳(CO2),相当于跨大西洋往返航班对每个乘客所产生的CO2。那只是一个模型,虽然是变换网络,但只需训练一次。开发过程中通常会对模型进行多次调整和反复训练。如果将神经网络结构搜索(一种使用AI来调整模型的AutoML技术)加入一个大小适中的转换器中,其CO2总排放量将猛升到几乎与5辆美国汽车的终身排放量相同。UkOednc

UkOednc

图1:训练一个大型的自然语言处理AI模型时,其消耗电力所产生的CO2相当于跨大西洋往返航班对每个乘客所产生的CO2。UkOednc

AI加速器有望提高AI处理的计算效率。随着AI处理量的不断增加,数据中心将会采用这些新的专用加速器。UkOednc

但是AI加速器可以节省能源吗?究竟是总的用电量下降了,还是数据中心只不过利用同样的电力实现了更多的计算?UkOednc

AI训练策略

“AI计算使用的能量多少是由几个因素决定的。”IBM Cognitive Systems技术计算副总裁David Turek解释说,“采取什么样的策略来训练模型,会影响所消耗的能量。每瓦特的计算量并不是特别有用的指标,因为有很多种不同的方法可以降低总能耗。”UkOednc

他补充说,整个系统架构和应用环境决定了实际上需要多少能源。“从模型训练到模型部署,计算能力的不同级别直接影响其基础架构,从而直接影响所消耗的能源。”UkOednc

人们通常认为,AI系统中一次只训练一个模型,然后将其部署到其他地方进行推理。但事实并非如此,典型的AI系统会多次训练很多模型,并且可能同时在多个模型上进行推理以获得最佳结果。UkOednc

完成部署后,有时会使用联邦学习(federated learning)之类的技术,在边缘而不是回到数据中心更新增量模型。需要消耗多少能量取决于在边缘进行什么处理。UkOednc

换句话说,训练特定的AI模型所消耗的能量并不是直接就可以确定的。“但数据中心的基础设施是固定的,因此调整工作流程是节省能源的最好方法。”Turek说。UkOednc

可能的方法有:将AI模型与传统的高性能计算融合,以减少所需的总计算量;缩短完成一项工作所花的时间,以减少GPU等高能耗AI加速器硬件的使用;避免在数据中心使用联邦学习之类的技术重复训练。UkOednc

Turek说:“这是从管理的角度来聪明地安排工作流程,利用最佳的方法为现有系统分配可用的能源。通过能源预算和能源消耗,运营商可以在其硬件基础架构上进行调度分配。”UkOednc

在更高的温度下运行

服务器制造商Supermicro去年年底发布的数据中心环境实践年度调查报告显示,能源效率仍然有机会提高。Supermicro营销和网络安全副总裁Michael McNerney认为,这些机会正在流失。UkOednc

McNerney说:“我们认为一些基本的最佳实践可以为客户带来很大价值。其中的一条是,相比传统的数据中心环境,我们今天构建的系统可以在更高的温度下运行,许多长期从事数据中心运营的人却没有意识到这一点。”UkOednc

在目前的设计中,不再需要将设备冷却到23~25°C来确保其性能和可靠性。一些“绿色”数据中心处于极端温度下,即便是很小的变化,例如减少空调的使用,也可以节省能源。UkOednc

UkOednc

图2:现代服务器和基础设施可以在更高的温度下运行,并且切换为多节点系统,从而降低了总能耗。UkOednc

多节点系统是节省能源的另一种方法,其中多台服务器在共享的基础架构上运行。这种配置减少了所需的大型电源和风扇数量。多节点系统具有更高的能源效率,可以在更高的温度下运行,并提供更高的功率密度。UkOednc

Supermicro的调查还发现,目前每个机架的平均功率密度为15kW,服务器进气入口温度为23.5°C,服务器每4.1年更换一次。而在采用高度优化绿色设计的数据中心(占受访者的12%),每个机架的功率密度超过25kW,平均入口温度为26.5°C,服务器每2至3年更换一次。因此,Supermicro得出结论,大多数数据中心仍需继续优化能效。UkOednc

令人惊讶的是,大多数受访者并不认为能耗是成功的关键指标。“我们已经看到,公司的设施预算与硬件及系统的资产购置成本是分开的,它们与人力成本也是分开的。我认为人们很清楚地知道这一点,但是并不会进行综合考虑和优化。”McNerney说。UkOednc

“较大的数据中心更了解总运营成本,但若增加资产购置预算,能源预算就会减少,人们有时很难把这两者关联起来。”UkOednc

McNerneyt认为整个数据中心的功耗并不会很快下降。他说:“长期的发展趋势是,一些在线服务的能耗会随着效率的提升而改善,然而随着5G和AI的逐渐普及,总体功耗仍将继续增加。”UkOednc

电费与能耗

英伟达加速计算产品管理总监Paresh Kharya表示,数据中心运营商希望全面提高能效,因为电费占其运营成本的25%。UkOednc

能源使用效率(PUE)是一项广泛使用的用来衡量能源节约的指标,表示计算所消耗的能源与数据中心基础设施消耗的总能源之比。目标是PUE等级为1。UkOednc

Kharya说:“多年来,超大规模数据中心的PUE接近1或1.1,非常高效。企业数据中心也取得了很大进步,大多数情况下,其PUE等级已经从大于2降到了远远低于2。”UkOednc

超大规模数据中心采用优化的机架和散热设计,可以大规模运行,其优化和使用复杂技术的能力是大多数企业数据中心不具备的。Kharya表示:“许多企业已开始采用这些创新技术,能源效率得到了显著提高。”UkOednc

由于各家公司关注的是电费而不是功耗,所以Kharya认为,执行任务所花费的时间是一个重要因素。“例如,在一台只有CPU的服务器上训练ResNet-50模型的图像识别可能需要长达三周的时间,而配备英伟达V100 GPU的服务器可以在一天之内完成这一任务。”他补充道。UkOednc

“每台配备英伟达GPU的服务器比配备CPU的服务器消耗的能源更多,但它完成任务的时间将大大缩短。因此,如果使用GPU加速器,用于完成AI处理的整体能耗将降低至原来的20到25分之一。”Kharya强调。UkOednc

了解数据中心工作负荷

英特尔数据平台营销总经理Allyson Klein表示,数据中心运营商会尽量确保所有系统高效运行,让昂贵的基础架构提供最大的计算能力。UkOednc

“数据中心运营商的主要目标是使基础架构的性能达到最好。”Klein说,“性能高低取决于系统和机架的级别,同时还需要整个数据中心协同工作,使每瓦性能达到最高。”UkOednc

因此,为了部署合适的基础架构来满足性能和能耗要求,全面了解数据中心的工作负荷非常重要。最理想的结果是计算容量更大,功耗更低,并且不会闲置基础设施而白白消耗电力。UkOednc

究竟是在CPU中集成加速功能还是采用分立的加速器,这通常需要进行权衡。Klein说:“加速器会增加功耗,但如果它一直工作,则整体效率更高。如果加速器完成大量工作,利用率高,在客户愿意投资基础设施的情况下,使用分立的加速器是较好的方法。如果不能一直使用加速器,则采用CPU方法可能是更好的选择,因为加速器经常会空闲,耗电却不执行任何任务。”UkOednc

Klein表示,在大多数部署中,AI只是数十万种不同工作负荷的一种。尽管英特尔提供了CPU和专用AI加速器(通过Habana Labs),但由于工作负荷种类很多,从功耗和投资角度来看,Xeon Scalable(CPU)平台可以说是最高效的产品。UkOednc

Klein说:“英特尔的AI策略建立在Xeon Scalable处理器的基础之上,Xeon Scalable内部做了AI优化,并针对机器学习和深度学习进行了大量软件优化。”UkOednc

提高效率

尽管GPU等AI加速器能耗很大,但进行AI处理时,它们的高计算效率可以降低总能耗。AI处理在数据中心所占比例越来越高,但数据中心日常处理的负荷种类仍然多种多样。UkOednc

加速器使AI处理受益最大,CPU则继续在超大规模和企业数据中心市场赢得席位,因为CPU应用更加灵活。随着AI应用的不断扩大,以及新的5G应用产生更多的非结构化数据,数据中心的能耗不太可能很快下降。UkOednc

(原文刊登于ASPENCORE旗下EEtimes英文网站,参考链接:Can AI Accelerators Green the Data Center?UkOednc

本文为《电子技术设计》2020年08月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里UkOednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 热搜的国产“阿法狗”有蹊跷!1年出新产品,2年迭代,技术和 近日,#中国公司研发机器狗超越世界纪录#这个话题冲上了微博热搜,阅读飙升至1.4亿。从2019年成立以来,仅用1年就推出新产品,2年迭代出的机器狗产品,速度就超过了MIT。所以,这家公司的技术和资金,都是从哪来的?
  • 本田的“全世界第一辆Level 3轿车”噱头战胜安全性? 我们真的准备好迎接“杀手级”机器驾驶(killer robo-drivers)了吗?有任何人认真考虑过软件导致其他用路人丧生的法律意涵吗?随着机器驾驶数量增加,舆论对它们的看法会改变吗?各国立法与监管机关对舆论的变化会怎么反应?而当机器驾驶杀了人,我们又该如何看待正义?这些问题目前都没有答案……
  • B2B议题:人工智能/机器学习技术推动全球产业变革 人工智能和机器学习中的巨大潜能,可促使全球工业取得巨大进步。显然,那些能够在人工智能和机器学习方面取得领先的国家,将会在工业演进中占据市场份额。但是,我们的底线在哪里?谁在我们前面?谁是主要竞争者,在迈向工业4.0未来过程中,关键驱动力是什么?
  • 用于先进视频处理解决方案的FPGA产品与技术 本白皮书将介绍基于FPGA的解决方案在以下三种应用中的优势:视频流;使用视频编辑软件来创作视频内容;人工智能(AI)和深度学习–图像识别是该应用的主要部分,其需要高性能的计算资源。
  • R汽车携R-TECH及全新物种ES33亮相“R品牌共创者生态大 “R品牌共创者生态大会”在“全球创新之都”深圳盛大举办。在全球跨领域战略盟友及R品牌用户的共同见证下,“R-TECH高能智慧体”完成了精彩震撼的全球首秀。作为R汽车的全新技术品牌,“R-TECH高能智慧体”将成为R汽车向智能车时代迈进的新起点。
  • 传统计算架构演变,安谋打造新时代的大计算平台 中国半导体设计行业在过去的十多年中,从一开始的跟跑,到现在的并跑,甚至在某些领域出现了领跑,成绩斐然,特别是在终端消费等领域取得了非常重大的进步。而且,上述成就的取得不仅仅是在终端芯片,在云端、边缘端、大计算等多个领域,也都取得了多项重大突破。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了