广告

AI加速器能促成绿色数据中心吗?

2020-08-10 17:52:55 Sally Ward-Foxton 阅读:
加速器使AI处理受益最大,CPU则继续在超大规模和企业数据中心市场赢得席位,因为CPU应用更加灵活。随着AI应用的不断扩大,以及新的5G应用产生更多的非结构化数据,数据中心的能耗不太可能很快下降。

由于大部分繁重的AI任务都是在云端完成的,因此人们很容易忘记AI需要大量的计算资源及电力。hjXednc

马萨诸塞州大学阿默斯特分校去年的一项研究发现,训练一个大型自然语言处理(BERT)AI模型因消耗电力而产生的二氧化碳(CO2),相当于跨大西洋往返航班对每个乘客所产生的CO2。那只是一个模型,虽然是变换网络,但只需训练一次。开发过程中通常会对模型进行多次调整和反复训练。如果将神经网络结构搜索(一种使用AI来调整模型的AutoML技术)加入一个大小适中的转换器中,其CO2总排放量将猛升到几乎与5辆美国汽车的终身排放量相同。hjXednc

hjXednc

图1:训练一个大型的自然语言处理AI模型时,其消耗电力所产生的CO2相当于跨大西洋往返航班对每个乘客所产生的CO2。hjXednc

AI加速器有望提高AI处理的计算效率。随着AI处理量的不断增加,数据中心将会采用这些新的专用加速器。hjXednc

但是AI加速器可以节省能源吗?究竟是总的用电量下降了,还是数据中心只不过利用同样的电力实现了更多的计算?hjXednc

AI训练策略

“AI计算使用的能量多少是由几个因素决定的。”IBM Cognitive Systems技术计算副总裁David Turek解释说,“采取什么样的策略来训练模型,会影响所消耗的能量。每瓦特的计算量并不是特别有用的指标,因为有很多种不同的方法可以降低总能耗。”hjXednc

他补充说,整个系统架构和应用环境决定了实际上需要多少能源。“从模型训练到模型部署,计算能力的不同级别直接影响其基础架构,从而直接影响所消耗的能源。”hjXednc

人们通常认为,AI系统中一次只训练一个模型,然后将其部署到其他地方进行推理。但事实并非如此,典型的AI系统会多次训练很多模型,并且可能同时在多个模型上进行推理以获得最佳结果。hjXednc

完成部署后,有时会使用联邦学习(federated learning)之类的技术,在边缘而不是回到数据中心更新增量模型。需要消耗多少能量取决于在边缘进行什么处理。hjXednc

换句话说,训练特定的AI模型所消耗的能量并不是直接就可以确定的。“但数据中心的基础设施是固定的,因此调整工作流程是节省能源的最好方法。”Turek说。hjXednc

可能的方法有:将AI模型与传统的高性能计算融合,以减少所需的总计算量;缩短完成一项工作所花的时间,以减少GPU等高能耗AI加速器硬件的使用;避免在数据中心使用联邦学习之类的技术重复训练。hjXednc

Turek说:“这是从管理的角度来聪明地安排工作流程,利用最佳的方法为现有系统分配可用的能源。通过能源预算和能源消耗,运营商可以在其硬件基础架构上进行调度分配。”hjXednc

在更高的温度下运行

服务器制造商Supermicro去年年底发布的数据中心环境实践年度调查报告显示,能源效率仍然有机会提高。Supermicro营销和网络安全副总裁Michael McNerney认为,这些机会正在流失。hjXednc

McNerney说:“我们认为一些基本的最佳实践可以为客户带来很大价值。其中的一条是,相比传统的数据中心环境,我们今天构建的系统可以在更高的温度下运行,许多长期从事数据中心运营的人却没有意识到这一点。”hjXednc

在目前的设计中,不再需要将设备冷却到23~25°C来确保其性能和可靠性。一些“绿色”数据中心处于极端温度下,即便是很小的变化,例如减少空调的使用,也可以节省能源。hjXednc

hjXednc

图2:现代服务器和基础设施可以在更高的温度下运行,并且切换为多节点系统,从而降低了总能耗。hjXednc

多节点系统是节省能源的另一种方法,其中多台服务器在共享的基础架构上运行。这种配置减少了所需的大型电源和风扇数量。多节点系统具有更高的能源效率,可以在更高的温度下运行,并提供更高的功率密度。hjXednc

Supermicro的调查还发现,目前每个机架的平均功率密度为15kW,服务器进气入口温度为23.5°C,服务器每4.1年更换一次。而在采用高度优化绿色设计的数据中心(占受访者的12%),每个机架的功率密度超过25kW,平均入口温度为26.5°C,服务器每2至3年更换一次。因此,Supermicro得出结论,大多数数据中心仍需继续优化能效。hjXednc

令人惊讶的是,大多数受访者并不认为能耗是成功的关键指标。“我们已经看到,公司的设施预算与硬件及系统的资产购置成本是分开的,它们与人力成本也是分开的。我认为人们很清楚地知道这一点,但是并不会进行综合考虑和优化。”McNerney说。hjXednc

“较大的数据中心更了解总运营成本,但若增加资产购置预算,能源预算就会减少,人们有时很难把这两者关联起来。”hjXednc

McNerneyt认为整个数据中心的功耗并不会很快下降。他说:“长期的发展趋势是,一些在线服务的能耗会随着效率的提升而改善,然而随着5G和AI的逐渐普及,总体功耗仍将继续增加。”hjXednc

电费与能耗

英伟达加速计算产品管理总监Paresh Kharya表示,数据中心运营商希望全面提高能效,因为电费占其运营成本的25%。hjXednc

能源使用效率(PUE)是一项广泛使用的用来衡量能源节约的指标,表示计算所消耗的能源与数据中心基础设施消耗的总能源之比。目标是PUE等级为1。hjXednc

Kharya说:“多年来,超大规模数据中心的PUE接近1或1.1,非常高效。企业数据中心也取得了很大进步,大多数情况下,其PUE等级已经从大于2降到了远远低于2。”hjXednc

超大规模数据中心采用优化的机架和散热设计,可以大规模运行,其优化和使用复杂技术的能力是大多数企业数据中心不具备的。Kharya表示:“许多企业已开始采用这些创新技术,能源效率得到了显著提高。”hjXednc

由于各家公司关注的是电费而不是功耗,所以Kharya认为,执行任务所花费的时间是一个重要因素。“例如,在一台只有CPU的服务器上训练ResNet-50模型的图像识别可能需要长达三周的时间,而配备英伟达V100 GPU的服务器可以在一天之内完成这一任务。”他补充道。hjXednc

“每台配备英伟达GPU的服务器比配备CPU的服务器消耗的能源更多,但它完成任务的时间将大大缩短。因此,如果使用GPU加速器,用于完成AI处理的整体能耗将降低至原来的20到25分之一。”Kharya强调。hjXednc

了解数据中心工作负荷

英特尔数据平台营销总经理Allyson Klein表示,数据中心运营商会尽量确保所有系统高效运行,让昂贵的基础架构提供最大的计算能力。hjXednc

“数据中心运营商的主要目标是使基础架构的性能达到最好。”Klein说,“性能高低取决于系统和机架的级别,同时还需要整个数据中心协同工作,使每瓦性能达到最高。”hjXednc

因此,为了部署合适的基础架构来满足性能和能耗要求,全面了解数据中心的工作负荷非常重要。最理想的结果是计算容量更大,功耗更低,并且不会闲置基础设施而白白消耗电力。hjXednc

究竟是在CPU中集成加速功能还是采用分立的加速器,这通常需要进行权衡。Klein说:“加速器会增加功耗,但如果它一直工作,则整体效率更高。如果加速器完成大量工作,利用率高,在客户愿意投资基础设施的情况下,使用分立的加速器是较好的方法。如果不能一直使用加速器,则采用CPU方法可能是更好的选择,因为加速器经常会空闲,耗电却不执行任何任务。”hjXednc

Klein表示,在大多数部署中,AI只是数十万种不同工作负荷的一种。尽管英特尔提供了CPU和专用AI加速器(通过Habana Labs),但由于工作负荷种类很多,从功耗和投资角度来看,Xeon Scalable(CPU)平台可以说是最高效的产品。hjXednc

Klein说:“英特尔的AI策略建立在Xeon Scalable处理器的基础之上,Xeon Scalable内部做了AI优化,并针对机器学习和深度学习进行了大量软件优化。”hjXednc

提高效率

尽管GPU等AI加速器能耗很大,但进行AI处理时,它们的高计算效率可以降低总能耗。AI处理在数据中心所占比例越来越高,但数据中心日常处理的负荷种类仍然多种多样。hjXednc

加速器使AI处理受益最大,CPU则继续在超大规模和企业数据中心市场赢得席位,因为CPU应用更加灵活。随着AI应用的不断扩大,以及新的5G应用产生更多的非结构化数据,数据中心的能耗不太可能很快下降。hjXednc

(原文刊登于ASPENCORE旗下EEtimes英文网站,参考链接:Can AI Accelerators Green the Data Center?hjXednc

本文为《电子技术设计》2020年08月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里hjXednc

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 因眼睛小车主被辅助驾驶误判“开车睡觉”,小鹏、蔚来回 昨日,汽车博主@常岩CY 发博称自己突然上了热搜,原来就是因自己眼睛小被小鹏汽车自动驾驶误判“开车睡觉”,不住的发出提醒。此外,@常岩CY 称在多款车型上都收到此困扰。无论是红外还是摄像头,只要开始检测眼睛,就会判定过度疲劳。小鹏P7会提示他睡觉,蔚来ET7一开车就认为其疲劳和走神,岚图FREE会在冬天为了让其“别困”而打开冷风……
  • 国际象棋机器人Chessrobot夹断对手手指,意外还是设计缺 据悉,在7月19日的莫斯科国际象棋公开赛期间,一位7岁小男孩疑似因提前走子犯规手,意外被“对手”国际象棋机器人Chessrobot夹住手指,造成指骨骨折,该事件登上了热搜榜。该男孩是莫斯科9岁以下最强的30位棋手之一。
  • 核酸采样机器人将取代“大白”?用了哪些技术保证采样准 取棉签、核酸采样、储存核酸采样管、设备消杀……动作精准流畅,今后给你核酸采样的可能不再是“大白”,而是机器人。EDN小编就带大家来看看,目前已被使用的核酸采样机器人有哪些?
  • AI视觉芯片如何赋能两轮车出行? 6月29日,在由全球领先的专业电子机构媒体AspenCore和深圳市新一代信息通信产业集群联合主办的“2022国际AIoT生态发展大会-智慧两轮车分论坛”中,嘉楠科技副总裁汤炜伟以《勘智AI视觉芯,赋能智眼两轮行》为主题,向大家分享了嘉楠地芯片设计创新历程,及其RISCV架构AI芯片技术路线图,并以具体案例展示AI视觉芯片如何赋能两轮车出行。
  • 碎片化、成本高是难题,AIoT行业需要哪些改变? 作为AIoT的行业基石,物联网市场到2022年预计将达到 144 亿活跃连接。随着供应限制的缓解和增长的进一步加速,IoT Analytics 最新预测指出,到2025年全球将有大约 270 亿台联网物联网设备。中国物联网链接到2025年也将达到80亿。随着整个AIoT和IoT市场的快速成长与变化,我们将面临哪些风险和挑战?
  • 英特尔张宇:边缘AI有三个阶段,我们还处在山脚 在AspenCore举办的“2022国际AIoT生态发展大会”上,英特尔公司高级首席工程师、物联网事业部中国区首席技术官张宇博士通过视频方式分享了“边缘AI技术发展趋势与展望”主题演讲。
  • 世界上尺寸最大的芯片Wafer Scale Engine-2打破了在单 Cerebras公司售价数百万美元的“全球最大AI芯片”Wafer Scale Engine-2又有新消息,在基于单个Wafer Scale Engine-2芯片的CS-2系统上训练了世界上最大的拥有200亿参数的NLP(自然语言处理)人工智能模型。
  • 婴儿或可帮助解锁下一代人工智能 都柏林圣三一学院的神经科学家及其同事刚刚发布了改进人工智能的新指导原则,他们表示,婴儿可以帮助解锁下一代人工智能(AI)。
  • 纯视觉自动驾驶更安全?美国交通部发布数据打脸特斯拉 特斯拉的纯视觉自动驾驶到底效果如何?真的如马斯克所说的:“通过摄像头和计算机网络让自动驾驶比人类驾驶更安全”吗?近日美国国家公路交通安全管理局发布了一份新的数据,颇有打脸特斯拉的意味。
  • 每秒可对近20亿张图像进行处理分类的“超级芯片” 在测试过程中,该团队制作了一个尺寸为 9.3 mm 2(0.01 in 2)的芯片,并将其用于对一系列类似于字母的手写字符进行分类。在对相关数据集进行训练后,该芯片能够对包含两种字符集的图像进行分类,准确率达到 93.8%,对四种类型的图像进行分类准确率为 89.8%。
  • 人工智能的创新发明,专利权属于谁? 随着人工智能技术的发展进步,近几年出现了许多涉及人工智能的发明,如2020 年,机器学习算法帮助研究人员开发了一种对多种病原体有效的抗生素(参见Nature),此外,人工智能 (AI) 也被用于帮助疫苗开发、药物设计、材料发现、空间技术和船舶设计。那么这些由人工智能发明的技术,专利到底归属于谁呢?
  • 基于架构创新,后摩智能点亮业内首款存算一体大算力AI芯 5月23日,后摩智能宣布,其自主研发的业内首款存算一体大算力AI芯片成功点亮,并成功跑通智能驾驶算法模型。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了