1次操练用电24亿度AI为什么那么耗电训练?

  行业动态     |      2024-04-12 17:18

  仅仅是GPT-4的GPU,一次锻炼就会用去2.4亿度电。AI为什么那么耗电?它们用掉的电都跑到哪里去了?有或许接受这些电转化成的能量吗?

  此日咱们所说的人为智能(AI),厉重指的是天生式人为智能。而此中一大局部,是基于大讲话模子的天生式人为智能。

  它们须要大范畴的数据中央来锻炼和推理。这些数据中央由大方供职器构成,供职器破费的电能绝大局部转化成了热能,终末通过水冷体例开释出来。因而也可能说,AI的物理硬件是个强盛的“电热水器”。

  这个说法听起来好似有点稀罕。咱们都晓得,供职器是一种电子计较机,而计较机中照料的是音信。音信和能量又有什么合连呢?

  1961年,正在IBM公司职责的物理学家拉尔夫·兰道尔(Rolf Landauer)揭橥了一篇论文,提出了厥后被称为“兰道尔道理”(Landauers Principle)的表面。这一表面以为,计较机中存储的音信产生不成逆的变动时,会向边际处境散逸一点点热量,其散逸的热量和计较机当时所处的温度相合——温度越高,散逸的热量越多。

  兰道尔道理连绵起了音信和能量;更详细地说,连绵到了热力学第二定律上。由于逻辑上不成逆的音信照料操作,也就意味着湮灭了音信,这会导致物理天下中熵的增补,从而破费能量。

  这一道理自提出往后蒙受过不少质疑。然而近十几年来,兰道尔道理已被尝试证实。2012年,《天然》杂志揭橥了一篇著作,查究团队初度衡量到了一“位”(bit)数据被删除时开释的微量热量。厥后的几次独立尝试,也都证实了兰道尔道理。

  现正在的电子计较机正在计较时实质破费的能量,是这个表面值的数亿倍。科学家们不断正在勤苦寻找更高效的计较手腕,以消浸本钱。不表从目前的查究起色情状来看,也许惟有真正的室温超导资料能寻常使用于计较修造时,这个能耗才有或许离兰道尔道理所描画的表面值近极少。

  AI大模子确实须要大方计较。它的职责进程大致可能分为锻炼和推理两个阶段。正在锻炼阶段训练,起初须要汇集和预照料大方的文本数据,用作输入数据。然后正在适合的模子架构中初始化模子参数,照料输入的数据,实验天生输出;再凭据输出与意念之间的分歧,频频调度参数,直到模子的功能不再明显进步为止。而正在推理阶段中,则会先加载依然锻炼好的模子参数,预照料须要推理的文本数据,再让模子凭据研习到的讲话顺序天生输出。

  无论是锻炼仍旧推理阶段,都是延续串音信重组进程,也同样坚守兰道尔道理。而咱们也不难推知,模子的参数目越大,须要照料的数据越多,所需的计较量也就越大,所破费的能量也就越大,开释的热量也就越多。

  只不表,这只是AI耗电中微亏损道的一幼局部。更大的破费来自另一个咱们更谙习的物理定律:焦耳定律。这就要从集成电途说起了。

  此日的电子计较机开发正在集成电途的根源上。咱们时常把集成电途叫做芯片。每个芯片中,都有很多晶体管。

  不正经地描画,晶体管可能领略成轻微的开合。这些开合串联或者并联正在沿途,就可能实行逻辑运算。“开”和“合”呈现两种状况,也即是所谓的1和0,这即是计较的根本单元“位”。它是计较机二进造的根源。计较机通过敏捷改革电压,来拨动这些开合。

  改革电压,须要电子流入或流出。而电子流入流出,就组成了电流。又由于正在电途中老是有电阻,就形成了热能。焦耳定律告诉咱们,形成的热量与电流的平方成正比,与导体电阻成正比,与通电期间成正比。

  集成电途技巧起色到此日,芯片中的晶体管依然变得极为轻微。因而,单个晶体管所形成的热量并不会太高。但题目是,芯片上的晶体管实正在是依然多到了凡人无法联念的水准——比方,正在IBM前几年颁发的等效2纳米造程芯片中,每平方毫米面积上训练,均匀有3.3亿个晶体管。再幼的热量,乘上这个范畴,结果肯定相当可观。

  一个或许让人大跌眼镜的意思毕竟是,此日芯片单元体积的功率,比太阳主旨多出好几个数目级。类型的CPU芯片功率大体是每立方厘米100瓦,即每立方米1亿瓦;而太阳主旨的功率惟有每立方米不到300瓦。

  正在OpenAI锻炼大讲话模子GPT-4时训练,竣工一次锻炼须要约三个月期间训练,运用约莫25000块英伟达A100 GPU。每块A100 GPU都具有540亿个晶体管,功耗400瓦,每秒钟可能举办19.5万亿次单精度浮点数的运算,每次运算又涉及到很多个晶体管的开合。

  容易算出,仅仅是这些 GPU,一次锻炼就用了2.4亿度电。这些电能简直所有转化成了热能,这些能量可能将约莫200万立方米冰水——大体是1000个奥运会圭表泅水池的水量——加热到欣喜。

  为什么AI须要用这么多的强壮GPU来锻炼?由于大讲话模子的范畴实正在太大。GPT-3模子具有1750亿参数,而据料到,GPT-4具有1.8万亿参数,是GPT-3的十倍。要锻炼这种范畴的模子,须要正在大范畴数据集上频频迭代,每一次迭代都须要计较和调度此中数十亿、数百亿甚至数千亿个参数的值,这些计较最终会体现为晶体管的开开合合,和集成电途中细细的电流——以及热量。

  能量无法创作也无法消逝,它只可从一种形状转化成另一种形状。对付电子计较机来说,它最厉重的能量转化格式,即是从电能转化成热能。

  大讲话模子也是云云。它对电能和冷却水的需求,正带来越来越急急的处境题目。

  就正在前几天,有微软公司的工程师说,为了锻炼GPT-6,微软和OpenAI修造了强盛的数据中央,将会运用10万块英伟达H100 GPU——功能比A100更强,当然功耗也更大——然而,这些GPU不行放正在统一个州,不然会导致电网负荷过大而溃逃。

  AI起色带来的能源欠缺题目,依然开头浮现。正在本年的达沃斯天下经济论坛上,OpenAI的CEO山姆·阿尔特曼(Sam Altman)以为,核聚变或许是能源的起色目标。但要开采出真正可用的核聚变技巧,或许还须要极少期间。

  水的题目也是雷同。过去几年训练,那些正在AI大模子周围先行一步的大企业们,都面对水破费大幅增加的景色。2023 年6月,微软公司颁发了2022年度处境可接连起色叙述训练,其顶用水一项,有横跨20%的明显增加。谷歌公司也雷同。

  有查究者以为,AI的起色,是这些科技巨头用水量剧增的厉重情由——要冷却狂妄发烧的芯片,水冷体例是最常见的选取。为AI供应硬件根源的数据中央,如统一个强盛的“电热水器”。

  何如让这些散失的热能不至于白白浪掷?最容易念到也容易实行的,是热接受技巧。比喻说,将数据中央接受的热量用于供应民用热水,冬季供应民用采暖。现正在有极少企业依然入手正在接受废热再欺骗了,比如中国转移哈尔滨数据中央、阿里巴巴千岛湖数据中央等。

  这大体也算是一种解法,但并不行从根基上处理题目。AI物业的起色速率之速,正在人类汗青上没有任何物业能与之比拟。均衡AI技巧的起色与处境的可接连性,或许会是咱们将来几年的紧张议题之一;技巧发展和能源破费之间的纷乱合连,历来没有这么要紧地涌现正在人类眼前。1次操练用电24亿度AI为什么那么耗电训练?