1次操练用电24亿度AI为什么那么耗电训练？

行业动态 | 2024-04-12 17:18

　　仅仅是GPT-4的GPU，一次锻炼就会用去2.4亿度电。AI为什么那么耗电？它们用掉的电都跑到哪里去了？有或许接受这些电转化成的能量吗？

　　此日咱们所说的人为智能（AI），厉重指的是天生式人为智能。而此中一大局部，是基于大讲话模子的天生式人为智能。

　　它们须要大范畴的数据中央来锻炼和推理。这些数据中央由大方供职器构成，供职器破费的电能绝大局部转化成了热能，终末通过水冷体例开释出来。因而也可能说，AI的物理硬件是个强盛的“电热水器”。

　　这个说法听起来好似有点稀罕。咱们都晓得，供职器是一种电子计较机，而计较机中照料的是音信。音信和能量又有什么合连呢？

　　1961年，正在IBM公司职责的物理学家拉尔夫·兰道尔（Rolf Landauer）揭橥了一篇论文，提出了厥后被称为“兰道尔道理”（Landauers Principle）的表面。这一表面以为，计较机中存储的音信产生不成逆的变动时，会向边际处境散逸一点点热量，其散逸的热量和计较机当时所处的温度相合——温度越高，散逸的热量越多。

　　兰道尔道理连绵起了音信和能量；更详细地说，连绵到了热力学第二定律上。由于逻辑上不成逆的音信照料操作，也就意味着湮灭了音信，这会导致物理天下中熵的增补，从而破费能量。

　　这一道理自提出往后蒙受过不少质疑。然而近十几年来，兰道尔道理已被尝试证实。2012年，《天然》杂志揭橥了一篇著作，查究团队初度衡量到了一“位”（bit）数据被删除时开释的微量热量。厥后的几次独立尝试，也都证实了兰道尔道理。

　　现正在的电子计较机正在计较时实质破费的能量，是这个表面值的数亿倍。科学家们不断正在勤苦寻找更高效的计较手腕，以消浸本钱。不表从目前的查究起色情状来看，也许惟有真正的室温超导资料能寻常使用于计较修造时，这个能耗才有或许离兰道尔道理所描画的表面值近极少。

　　AI大模子确实须要大方计较。它的职责进程大致可能分为锻炼和推理两个阶段。正在锻炼阶段训练，起初须要汇集和预照料大方的文本数据，用作输入数据。然后正在适合的模子架构中初始化模子参数，照料输入的数据，实验天生输出；再凭据输出与意念之间的分歧，频频调度参数，直到模子的功能不再明显进步为止。而正在推理阶段中，则会先加载依然锻炼好的模子参数，预照料须要推理的文本数据，再让模子凭据研习到的讲话顺序天生输出。

　　无论是锻炼仍旧推理阶段，都是延续串音信重组进程，也同样坚守兰道尔道理。而咱们也不难推知，模子的参数目越大，须要照料的数据越多，所需的计较量也就越大，所破费的能量也就越大，开释的热量也就越多。

　　只不表，这只是AI耗电中微亏损道的一幼局部。更大的破费来自另一个咱们更谙习的物理定律：焦耳定律。这就要从集成电途说起了。

　　此日的电子计较机开发正在集成电途的根源上。咱们时常把集成电途叫做芯片。每个芯片中，都有很多晶体管。

　　不正经地描画，晶体管可能领略成轻微的开合。这些开合串联或者并联正在沿途，就可能实行逻辑运算。“开”和“合”呈现两种状况，也即是所谓的1和0，这即是计较的根本单元“位”。它是计较机二进造的根源。计较机通过敏捷改革电压，来拨动这些开合。

　　改革电压，须要电子流入或流出。而电子流入流出，就组成了电流。又由于正在电途中老是有电阻，就形成了热能。焦耳定律告诉咱们，形成的热量与电流的平方成正比，与导体电阻成正比，与通电期间成正比。

　　集成电途技巧起色到此日，芯片中的晶体管依然变得极为轻微。因而，单个晶体管所形成的热量并不会太高。但题目是，芯片上的晶体管实正在是依然多到了凡人无法联念的水准——比方，正在IBM前几年颁发的等效2纳米造程芯片中，每平方毫米面积上训练，均匀有3.3亿个晶体管。再幼的热量，乘上这个范畴，结果肯定相当可观。

　　一个或许让人大跌眼镜的意思毕竟是，此日芯片单元体积的功率，比太阳主旨多出好几个数目级。类型的CPU芯片功率大体是每立方厘米100瓦，即每立方米1亿瓦；而太阳主旨的功率惟有每立方米不到300瓦。

　　正在OpenAI锻炼大讲话模子GPT-4时训练，竣工一次锻炼须要约三个月期间训练，运用约莫25000块英伟达A100 GPU。每块A100 GPU都具有540亿个晶体管，功耗400瓦，每秒钟可能举办19.5万亿次单精度浮点数的运算，每次运算又涉及到很多个晶体管的开合。

　　容易算出，仅仅是这些 GPU，一次锻炼就用了2.4亿度电。这些电能简直所有转化成了热能，这些能量可能将约莫200万立方米冰水——大体是1000个奥运会圭表泅水池的水量——加热到欣喜。

　　为什么AI须要用这么多的强壮GPU来锻炼？由于大讲话模子的范畴实正在太大。GPT-3模子具有1750亿参数，而据料到，GPT-4具有1.8万亿参数，是GPT-3的十倍。要锻炼这种范畴的模子，须要正在大范畴数据集上频频迭代，每一次迭代都须要计较和调度此中数十亿、数百亿甚至数千亿个参数的值，这些计较最终会体现为晶体管的开开合合，和集成电途中细细的电流——以及热量。

　　能量无法创作也无法消逝，它只可从一种形状转化成另一种形状。对付电子计较机来说，它最厉重的能量转化格式，即是从电能转化成热能。

　　大讲话模子也是云云。它对电能和冷却水的需求，正带来越来越急急的处境题目。

　　就正在前几天，有微软公司的工程师说，为了锻炼GPT-6，微软和OpenAI修造了强盛的数据中央，将会运用10万块英伟达H100 GPU——功能比A100更强，当然功耗也更大——然而，这些GPU不行放正在统一个州，不然会导致电网负荷过大而溃逃。

　　AI起色带来的能源欠缺题目，依然开头浮现。正在本年的达沃斯天下经济论坛上，OpenAI的CEO山姆·阿尔特曼（Sam Altman）以为，核聚变或许是能源的起色目标。但要开采出真正可用的核聚变技巧，或许还须要极少期间。

　　水的题目也是雷同。过去几年训练，那些正在AI大模子周围先行一步的大企业们，都面对水破费大幅增加的景色。2023 年6月，微软公司颁发了2022年度处境可接连起色叙述训练，其顶用水一项，有横跨20%的明显增加。谷歌公司也雷同。

　　有查究者以为，AI的起色，是这些科技巨头用水量剧增的厉重情由——要冷却狂妄发烧的芯片，水冷体例是最常见的选取。为AI供应硬件根源的数据中央，如统一个强盛的“电热水器”。

　　何如让这些散失的热能不至于白白浪掷？最容易念到也容易实行的，是热接受技巧。比喻说，将数据中央接受的热量用于供应民用热水，冬季供应民用采暖。现正在有极少企业依然入手正在接受废热再欺骗了，比如中国转移哈尔滨数据中央、阿里巴巴千岛湖数据中央等。

　　这大体也算是一种解法，但并不行从根基上处理题目。AI物业的起色速率之速，正在人类汗青上没有任何物业能与之比拟。均衡AI技巧的起色与处境的可接连性，或许会是咱们将来几年的紧张议题之一；技巧发展和能源破费之间的纷乱合连，历来没有这么要紧地涌现正在人类眼前。1次操练用电24亿度AI为什么那么耗电训练？

1次操练用电24亿度AI为什么那么耗电训练？

国内冬夏令营

国际冬夏令营

扫描二维码

1次操练用电24亿度AI为什么那么耗电训练？

跟随我们

国内冬夏令营

国际冬夏令营

站内搜索

扫描二维码