秦国赵弋点击上方蓝字 世界科学,再点右上角三颗痣 设为星标 ,从此你的世界多点科学~
随着AI浪潮席卷全球,一种高科技硬件已成香饽饽,那便是图形处理单元,简称GPU。眼下一块顶级GPU可以卖到数万美元高价。
作为全球领先的GPU制造商,英伟达得益于市场对其产品需求激增,市场估值飙升至2万亿美元以上。
GPU不仅仅是高端人工智能产品,也能以相对低配版本服务手机、笔记本电脑和游戏机。
GPU设计的初衷主要是快速生成和显示复杂的三维场景和实体,例如视频游戏和计算机辅助设计软件中涉及的场景和实体。现代GPU还能处理解压缩视频流等任务。
大多数计算机的“大脑”都是一块叫作中央处理单元的芯片,即CPU。CPU可用于生成图形场景和解压缩视频,但相比GPU,它们在执行这些任务时通常速度慢很多,效率也更低。CPU更适合一般计算任务,例如文字处理和浏览网页。
一块典型的现代CPU由8到16个“核”组成,每个核都能按顺序处理复杂任务。
GPU则拥有数千个相对更小的核,这些核被设计为同时(“并行”)工作,以实现快速的整体处理。这使得它们非常适合需要大量简单操作的任务——所有操作可以同时(而非一个接一个地)完成。
传统GPU有两种主要类型。第一种类型的传统GPU配有独立芯片,通常出现于大型台式计算机的附加卡中。第二种则将GPU与CPU组合在同一芯片封装内,此技术常见于笔记本电脑和PS5等游戏机中。在这两种类型中,CPU都控制GPU的工作。
人工智能背后的许多机器学习技术,例如深度神经网络,高度依赖各种形式的矩阵乘法。
矩阵乘法能将非常庞大的数集相乘并相加,非常适合并行处理,因此可以由GPU非常快速地执行。
由于核的数量及其运行速度的增加,GPU的数字运算能力正稳步增强。这方面提升主要源于台积电等芯片制造企业的技术改进。
作为计算机芯片的基本组件,单个晶体管的尺寸一直在缩小。单体越小,同等物理空间下所能放置的晶体管数量越多。
但这只是一方面。传统GPU虽然对于AI相关计算任务很有用,却不是最优选择。
GPU设计初衷是通过提供对图形的专门处理来加速计算机;此外也有一些加速器旨在加速机器学习任务——它们通常被称为“数据中心GPU”。
英伟达和AMD等公司研发的一些最热门加速器本是传统GPU,随着时间推移,这些产品设计不断发展,拥有了处理各种机器学习任务的能力,例如支持更高效的所谓“大脑浮点”(brain float)数字格式。
英伟达的旗舰级GPU,H100 Hopper,由超过800亿个晶体管组成
其他加速器,例如谷歌的张量处理单元和Tenstorrent的Tensix Cores芯片,都是从头开始设计,被用于加速深度神经网络。
数据中心GPU和其他AI加速器通常比传统GPU附加卡配备更多内存,这对于训练大型AI模型至关重要。人工智能模型越大,GPU的能力就要越强,准确度越高。
为进一步加快训练速度,处理更大AI模型(例如ChatGPT),研发者可将许多数据中心GPU汇集到一起形成超级计算机。而这需要更复杂软件方可正确利用可用的数字处理能力。另一种方法则是创建一个非常大规模的加速器,例如芯片初创企业Cerebras生产的“晶圆级处理器”(wafer-scale processor)。
CPU方面的发展并未停滞。AMD和英特尔的最新CPU内置低级指令,可加速深度神经网络所需的数字运算。这一附加功能主要有助于“推理”任务,即利用其他已经开发的AI模型。
研发者可以就特定机器学习算法创建更专业的加速器。例如,最近初创企业Groq生产了一种“语言处理单元”(LPU),旨在沿用ChatGPT路线运行大型语言模型。
然而,创建种种专用处理器需大量工程资源。历史表明,任何爆火的机器学习算法都很快地达到顶峰然后式微——因此昂贵的专用硬件可能很快就过时。
|