首页 > 资讯 > 科技 > 正文
2024-05-01 22:10

为什么AI计算一定要用GPU?

大家好,我是猫头鹰的猫老毛。

随着普及,GPU成为了当下最火的单品,一块顶级GPU可以卖到数万美元。 由于其产品需求激增,英伟达的市场估值已飙升至超过2万亿美元。

你是否好奇过:为什么 AI 会让 GPU 着火? AI计算需要GPU吗?

今天我们就来说说GPU到底是什么?

▉什么是 GPU?它与 CPU 有何不同?

在GPU流行之前,提到最多的就是CPU。 那么两者有什么区别呢? CPU会被GPU取代吗?

我们来看看两者的具体区别:

CPU 是 Unit 的拼写错误。 CPU通常被称为计算机的“大脑”。 它主要负责计算处理功能。 操作系统、应用程序等运行都必须依赖它。 CPU还决定了计算机的整体速度。

GPU是Unit的缩写。 它最初是为了辅助 3D 渲染而设计的,可以同时并行化更多指令。 它非常适合动画渲染、图像处理、人工智能等流行的工作负载。

简而言之,CPU 针对延迟进行了优化,而 GPU 针对带宽进行了优化。 CPU 更擅长一次处理一项任务,而 GPU 可以同时处理多个任务。 就像有些人擅长按顺序一项一项地执行任务一样,有些人可以同时执行多项任务。

为了展示CPU和GPU之间的区别,曾邀请亚当·萨维奇(Adam )和杰米·海涅曼(Jamie )使用机器人和彩弹来重现一幅著名的艺术作品——《蒙娜丽莎》。 微笑。 该视频充分展示了CPU和GPU的工作过程。 比如下面的视频:

可以用一个类比来简单地解释两者之间的区别。 CPU就像跑车,GPU就像卡车。 两者的任务都是将100从位置A运输到位置B。CPU(跑车)可以快速获取RAM中的一些内存数据(货物),GPU(货车)执行速度较慢(延迟较高)。 但CPU(跑车)一次只能运输2个,而且需要50次才能完成运输。

然而,GPU(卡车)可以一次获取更多内存数据并进行传输。

也就是说,CPU更倾向于快速处理少量数据(如算术运算:5*6*7),而GPU则更擅长处理大量重复数据(如矩阵运算:(A*公元前)。 因此,虽然CPU的单次交付时间更快,但在处理图像处理、动画渲染、深度学习等需要大量重复工作负载的情况下,GPU的优势更为显着。

当前AI计算的数据类型与图像处理和深度学习的数据类型更加相似,这也是GPU供不应求的重要原因。

那么CPU和GPU有什么区别呢? 我们来详细看看。

▉GPU和CPU有什么区别?

首先,两者的核心架构不同。

下面两张图可以帮助我们理解CPU和GPU工作原理的区别。 上面我们提到CPU是为顺序串行处理而设计的,GPU是为数据并行而设计的。 GPU有成百上千个更小更简单的内容,而CPU有几个大而复杂的核心。

GPU 内核经过优化,可以同时对多个数据元素执行类似的简单处理操作。 而且CPU针对顺序指令处理进行了优化,这也导致了两者核心处理能力的差异。

网上有一个比喻用来比较GPU和CPU核心的区别。 我认为这是非常合适的。 CPU的核心就像一位知识渊博的教授,而GPU的核心则更像是一群只会做简单算术运算的小学生。 教授再厉害,也无法在一秒内算出500次加减法,所以对于简单的重复计算,一个教授根本不是大量小学生的对手。 在进行简单的算术运算时,500名小学生(并发)可以轻松击败教授。

其次,内存架构不同

除了计算差异之外,GPU 还利用专门的高带宽内存架构将数据发送到所有核心。 目前,GPU 通常使用 GDDR 或 HBM 内存,它们提供的带宽比 CPU 中的标准 DDR 内存带宽更高。

GPU 处理的数据被传输到该专用内存中,以最大限度地减少并行计算期间的访问延迟。 GPU 的内存被分段,以便可以执行来自不同内核的并发访问以获得最大吞吐量。

相比之下,CPU 内存系统针对缓存数据的低延迟访问进行了高度优化。 不太重视总带宽,这会降低数据并行工作负载的效率。

三、是并行性

专用核心和内存的组合使 GPU 能够比 CPU 更大程度地利用数据并行性。 对于图形、渲染等任务,相同的着色器程序可以在许多顶点或像素上并行运行。

现代 GPU 包含数千个核心,而高端 CPU 最多只有不到 100 个核心。 有了更多的核心,GPU 可以以更高的算术强度、更广泛的并行性处理数据。 对于并行工作负载,GPU 核心可以实现比 CPU 高 100 倍或更高的吞吐量。

相比之下,阿姆达尔定律意味着 CPU 可以为算法实现的并行加速是有限的。 即使有 100 个内部核心,由于串行部分和通信的原因,实际速度也限制在 10 倍或更低。 由于其大规模并行架构,GPU可以实现近乎完美的并行加速。

第四,它是即时(JIT)编译。

GPU 的另一个优势是即时 (JIT) 编译,它可以减少调度并行工作负载的开销。 GPU 驱动程序和运行时具有 JIT 编译功能,可在执行前将高级着色器代码转换为优化的设备指令。

这为程序员提供了灵活性,同时避免了 CPU 所需的传统离线编译步骤。 JIT还支持基于运行时信息的优化,综合效果将GPU开销降低到几乎为零。

相比之下,CPU必须坚持预编译的机器代码,无法根据运行时行为自适应地重新编译,因此CPU的调度开销较高,灵活性较差。

五、在编程模型方面

与CPU相比,GPU还提供了更好的并行编程模型CUDA,开发人员可以更快地编写并行代码,而不必担心低级线程、同步和通信问题。

提供了CUDA和C/C++编程语言,其中代码专注于跨抽象线程的并行计算,杂乱的协调细节在幕后隐形处理。

相比之下,CPU 并行性需要使用诸如此类的库直接处理线程。在线程管理、锁定和避免竞争条件方面,存在显着的额外复杂性。 这使得从高层次思考并行性变得更加困难。

六、两者应对方式不同

CPU基本都是实时响应,对单个任务的速度要求很高,所以采用多层缓存来保证单个任务的速度。

GPU经常使用批处理机制,即任务排队并逐个处理。

七、两者的应用方向不同

CPU 擅长的操作系统等应用程序需要快速响应实时信息,并且需要针对延迟进行优化。 因此,晶体管数量和能耗需要用在分支预测、乱序执行、低延迟缓存等控制部分。

GPU适合可预测性极高、相似操作数量较多、以及高延迟和高吞吐量的架构操作。 目前广泛应用于游戏、虚拟现实和人工智能三大应用市场。

此外,GPU还可应用于自动驾驶、医学图像分析、金融风控等领域。 然而,由于不同的应用场景对GPU性能的要求不同,因此在选择GPU时需要考虑其计算能力、功耗、应用领域等因素。 需要根据任务类型选择最合适的 GPU 并进行优化以利用其性能。

▉ GPU 的下一步是什么?

由于核心数量和运行速度的增加,GPU 的数字处理能力正在稳步提高。 但这些改进主要是由台积电 (TSMC) 等公司芯片制造的改进推动的。

目前,单个晶体管(任何计算机芯片的基本构建模块)的尺寸正在减小,从而允许在相同大小的物理空间中放置更多晶体管。 但这并不意味着传统GPU最适合人工智能相关的计算任务。

正如 GPU 最初旨在通过提供专门的图形处理来加速计算机一样,各种加速器也旨在加速机器学习任务。 AMD、AMD等公司正在为传统GPU制造各种加速器,以提供人工智能等场景的计算需求。 例如,CUDA和AMD的ROCm可以为开发人员提供创建、优化和部署GPU加速应用程序的综合环境,以确保跨各种平台的高性能和可扩展性。

此外,例如谷歌的张量处理单元和Cores芯片都是从头开始设计的,用于加速深度神经网络。

通常,数据中心 GPU 和其他 AI 加速器通常比传统 GPU 附加卡配备更多内存,这对于训练大型 AI 模型至关重要。 人工智能模型越大,GPU能力越强,准确率越高。

为了进一步加快训练和处理更大的人工智能模型(例如),开发人员可以将许多数据中心 GPU 聚集在一起形成超级计算机。 这需要更复杂的软件来正确利用可用的数字处理能力。 另一种方法是创建超大规模的加速器,例如芯片初创公司生产的“晶圆级”处理器。

与此同时,CPU的发展也没有停止。 AMD 和 Intel 的最新 CPU 内置了低级指令,可以加速深度神经网络所需的数字运算。 这一附加功能主要有助于“推理”任务,即利用其他已开发的人工智能模型。

但目前,要训练人工智能模型,首先需要GPU或类似GPU的大型加速器。

可以为特定的机器学习算法创建更专业的加速器。 例如,一家名为 Groq 的公司最近生产了一种“语言处理单元”(LPU),专门设计用于沿着 .

但历史表明,任何热门的机器学习算法都会很快达到顶峰,然后就会消失——因此昂贵的 GPU 或加速器硬件很快就会过时。

目前,我国GPU芯片仍占据较小比例的市场份额,但越来越多的国产GPU芯片正在进入市场,越来越多的国内企业正在向图形处理领域转型,如芯动科技、晶嘉微、等,国产GPU芯片也有更好的发展机会。 随着美国实施更多出口管制措施,可能为“中国芯片”的崛起创造机会窗口,这可能导致英伟达在中国市场面临更大的竞争压力。

彩蛋时间:如果您喜欢公众号的内容,可以动动手指点击关注公众号。 如果您想参与更多ICT技术群讨论,可以搜索“添加微信”,“注明公司名称”,让助手将您加进群。

结尾

➤ 过往精彩回顾

阅读一篇文章:

“喜欢”和“看着”也是美德!