Chat with Wiki - GPU的计算特性

Answer

GPU（图形处理器）具有以下计算特性：

专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。
诞生源自对 CPU 的减负，使显卡减少了对 CPU 的依赖，并进行部分原本 CPU 的工作，尤其是在 3D 图形处理时。
所采用的核心技术有硬件 T&L（几何转换和光照处理）、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素 256 位渲染引擎等，硬件 T&L 技术可以说是 GPU 的标志。
生产商主要有 NVIDIA 和 ATI。
在矩阵乘法方面表现出色，早期使用 GPU 训练神经网络，能使运算速度提高 30 倍。

Content generated by AI large model, please carefully verify (powered by aily)

References

作者：小鱼干了发布时间：2023-06-30 21:58原文地址：https://mp.weixin.qq.com/s/FTYC4O58xihe6U06B_7x7w微信扫一扫关注该公众号[heading1]算力是什么？[content]算力的字面意思就是计算能力（Computing Power），是随着区块链，AI等概念被反复提及，其实没什么特别的，可以直接转化成GPU就是算力，电脑里的显卡就是GPU，那么算力=显卡可以这样粗暴的理解。哪怕你购买云服务，也是服务商买显卡“租”给你用的意思。而一张显卡除了GPU外，还有一个很重要的参数是显存。GPU：图形处理器（Graphics Processing Unit）又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。CPU：中央处理器（Central Processing Unit）作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。显存：也被叫做帧缓存，它的作用是用来存储显卡芯片处理过或者即将提取的渲染数据。如同计算机的内存一样，显存是用来存储要处理的图形信息的部件。GPU的诞生源自对CPU的减负，使显卡减少了对CPU的依赖，并进行部分原本CPU的工作，尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L（几何转换和光照处理）、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

当然，有了Blackwell超级芯片，当然还会有Blackwell组成的DGX超算。这样，公司就会大量购入这些GPU，并将它们封装在更大的设计中。GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中，可实现总计720 petaflops的AI训练性能，或是1,440 petaflops（1.4 exaflops）的推理性能。它内部共有5000条独立电缆，长度近两英里。它的背面效果如下图所示。机柜中的每个机架包含两个GB200芯片，或两个NVLink交换机。一共有18个GB200芯片托盘，9个NVLink交换机托盘有。老黄现场表示，「一个GB200 NVL72机柜可以训练27万亿参数的模型」。此前传言称，GPT-4的参数规模达1.8万亿，相当于能训练近15个这样的模型。与H100相比，对于大模型推理工作负载，GB200超级芯片提供高达30倍的性能提升。那么，由8个系统组合在一起的就是DGX GB200。总共有288个Grace CPU、576个Blackwell GPU、240 TB内存和11.5 exaflop FP4计算。这一系统可以扩展到数万个GB200超级芯片，通过Quantum-X800 InfiniBand（最多144个连接）或Spectrum-X800ethernet（最多64个连接）与800Gbps网络连接在一起。配备DGX GB200系统的全新DGX SuperPod采用统一的计算架构。除了第五代NVIDIA NVLink，该架构还包括NVIDIA Bluefield-3 DPU，并将支持Quantum-X800 InfiniBand网络。

您是最早想到使用GPU的人之一，我知道Jensen（黄仁勋）很喜欢你。早在2009年，你就告诉Jensen，这可能是训练神经网络的一个非常好的想法。让我们回顾一下使用图形处理单元（GPU）训练神经网络的早期直觉。实际上，我记得在2006年，我有一位研究生，他是一位非常优秀的计算机视觉专家。我曾在一次会议上与他交谈，他建议我考虑使用图形处理卡，因为它们在矩阵乘法方面表现出色，而我所做的基本上都是矩阵乘法。我考虑了一会儿，然后我们开始研究那些配备四个GPU的Tesla系统。最初，我们只是购买了游戏用的GPU，发现它们使运算速度提高了30倍。然后我们购买了一个配备四个GPU的Tesla系统，并在此基础上进行了一次演讲，效果非常好。2009年，我在NIPS会议上发表了演讲，我告诉在场的一千名机器学习研究人员，你们都应该去购买NVIDIA的GPU，因为它们是未来，你们需要它们来进行机器学习。然后我实际上给NVIDIA发了一封邮件，说我已经告诉一千名机器学习研究人员去购买你们的主板，你们能否免费给我一个？他们并没有回复。但是，当我后来把这个故事告诉Jensen时，他免费给了我一个。这真是太好了。我认为同样有趣的是，GPU是如何随着这个领域的发展而发展的。那么，你认为我们在计算领域的下一步应该如何发展呢？在我在谷歌的最后几年里，我一直在思考如何尝试进行模拟计算。这样，我们可以使用30瓦的功率（例如大脑），而不是使用一兆瓦的功率，并且可以在模拟硬件中运行这些大型语言模型。我从未让它发挥作用，但我开始真正欣赏数字计算。