公司的 GPU 性能又跟不上算力需求了...头疼...
英伟达最近出了最新的第8代 GPU 架构你知道吗?
在这个疫情冲击全球的特殊时间,我们终于看到了“AI 算力霸主”英伟达的首款安培架构 NVIDIA Tesla A100 GPU 的问世。 全新 NVIDIA A100 GPU 增加了许多新功能,为 HPC、AI 和数据分析工作负载提供了显著更快的性能。
那么,搭载了安培架构的 NVIDIA A100 GPU 它的优异性相较于以往的架构,到底体现在哪里呢?
NVIDIA A100 GPU 强大性能的来源,莫过其最新最优的硬件支持,主要来源于以下几方面:
搭载全新第三代 Tensor Core:
新增了 Tensor Float-32(TF32) 数据类型操作,提供了对 FP32 数据的加速能力,相较于 V100 FP32 的 FFMA 拥有 10 倍加速性能,相较于 A100 FP32 的 FFMA 拥有 8 倍加速性能。
新增了Bfloat16(BF16) 数据类型操作,与 FP16 拥有相同的吞吐性能。相较于 V100,A100 GPU 获得 2.5 倍 TOPS 提升,单个 SM 上获得 2 倍性能提升。
相较于 V100,A100 新增了 INT8,INT4,INT1 整数数据类型操作,进一步加速 DL 推理。
新增加了 FP64 数据类型操作,相较于 V100,FP64 运算性能提升 2.5 倍。
TF32,BF16,FP16,INT8,INT4 均支持稀疏特性,运算吞吐能力可再获得 2 倍提升。
第三代 NVIDIA NVLink 和 NVIDIA Switch 互联技术:
NVLink 技术升级到了第三代,能够提供最高600GB/s的数据传输速度,同时 GPU 的 PCIe 支持升级到了4.0版,Ampere 比起 Volta 架构 PCIe 带宽也是上了一个层面,最高数据传输速度提升到了64GB/s。A100计算卡使用了40GB的 HBM2 显存,能够提供高达1.6TB/s的显存带宽。
NVIDIA NVSwitch 以 NVLink 的先进通信能力为基础,它采用可在一台服务器中支持更多 GPU 以及 GPU 之间的全带宽连接的 GPU 架构,可将深度学习性能提升到更高水平。每个 GPU 都有 12 个连接 NVSwitch 的 NVLink 链路,可实现高速的多对多通信。具体可以见图,可以了解到 NVLINK 与 NVSwitch 的互联方式。第二代的 NVSwitch 可助力以 600 GB/s 的惊人速度在所有 GPU 对之间同时进行通信。
能允许 A100 Tensor Core GPU 安全地划分为多达七个单独的GPU实例,用于CUDA 应用程序,为多个用户提供单独的 GPU 资源以加速其应用程序。使用MIG,每个实例的处理器在整个内存系统中都有独立的路径。这确保了单个用户的工作负载可以在相同的二级缓存分配和 DRAM 带宽下以可预测的吞吐量和延迟运行,即使其他任务正在冲击自己的缓存或使 DRAM 接口饱和。
MIG 提高了 GPU 硬件利用率,同时提供了定义的 QoS 和不同客户端(如 vm、容器和进程)之间的隔离。MIG 对于拥有多租户用例的csp尤其有利。它确保了一个客户机不会影响其他客户机的工作或调度,此外还提供了增强的安全性并允许为客户机提供 GPU 利用率保证。
结构化稀疏:
现代 AI 网络非常庞大,且规模仍然在不断加大,拥有数百万个(某些情况下可达数十亿个)参数。A100 中的 Tensor Core 可为稀疏模型提供高达 2 倍的性能提升。虽然稀疏化功能对 AI 推理更为有益,但它也可用于改善模型训练的性能。
更智能、更快的显存:
A100 正在为数据中心提供海量计算能力。为了保持这些计算引擎得到充分利用,它具有领先业界的每秒 1.5TB 的显存带宽,比上一代高出 67%。此外,A100 的片上存储空间更大,包括 40MB 的 2 级缓存(比上一代大 7 倍),从而最大限度地提高计算性能。
边缘端加速:
NVIDIA EGX A100 结合了 NVIDIA Ampere 架构和 NVIDIA Mellanox 的 ConnectX-6 Dx SmartNIC,带来了前所未有的计算和网络加速功能,可以处理边缘端产生的大量数据。Mellanox SmartNIC 具有安全分流功能,能够以高达 200 Gb/s 的线速进行解密,而 GPUDirect™ 可将视频帧直接传输到 GPU 显存以进行 AI 处理。借助 EGX A100,企业可以更安全、更有效地加速边缘 AI 的部署。
正如黄仁勋称:“云计算和 AI 的强大趋势正在推动数据中心设计的结构性转变,过去的纯 CPU 服务器正在被高效的加速计算基础架构所取代。A100 GPU 作为 一个端到端的机器学习加速器,其实现了从数据分析到训练再到推理 20 倍的 AI 性能飞跃。这是有史以来首次可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。NVIDIA A100 将在提高吞吐量的同时,降低数据中心的成本。”