NVIDIA驱动的WinFast RTX AI工作站配备了一整套经过测试和优化的数据科学软件,建构于NVIDIA CUDA-X AI之上,拥有超过15个函式库,使现代计算应用程序能够受益于NVIDIA的Quadro RTX GPU加速计算平台。这篇文章将会使用WinFast WS830工作站以及WinFast WS1030工作站搭配NVIDIA QUADRO GPU来测试深度学习的效能。
所有测试皆以TensorFlow 1.12版作为深度学习框架,测试数据使用ImageNet进行深度学习图像处理的效能测试。效能测试分成两大部分,包含单GPU卡和多GPU卡的效益,以提供卡片数量增加时,各项常见AI模型的效能(Images/sec),数字越高表示效能越佳。另外一部分为多GPU卡时,半精度(FP16)及单精度(FP32)效能测试。其目的在于检测RTX GPU系列的硬件Tensor Cores,于实际进行AI模型训练时的效益。也就是说,半精度(FP16)有使用Tensor Cores进行运算,而单精度(FP32)则是使用CUDA Cores进行运算。
WinFast WS830由于搭载900瓦电源供应器,可支持最多2张QUADRO RTX5000以上等级之GPU卡。下图为NVLink于TensorFlow效能仅AlexNet有较明显效能提升,其他模型可能在于官方范例程序未针对双卡数据交换进行优化处理,并不代表其他AI模型无法使用NVLink进行高速数据交换。以AlexNet模型来说,多卡不使用NVLink到使用NVLink进行运算,约有10%-30%效能提升。针对单GPU卡及多GPU卡效能比较,各系列多GPU卡效能都较单GPU卡效能提升65%-110%,大部分模型多GPU卡效能提升约在85%以上,也就是2张GPU卡效能几乎是单张GPU卡效能的2倍。

QUADRO RTX5000于WinFast WS830深度学习效能 - 单精度(FP32)

QUADRO RTX5000于WinFast WS830深度学习效能 - 半精度(FP16)

QUADRO RTX6000于WinFast WS830深度学习效能 - 单精度(FP32)

QUADRO RTX6000于WinFast WS830深度学习效能 - 半精度(FP16)
此部分测试主要以2张GPU卡搭配NVLink,比较单精度(FP32)及半精度(FP16)于深度学习上效能差异。半精度使用最新Tensor Cores核心,故此段落重点在检视使用Tensor Cores进行AI模型训练可增加的效能。由下图可知,VGG16、Inception V4及ResNet50等隐藏层级参数较多的模型,半精度可提升60%-95%的效能。参数量与隐藏层数较少的AlexNet及GoogLeNet提升约25%-55%之间。

QUADRO RTX 5000于WinFast WS830深度学习不同精度效能比较

QUADRO RTX 6000于WinFast WS830深度学习不同精度效能比较
WinFast WS1030于多GPU效能测试如下图,NVLink于TensorFlow效能仅AlexNet有较明显效能提升,其他模型可能在于官方范例程序未针对双卡数据交换进行优化处理,并不代表其他AI模型无法使用NVLink进行高速数据交换。以AlexNet模型来说,多卡不使用NVLink到使用NVLink进行运算,约有10%-35%效能提升。针对单GPU卡及多GPU卡效能比较,各系列多GPU卡效能都较单GPU卡效能提升65%-120%,大部分模型多GPU卡效能提升约在85%以上,也就是2张GPU卡效能几乎是单张GPU卡效能的2倍。

QUADRO RTX 6000于WinFast WS1030深度学习效能 - 半精度(FP32)

QUADRO RTX 6000于WinFast WS1030深度学习效能 - 半精度(FP16)

QUADRO RTX 8000于WinFast WS1030深度学习效能 - 单精度(FP32)

QUADRO RTX 8000于WinFast WS1030深度学习效能-半精度(FP16)
此部分测试主要以2张GPU卡搭配NVLink,比较单精度(FP32)及半精度(FP16)于深度学习上效能差异。半精度使用最新Tensor Cores核心,故此段落重点在检视使用Tensor Cores进行AI模型训练可增加的效能。由下图可知,VGG16、Inception V4及ResNet50等隐藏层级参数较多的模型,半精度可提升78%-95%的效能。参数量与隐藏层数较少的AlexNet及GoogLeNet提升约25%-45%之间。

QUADRO RTX 6000于WinFast WS1030深度学习不同精度效能比较

QUADRO RTX 8000于WinFast WS1030深度学习不同精度效能比较