AI人工智能时代已来,您的数据中心准备好了吗?深度学习计算平台之 丽台 NVIDIA DGX POD 解决方案

2020-11-26 11:06:14

NVIDIA的DGX POD参考体系结构为人工智能(AI)软件的大规模开发和部署提供了蓝图。尽管今天的软件超过了传统软件的能力和准确性,但它需要一个超级计算机类系统,比如DGX POD。DGX POD参考体系结构基于NVIDIA DGX的人工智能超级计算机,该超级计算机拥有超过1000个DGX服务器,并为英伟达的人工智能研发提供动力,包括自动驾驶汽车、机器人技术、图形、HPC和其他软件领域。


AI人工智能时代已来,您的数据中心准备好了吗?深度学习计算平台之 NVIDIA DGX POD 解决方案

AI 基础设施的新挑战

  • 设计构思:确保架构可扩展性且能够提供可预测的性能

  • 部署的复杂性:采购、安装和故障排除计算、存储、网络和软件

  • 多点支持:在堆栈中跨多个层应对多个提供商

基于 GPU 计算架构的新挑战

基于 NVIDIA  GPU 的深度学习对存储要求:

  • 高扩展性、高性能 

    能同时存储和检索海量文件

  • 超低延迟 

    以低延迟提供并行高性能以满足 GPU 处理速度要求 

  • 存储管理能力 

    存储和检索多种数据对象,如图像、音频、视频和时序数据

基于 NVIDIA GPU 的深度学习对网络要求:

  • 低延迟 

    网络端到端毫秒级延迟(交换机和网卡硬件低至纳秒级别) 

  • 高带宽 

    GPU 服务↔存储:25Gb/s 50Gb/s 100Gb/s 200Gb/s 

    GPU 服务器↔GPU 服务器: 100Gb/s 200Gb/s 

  • 高效传输协议 

    RDMA/RoCE, GPU Direct RDMA

AI人工智能时代已来,您的数据中心准备好了吗?深度学习计算平台之 NVIDIA DGX POD 解决方案

DGX POD  

机架立视图

丽台 DGX POD

DGX POD  包含:

  • 一个或多个 DGX 服务器机架 

  • 存储 

  • 网络 

  • NVIDIA GPU Cloud (NGC) 深度学习和加速计算 

  • DGX POD 管理服务器和软件

丽台 DGX POD

NVIDIA AI 软件堆栈

DGX POD  硬件参考配置

DGX POD  硬件参考配置


  • 3台DGX-2服务器(3x 10 RU =30 RU),提供每台 2 PFLOPS 的深度学习计算性能

  • 12个存储服务器(12x1 RU=12 RU) 

  • Mellanox 100 Gbps intra-rack high-speed 网络交换机 (1 或 2 RU) 

  • 10 GbE (min) 存储和管理交换机 (1 RU) 

  • 35KW



  • 9台DGX-1服务器(9x 3 RU =27 RU),提供每台1 PFLOPS 的深度学习计算性能

  • 12个存储服务器(12x1 RU=12 RU)

  •  Mellanox 100 Gbps intra-rack high-speed 网络交换机 (1 或 2 RU) 

  • 10 GbE (min) 存储和管理交换机 (1 RU) 

  • 35KW

DGX POD  硬件参考配置


DGX POD  硬件参考配置


  • 4台DGX-1服务器(4x 3 RU =12 RU),提供每台1 PFLOPS 的深度学习计算性能 

  • 6个存储服务器(6x1 RU=6 RU)

  • Mellanox 100 Gbps intra-rack high-speed 网络交换机 (1 或 2 RU) 

  • 10 GbE (min) 存储和管理交换机 (1 RU) 

  • 18KW



登录服务器(1 RU):

用户登录到集群,启动Slurm batch jobs,2个高端CPU,至少1TB内存,2路连接至100 Gbps网络

3个管理节点(3 RU):

运行 Kubernetes server components 及其他DGX POD管理软件

可选 Mellanox 交换机(12 RU):

216 端口 EDR InfiniBand 交换机 CS7520,用于多 DGX POD 集群连接

DGX POD  硬件参考配置

DGX POD 网络参考配置

管理网络:10 GbE 网

•连接所有服务器,并接入数据中心主网 

•可设置 VLAN 用作 out-of-band management network 

•可采用 2 个交换机做 HA 

•使用 Arista 48x10 GbE ports 与 4x40 GbE uplinks •

数据网络:100 Gbps IB或者 Ethernet 网络

•1个 36-port Mellanox 100 Gbps 交换机 

•9个 DGX 服务器,每台4个100 Gbps IB 连接到交换机 

•交换机故障不可用时,多节点作业可采10 GbE交换机 

•可配置成100 GbE 模式:作为以太网通信,同时也可以连接存储服务器

DGX POD  硬件参考配置

基于 GPU 计算架构的新挑战

  • 存储系统网络可选择万兆/IB网络

  • 以下的表格是基于深度学习框架的通用IO访问模式针对存储系统的参考推荐

基于 GPU 计算架构的新挑战

DGX POD 存储配置

多级高速缓存存储方式

  •  DGX SSD 作为 高速缓存, DGX POD中的存储服务器 作为高速缓存 

  • 长期的raw data可以放置在DGX POD外部的其他存储设备上,在数据中心或者云上 

DGX POD基本存储文件系统 

  • DGX SSD 作为高速缓存,NFS作为存储服务器 

  • Ceph objected file system 

DGX POD 存储硬件 

  • DDN, NetApp, IBM, Purestorage, StorSwift

DGX AI 软件架构

DGX POD 存储配置
  • DGX OS: GPU 驱动程序, network software stack,预配置的NFS缓存,DCGM, Container runtime,CUDA SDK, cuDNN, NCCL, RAPIDS等. 

  • NGC优化的容器 

  • 集群管理和协调工具  

  • Workload schedule

DGX POD FOR RAPIDS


DGX POD FOR RAPIDS


DGX POD FOR RAPIDS


DGX POD 利用 NGC 上的容器

在DGX POD上的NVIDIA AI软件的管理是通过一个可配置的配置管理工具完成的。

可用于在管理节点上安装Kubernetes,在登录和DGX服务器上安装额外的软件,配置用户帐户,配置外部存储连接,安装Kubernetes和浆状调度器,以及执行日常维护任务,如新软件安装、软件更新和GPU驱动程序升级。


DGX POD 利用 NGC 上的容器


DGX POD 管理软件 - DEEPOPS 

一组不同的服务,运行在Kubernetes container:  

DHCP:网络配置

PXE:自动DGX OS软件部署

Prometheus:基于时间序列数据的服务器监控

Alertmanager:处理由例如Prometheus服务器等客户端发来的警报

Crafana:监控数据的展示,Dashboard中可显示不同metric数据源中的数据

Container / Pkg Repo: air-gapped环境用,提供本地NGC container镜像,及Ubuntu 和 Python package镜像

DGX POD 管理软件 - DEEPOPS

DGX POD 管理软件 - BCM

  • BCM采用仪表盘式管理界面,包括全部物理资源的使用情况,并以直观的图形化界面展示

  • BCM提供HPC的常用工具和方法库,高级版BCM提供常用的CUDA和OpenCL库

  • 可监控集群使用状况(CPU、内存、硬盘、网络、温度、风扇转速等),还可以根据类别、节点、资源(硬件、系统、网络)等分类收集 整体集群的运行信息。

  • 集成了包括Azure、Hadoop、Ceph、OpenStack、Mesos等大量工具

  • 实际运行中可以根据工作需要及时进行切换,基于需求和策略重新部署本地节点

DGX POD 管理软件 - BCM

专业的服务

丽台科技专业的技术服务可以帮助客户高效部署新技术,实现投资利益最大化。

  • DLI & CUDA 认证培训 - 通过 NVIDIA 深度学习学院(DLI)的实践操作培训,您可以学习如何构建人工智能 (AI) 和加速计算应用。 

  • Docker 技术开发培训 - 提供系统的Docker技术开发培训服务,可以使您在短时间内理解Docker技术的框架原理以及掌握Docker技术基本操作。 

  • 应用案例开发培训:人脸识别案例开发、图像分类,检测及分割。

  • GPU开发优化咨询 -帮助客户完成分析、设计、编码、测试、优化、交付、维护等专业服务。

  • 人工智能课程开发建设 

  • 数据服务 -为客户提供开源的数据集以及商业的数据集

  • DGX 系统远程测试 - 面向全体业界用户提供远程测试,提前体验 DGX 系统带来的空前性能提升。

  • DGX系统租赁

  • 大客户技术服务 - 借助丽台科技技术专业指导,成功应对未来挑战

  • GPU智能分析

电话咨询
最新产品
官方商城
QQ客服