性能特点
Turing GPU 架构
Quadro RTX 4000 GPU 由最先进的 12nm FFN (FinFET NVIDIA) 高性能制程制造,为 NVIDIA 订做,包含 2304 个 CUDA 核心,为专业桌面上针对 HPC,AI,VR 和绘图工作负载最强大的运算平台。Turing GPU 架构实现了自 NVIDIA 在 2001 年发明可程序化着色器以来,计算机实时绘图成像最大的跃进 。它在 545 平方公厘的尺寸上整合了 136 亿个晶体管,可提供超过 7.1 TFLOPS 单精度(FP32),14.2 TFLOPS 半精度 (FP16),28.5 TOPS 整数精度 (INT8),以及 57.0 TFLOPs Tensor运算能力,完美支持各种计算密集的工作附载。
RT 核心
新的硬件光线追踪技术让 GPU 首次实现实时产生电影质量般逼真的对象和环境,包括精确的物理阴影,反射,和折射。即时光线追踪引擎与 NVIDIA OptiX,Microsoft DXR,和 Vulkan API 配合,提供远超出传统成像技术所能达到的真实程度。RT 核心使用通过像素投射少量光线来加速边界体积层次 (BVH) 遍历和光线投射功能。
加强的Tensor核心
新的混合精度核心为了深度学习矩阵运算而设计,训练时可提供前一代 8 倍的 TFLOPS。Quadro RTX 4000 利用 288 个Tensor核心,每个Tensor核心每个频率可执行 64 个浮点融合乘加 (FMA) 运算,每个 SM 每个频率可执行总共 1024 个独立的浮点运算。除了支持 FP16/FP32 矩阵运算,新的Tensor核心针对矩阵运算增加了 INT8 (每个频率 2048 个整数运算) 和实验性的 INT4 和 INT1 (二进制) 精度模式。
先进的着色技术
网格着色:基于运算的几何管线,以加速几何复杂模型和场景的几何处理和剔除。网格着色对于受限于几何能力的工作负载提供高达两倍的效能提升。 可变速率着色 (VRS):根据场景内容,注视方向,和动作来改变着色速率,以提高成像效率。可变速率着色提供相似的影像质量,但着色的像素减少 50%。 材质空间着色:对象/材质空间着色可提高像素着色繁重的工作负载效能,如景深和动态模糊。材质空间着色对于像素着色繁重的 VR 工作负载,重复使用预先着色材质像素,以提高吞吐量,增加逼真程度。
高效能 GDDR6 内存
Quadro RTX 4000 采用 Turing 的高度优化 8GB GDDR6 内存子系统,具备业界最快的绘图内存 (416 GB/s 峰值带宽),为专门处理大型数据集并对延迟敏感的应用程序理想平台。Quadro RTX 4000 提供比前一代增加 70% 的内存带宽。
单一指令,多线程 (SIMT)
新的独立线程排程功能可在小型工作间共享资源,实现平行线程之间更精细的同步和合作。
先进串流多处理器 (SM) 架构
结合共享内存和 L1 快取以大幅提高效能,并简化程序和减少所需的调整来得到最佳的应用程序效能。每组 SM 包含 96 KB L1/共享内存,可根据运算或绘图工作负载,配置各种容量。对于运算工作,最多可分配 64 KB 到 L1 快取和共享内存,而绘图工作负载最多可分配 48 KB 到共享内存;32 KB L1 和 16 KB 材质单元。 结合 L1 快取和共享内存可降低延迟并提供更高带宽。
混合精度运算
16 位浮点精度运算,可将吞吐量加倍并降低储存需求,实现更大型神经网络的训练和部署。 Turing SM 具备独立的平行整数和浮点数据路径,对于运算和地址计算混合的工作负载更有效率。
图形抢占
像素等级抢占提供更细微的控制,对时间相关的工作支持更佳,例如 VR 动态追踪。
计算抢占
指令等级抢占提供对计算工作更精细的控制,以避免长时间执行的应用程序独占系统资源或超时。
H.264 和 HEVC 编码/译码引擎
两个专属的 H.264 和 HEVC 编码引擎以及独立于 3D/运算管线之外的译码引擎可提供比实时更快的转档,影片编辑,和其他编码应用程序效能。NVIDIA GPU BOOST 4.0
自动最大化应用程序效能,而不会超出卡的功耗和散热范围。允许应用程序在更高温下停留在加速频率状态更久,才会再降到第二温度设定的基本频率。此功能需要软件应用程序来启动,而不是独立的程序。
产品规格
CUDA 平行处理核心 | 2304 |
NVIDIA Tensor 核心 | 288 |
NVIDIA RT 核心 | 36 |
内存 | 8 GB GDDR6 |
RTX-OPS | 43T |
光线投射 | 8 Giga Rays/Sec |
最高单精度 (FP32) 效能 | 7.1 TFLOPS |
最高单精度 (FP16) 效能 | 14.2 TFLOPS |
最高整数运算 (INT8) 效能 | 28.5 TOPS |
深度学习 TeraFLOPS1 | 57.0 TFLOPS |
内存接口 | 256-bit |
内存带宽 | 最高416 GB/s |
最大功耗 | 160 W |
总线 | PCI Express 3.0 x 16 |
显示接头 | DP 1.4 (3) + VirtualLink (1) |
板型 | 4.4” 高 x 9.5” 长 |
重量 | 479 g |
散热方案 | 主动式 |
NVIDIA® 3D Vision®和 3D Vision Pro | 由 3 pin mini DIN 支援 |
框页锁(Frame Lock) | 相容 (与 Quadro Sync II) |
NVLink 互连技术 | 无 |
外部电源 | 8-pin PCIe |
1 FP16 矩阵乘以 with FP16 或 FP32 累加
支持平台
Microsoft Windows 10 (64 位)
Microsoft Windows 8 and 8.1 (64位)
Microsoft Windows 7 (64 位)
Linux®- 完整 OpenGL 实作,完整 NVIDIA 和 ARB 延伸 (64 位)
3D 绘图架构
可扩充式几何坐标 (Scalable geometry) 架构
硬件细分曲面引擎 (Hardware tessellation engine)
NVIDIA®GigaThreadTM引擎及 3 个异步复制引擎
Shader Model 5.1 (OpenGL 4.5 和 DirectX 12)
高达 32K x 32K 纹理及着色处理/li>
透明多重取样和超级取样
16倍速角度独立式非等方性过滤技术
32-bit 纹理过滤及混色技术的浮点能力
64倍速全景反锯齿 (FSAA) 技术 / SLI模式可达128倍
硬件译码加速支持 MPEG-2, MPEG-4 Part 2 Advanced Simple Profile, H.264, HEVC, MVC, VC1, DivX (version 3.11 及更新版本), 以及 Flash(10.1 及更新版本)
专属的 H.264 及 HEVC 编码器2
Blu-ray 双串流硬件加速 (支持 HD 子母画面播放)
NVIDIA GPU Boost (自动提高 GPU 引擎吞吐量以最大化应用程序效能)
NVIDIA CUDA 平行处理架构
每个 SM 的新 RT (光线追踪) 核心
Turing SM 架构 (串流多处理器设计,提供更高处理效率)
动态平行 (GPU 动态生成新线程而无需返回 CPU)
混合精度 (1, 4, 8, 16, 32 和 64 位) 计算
API 支持包括:CUDA C, CUDA C++, DirectCompute 5.0, OpenCL, Java, Python, 和 Fortran
可配置多达 96 KB 的内存 (每个 SM 的专属共享内存大小)
进阶显示特性
支持四个显示器的任意组合
四个 DisplayPort 1.4 输出 (支持分辨率如 3840 x 2160 @ 120 Hz, 5120x2880 @ 60Hz 和 7680 x 4320 @ 60Hz)
DisplayPort 转 VGA, DisplayPort 转 DVI (single-link 和 dual-link) 和 DisplayPort 转 HDMI 扁平电缆 (支持分辨率依照转接器规格而定)
DisplayPort 1.4 (SMPTE 2084/2086, BT. 2020) (4K @ 60Hz 10b/12b HEVC 译码, 4K @ 60Hz 10b HEVC 编码) 支持 HDR
DisplayPort 和 HDMI 连接头支持 HDCP 2.2
12 位内部显示管线 (搭配支持的面板,应用程序和连接,硬件支持 12 位扫描输出)
支持 NVIDIA® 3D Vision™ 技术,3D DLP,交错,和其他 3D 立体规格
支持完整 OpenGL 四缓冲立体技术
欠扫描/过扫描补偿和硬件缩放
NVIDIA® nView®多显示器技术
利用 NVIDIA® SVS 平台,包含 NVIDIA® Mosaic, NVIDIA® Sync 和 NVIDIA® Warp/Blend 技术,支持大规模和超高分辨率可视化
DisplayPort 和 HDMI 数字音效
支持以下声音模式:- Dolby Digital (AC3), DTS 5.1, 多声道 (7.1) LPCM, Dolby Digital Plus (DD+),和 MPEG-2/MPEG-4 AAC
支持DisplayPort 数据传输率 48 KHz
支持16-bit, 20-bit, 以及 24-bit 大小字符组
Mini-DisplayPort 连接器采用订制卡榫固定装置设计,可牢牢固定显示器连接线。
2 此功能需要软件应用程序来启动,而不是独立的程序。
权利声明:
本网站所提到的产品信息、规格参数、应用程序、产品图片及产品特性及价格等仅供参考。
产品图片及颜色可能因拍照光线误差及屏幕设定,可能与实物产品效果有所差异,请以实物为准。
本网站所谈论到的产品名称仅做识别之用,而这些名称可能是属于其他公司的注册商标或是版权。