在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?

2020-08-20 09:08:58 471

疫情期间,在知乎上看到一篇帖子,一位学生在吐槽:






开学似乎遥遥无期,而我这次需要训练的网络模型,从其参数的复杂程度来说,显然是我自己的这张GeForce GTX 1060不能承受的。既然学校暂时回不去,那么租用云服务器也就成了当下唯一的办法了。





前方高能!

在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?

但大家对于云GPU还是有很多问题和疑惑。

在AI开发及设计过程中,应该选择本地GPU系统还是远程虚拟化?这就像是选择买房还是租房一样难,需要精打细算手头资产和投资回报。

在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?


01
本地GPU应用

当需要使用规模庞大的数据构建复杂的AI模型时,长期的项目开发周期有时会使得运营成本上升。这时,开发者可能需要慎重地运行每一次迭代或是训练,以控制成本,但这也降低了实验的自由度。这种时候,本地化GPU系统的优势就凸现了出来,只需要一次性投入,就能给开发者提供无限次的迭代和测试时间

使用本地GPU的数据科学家、学生和企业不必算计他们的系统使用时间,也不必为他们在特定时间段内能够承受多少次运行做预算。即便一个方法失败了,不需要额外的投入,就可以开始试验新的代码,这将鼓励开发人员充分发挥他们的创造力。而且,对于一套本地系统来说,其使用率越高,投资回报就越大。

从功能强大的桌面 GPU到工作站和企业级系统,本地化AI机器有很多选择。根据价格和性能的需要,开发人员可能会从单个NVIDIA GPU或工作站开始,并最终升级到一个AI超级计算机集群。

在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?


02
云GPU应用

云端GPU可被用于多种任务中,如训练多语言AI语音引擎、检测糖尿病导致失明的早期迹象,以及开发媒体压缩技术。借助于云端GPU,创业公司、学者和创作者们可以快速开始工作,探索新的想法和实验,而无需长期关注于特定规模或配置的GPU

用户可以通过所有主流云平台访问NVIDIA数据中心GPU,包括:

阿里云(https://www.alibabacloud.com/product/gpu)

AWS(https://www.nvidia.com/en-us/data-center/gpu-cloud-computing/amazon-web-services/)

谷歌云(https://www.nvidia.com/en-us/data-center/gpu-cloud-computing/google-cloud-platform/)

IBM Cloud (https://www.ibm.com/cloud/gpu)

Microsoft Azure (https://www.nvidia.com/en-us/data-center/gpu-cloud-computing/microsoft-azure/)

Oracle Cloud Infrastructure (https://www.oracle.com/cloud/partners/gpu.html)

在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?

云服务供应商通过为开发人员提供有用的资源,如开发工具、预训练的神经网络和技术支持,帮助用户进行设置、故障排除。当面临海量的训练数据涌入,或是一个试点项目启动,亦或是有大量新用户新增进来的时候,云计算能够让企业轻松地扩展其基础设施,以应对不断变化的计算资源需求。

为了提高成本效益,在使用云进行研究、应用程序容器化、实验或其它对时间要求不高的项目的时候,开发者还可以选择使用闲置的容量,并获得最高达90%的折扣。这种模式被称为“spot instances(点实例)”,能够有效地将云GPU上的空间转租给其他用户。

在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?

长期使用云计算的用户也可以升级使用最新、最强大的数据中心GPU,因为云提供商会经常更新他们的产品,并且经常会为持续使用平台的用户提供优惠折扣。


03
本地GPU+云GPU

对于许多企业来说,仅仅选择一种方法是不够的。混合云计算将本地化与云端两者结合了起来,使用户既能享有本地化系统的安全性和可管理性,又能享受到由服务供应商提供的公共云资源

混合云可以在本地资源计算能力达到顶峰时,为用户提供额外的计算资源,以满足高峰需求,这种模式被称为“云爆发(cloud bursting)”。或者企业还可以使用本地数据中心来处理其最敏感的数据,同时在混合云中运行动态的、计算密集型任务。

在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?

选择云GPU还是本地GPU?

在AI开发及设计过程中,应该选择本地GPU系统还是远程GPU虚拟化?

这并不是一个公司或是一个研发团队根据一个AI开发项目就能做出的决定。开发者需要在整个项目开发周期中反复问自己这个问题,在不同的阶段,需求是不同的

一家初创企业在开始的时候可能会在云端做一些早期原型,然后会切换到桌面系统或GPU工作站上开发和训练其深度学习模型。之后,根据客户需求波动使用的集群数量,它可以转而回到云端,扩大生产规模。最后,随着该公司建立起了自己的全球基础设施,它还可能会投资一个GPU驱动的本地化数据中心。

一些企业机构,例如那些通过构建AI模型来处理高度机密信息的机构,可能自始至终都会坚持使用本地化设备。其他公司则可能会选择云计算,而不会建立一个基于本地化的数据中心。

对于这些企业机构来说,决定它们如何做出选择的一个关键因素,是它们的数据保存在哪里——在哪里保存就在哪里进行训练。如果一个企业的数据保存在云服务器中,那么在云中开发AI模型可能就是最经济有效的,这样就无需再将数据传送到本地系统上进行训练。如果训练数据集是保存在本地服务器上的,那么投资本地化的GPU集群可能会是一个不错的选择。

电话咨询
最新产品
官方商城
QQ客服