案例分享 |NVIDIA A100 GPU 助力 58 同城智能语音技术提升

2021-07-08 15:02:25 福瑞鑫智能科技

案例分享 |NVIDIA A100 GPU 助力 58 同城智能语音技术提升

案例简介

58 同城使用 NVIDIA A100 Tensor Core GPU 完成上万小时企业核心数据的语音识别训练任务。经测试,A100 芯片大幅度提升训练速度近一倍(相同软件条件下),提高算法开发和生产效率。


简介及应用背景


近年来,AI 智能语音应用在 58 同城广泛落地。我们先后实现了电话外呼、内呼、网络音频场景下人机对话的语音机器人,以及呼叫中心、隐私通话、微聊等场景下通话语音分析的智能语音分析平台--灵犀。而语音识别技术在其中起到重要作用。

语音识别模型具有一定的场景相关性,为了开发语音识别引擎、训练自有语音识别模型,58 积累了上万小时的业务录音数据,且数据量在不断增加,这对我们的算力带来了挑战。通过以目前最前沿(截至 2021 年中)高算力设备,采用高性能 GPU 分布式训练的方法,成功实现了上万小时语音数据的训练、推理并输出到各端业务。

挑战


作为行业龙头,58 同城已在 AI 领域深入布局,是资深的 GPU 企业级用户,业务应用上一代 Pascal 架构方案,使用语音识别常用框架为 Kaldi、TensorFlow、PyTorch。上万小时的语音识别模型训练通常需要近一个月的训练时间。这主要受限于硬件架构、带宽以及晶体管数量造成的算力限制,同时Pascal架构P40 的显存为 24G GDDR6,对于模型较大的情况,单次迭代的数据量有限,迟滞研发和生产过程,拖累了其核心生产力。

NVIDIA GPU 在深度学习训练加速上一直处于领先地位,最新推出的 NVIDIA A100 是对 AI 峰值算力的又一次突破,且 40G HBM2 的显存也增加了模型规模的增长空间,因此选择 A100 作为大规模语音识别训练的重点测试方案。

解决方案


目前,语音识别常用框架为 Kaldi、TensorFlow、PyTorch。我们使用固定时长的语音训练数据,基于 Kaldi 框架对不同型号的 GPU 单卡训练进行测试(只记录了与深度学习模型训练有关的耗时),结论如下:

案例分享 |NVIDIA A100 GPU 助力 58 同城智能语音技术提升

从表中数据可以看出,A100 对于语音识别训练任务有明显的提升。在相同软件和数据规模条件下,比上一代提高 43%,比更早的 T4 优化 73%。

效果及影响


NVIDIA A100 GPU 加持语音识别模型训练,完全调动 GPU 的最大使用率,模型训练耗时最短,快速完成多场景语音识别训练开发语音识别机器人,利用语音机器人识别意向程度高的潜在客户,提升销售人员的销售效率以及在信息通知、内部的业务告警等多个业务模块都得到了广泛应用。

电话咨询
最新产品
官方商城
QQ客服