克服AI和ML的GPU存储瓶颈_经济生活信息网

支持AI和ML部署的数据中心依赖基于GPU的服务器来支持其计算密集型架构。在许多行业中，到2024年，GPU使用量的增长将落后于GPU服务器超过31%的预期复合年增长率。这意味着承担更多系统架构师的责任，以确保GPU系统的最高性能和性价比。

然而，为这些基于GPU的AI/ML工作负载优化存储并不容易。存储系统必须高速处理海量数据，并同时应对两个挑战：

服务器利用率1)。对于训练大型AI/ML数据集所需的矩阵乘法和卷积，GPU非常高效。但是GPU服务器的成本是典型CPU服务器的三倍。为了保持投资回报率，IT人员需要让GPU保持忙碌。不幸的是，丰富的部署经验表明，GPU只使用了30%的容量。

2).ML训练数据集通常远远超过GPU的本地RAM容量，从而产生I/O瓶颈，分析师称之为GPU存储瓶颈。而AI和ML系统最后都要等待访问存储资源，因为其庞大的规模阻碍了及时访问，从而影响性能。为了解决这个问题，NVMe闪存SSD已经逐渐取代标准闪存SSD，成为Al/ML存储的首选。NVMe支持大规模IO并行，性能是同类SATA SSD的6倍左右，延迟降低10倍，功效更高。正如GPU推动高性能计算的发展一样，NVMe闪存在降低延迟的同时，实现了更高的存储性能、带宽和IO/s。NVMe flash解决方案可以更快地将AI和ML数据集加载到应用程序中，并避免GPU短缺。

此外，可以通过高速网络虚拟化NVME资源的NVMeOF (NVMEOF)实现了特别适合AI和ML的存储架构。NVMeoF使GPU能够直接访问NVMe的弹性池，因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员能够向应用程序提供更多数据，以便他们能够更快地获得更好的结果。

为了获得最佳的GPU存储性能，有必要根据业务目标微调基础架构。这里有四种方法可以考虑：

扩展有效的GPU存储容量1)例如，InstaDeep为可能需要也可能不需要运行自己的AI栈的组织提供AI即服务解决方案。因此，InstaDeep需要最大的投资回报率和可扩展性。特别是，对多租户的需求意味着基础架构必须随时准备好，以满足各种工作负载和客户端的性能要求。

InstaDeep基础设施团队在部署其第一个GPU服务器系统的早期阶段就了解到，本地GPU服务器的存储容量会过于有限，只有4TB的本地存储，而客户的工作负载则需要10到100 TB。该团队研究了外部存储选项，并注意到它们将通过传统阵列获得更多容量，但性能最终会阻碍AI工作负载，因为应用程序需要将数据移入和移出GPU系统，从而中断工作流并影响系统效率。

通过使用软件定义的存储在快速RDMA网络上合并NVMe闪存(一种将数据集加载速度加快10倍的方法)，InstaDeep可以实现更高的GPU容量利用率，消除GPU瓶颈并提高ROI，因为现有的GPU得到了更充分的利用。

克服AI和ML的GPU存储瓶颈

分类：要闻来源：日期：2022-08-18 02:13:38



相关文章

热门文章

热评文章

随机文章