首先,我们需要了解通用图形处理器和图形处理器服务器。
根据总线接口的类型,它可以分为虚拟链路接口、传统总线接口和传统PCI-e总线。
NVIDIA V100采用SXM2接口。DGX-2有SXM3接口。
英伟达的DGX超级计算机合作伙伴的英伟达接口服务器。DGX超级计算机不仅提供硬件,还提供相关的软件和服务。
目前,具有传统总线接口的GPU的主流是这几种产品,如V100、P40、P4、T4等。PCI-e接口。P4和T4相对较薄,仅占据一个插槽,通常用于推理。目前,也有成熟的推理和识别模型。
01.根据业务需求选择图形处理器模型
在高性能计算中,选择应该基于准确性。例如,一些高性能计算需要双倍精度。如果P40或P4不合适,只有V100或V100可以使用。同时,对视频存储容量也有要求,例如石油或石化勘探的计算应用对视频存储有更高的要求;总线标准也有一些要求,所以GPU模型的选择取决于业务需求。
02.根据应用领域选择图形处理器模型
在GPU服务器人工智能领域也有许多应用。在教学领域,对图形处理器虚拟化的要求相对较高。根据班级数量,教师可能需要将GPU服务器虚拟化到30个甚至60个虚拟GPU,因此批量训练需要更多的GPU,V100通常用于GPU训练。模型训练后,需要推理,所以P4或T4一般用于推理,V100也在少数情况下使用。
03.选择图形处理器型号后,确定图形处理器服务器
选择图形处理器型号时,请考虑使用哪个图形处理器服务器。此时,我们需要考虑以下情况:
在边缘服务器上,需要根据数量选择T4或P4等相应的服务器。同时,也应考虑服务器的使用场景,如火车站卡口、机场卡口或公安卡口。在中心产生影响时,可能需要V100服务器,以及吞吐量、使用场景、数量等。需要考虑。
有必要考虑用户和客户自身的信息技术操作和维护能力。对于英美烟草这样的大公司来说,他们自己的运营能力相对较强,此时将选择通用的PCI-e服务器。对于一些信息技术操作和维护能力较差的客户,他们更注重数字和数据标签。我们称这些人为数据科学家,选择GPU服务器的标准将会不同。需要考虑支持软件和服务的价值。
考虑整个GPU集群系统的成熟度和工程效率。例如,像DGX这样集成图形处理器的超级计算机有一个非常成熟的操作系统,它将Docker从底层驱动到其他固定和优化的部分,然后效率相对较高。