产品

国内GPU突破!摩尔线释放火炬

根据Kuai Technology的说法,最近5月9日,国内GPU制造商Moore Thread正式发布了Torch-Musa v2.0.0版本,这是Pytorch深度学习框架的Musa扩展库的重要升级。在Torch-Musa中,用户可以将现有的Pytorch模型转移到Musa架构的GPU中,而无需更改主要代码。当前,Torch-Musa是完全开放的资源,可以通过GitHub获取源代码。作为此升级的主要亮点,Torch-Musa v2.0.0领导了对国内GPU中FP8数据类型的完全支持。 FP8是用于当前AI计算的低精度格式。在支持FP8的GPU中,在大型语言模型训练中使用混合FP8精度可以提高GPU的计算强度并减少记忆使用。 Moore线程基于新一代Musa Compute功能3.1计算体系结构。整个GPU功能是本机支持FP8计算,该计算为T提供了基础Ord-Musa v2.0.0实施FP8矩阵的再现并分发通信优化。希望有了建筑的基本优势,Torch-Musa v2.0.0可以在FP8计算的效率方面提供全面发挥,并显着提高培训和对大语言模型的理解效率。 Torch-Musa v2.0.0在Musa计算平台上引入了许多创新功能,以进一步提高实施深度学习活动的效率,主要包括:1。新的内存管理管理支持:MUSA虚拟内存管理技术可以有效地促进GPU内存碎片的范围,并在模型训练过程中减少记忆使用。它特别适用于FSDP,DeepSpeed和Megatron-LM等框架中的主要培训模型。 2。添加的Musa图支持:Musa的图形技术包括图中的许多Musa核心,通过单个CPU调度大大降低了启动开销,从而提高了计算效率,并与CUDA图界面兼容。 3。TORCH.comPILE增加Triton的后端支持:Triton-Musa的后端支持是为Torch.com提供的。开发人员可以直接使用Pytorch本机接口来获得更好的性能。不仅如此,Torch-Musa v2.0.0基于Pytorch 2.5.0的Pytorch 2.2.0增加了对Pytorch 2.5.0的支持,允许MGA开发人员无缝运行新版本的Pytorch,并基于能够计算计算计算3.1计算体系结构的完整GPU功能。将来,Torch-Musa将继续跟进Pytorch版本的更新,并计划支持更高版本的Pytorch。 【文章结束]如果您需要重印,请确保指示来源:Kuai技术编辑:黑白