- N +

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果原标题:国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

导读:

北京时间月日亚冠精英联赛东亚区第轮山东泰山客场不敌神户胜利船比赛最后时刻高准翼对帕特里克犯规引发双方冲突赛后日本媒体也是第一时间进行了报道赛后日本媒...

北京时间10月2日18:00,亚冠精英联赛东亚区第2轮,山东泰山客场1-2不敌神户胜利船。比赛最后时刻,高准翼对帕特里克犯规引发双方冲突,赛后日本媒体也是第一时间进行了报道。 赛后,日本媒....

3月2日消息,日前宣布,随着开源周收官,摩尔线程在短时间内,成功实现对DeepSeek各个的 支持,涵盖Flash A、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS)。

摩尔线程表示,这一成果充分验证了和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周全家桶”代码合集:

Flash A:

Flash A是一款 的 A(Multi-Head L ent Attention)推理内核开源仓库,旨在加速 A机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。

摩尔线程基于全新MUSA Compute Ca bility 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了Flash A。

借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-Flash A,能够快速对DeepSeek Flash A进行兼容部署。

国产显卡动作神速!摩尔线程全面支持DeepSeek开源周成果

MT-Flash A开源地址:

https://github.com/MooreThreads/MT-flash A

MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/expe mental/mp31_flash_ tention_fwd

DeepEP:

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert ralleli ,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。

它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Ca bility 3.1全功能GPU, 时间适配了DeepEP。

MT-DeepEP开源地址:

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM:

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。

这个开源仓库基于高性能通用矩阵乘法(GEMM)的C 模板库进行开发,摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe:

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了流水线气泡”(设备空闲等待)。

与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的 支持。

MT-DualPipe可以完整接入摩尔线程 MT-Meg ron框架和MT-Tran ormerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址:

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS:

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。

摩尔线程在一天内完成了高性能分布式文件系统3FS的搭建,并 开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS I D ver地址:

https://github.com/MooreThreads/ i-d ver-3fs

返回列表
上一篇:
下一篇:

发表评论中国互联网举报中心

快捷回复:

验证码

    评论列表 (暂无评论,共64人参与)参与讨论

    还没有评论,来说两句吧...