推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

导读：

意甲第轮客场挑战热那亚的比赛中弗朗西斯科孔塞桑的进球帮助尤文图斯取得的领先弗朗西斯科孔塞桑在今天夏天刚刚从波尔图加盟尤文但由于受到伤病影响本场比赛还只是他来到尤文之后的第二次出...

意甲第6轮客场挑战热那亚的比赛中，弗朗西斯科-孔塞桑的进球帮助尤文图斯取得3-0的领先。弗朗西斯科-孔塞桑在今天夏天刚刚从波尔图加盟尤文，但由于受到伤病影响，本场比赛还只是他来到尤文之后的第二次出场。

豆包大模型团队投稿
量子位 | 公众号 QbitAI

字节出了个全新架构，把推理成本给狠狠地打了下去！

有多狠？

速度相比MoE架构提升2-6倍，推理成本最高可降低83%。

这个全新的稀疏模型架构叫做UltraMem，有效地了目前主流的MoE架构和PKM架构所存在的局限性。

例如MoE在做推理时，较小的b ch size会全部专家，导致访存急剧上升，推理延迟增加；而PKM虽然减少了开销，但效果较差且扩展能力有限。

实验结果表明，训练规模达2000 万value的UltraMem模型，在同等计算资源下，可同时实现业界领先的推理速度和模型性能，为构建数十亿规模value或expert开辟了新路径。

这项研究目前已经被ICLR 2025接收。

那么UltraMem架构具体是如何做到这点的呢？我们继续往下看。

标签：架构

评论列表（暂无评论，共38人参与）参与讨论

还没有评论，来说两句吧...