- N +

摩尔线程新方法优化AI交互:显存节省最多82%

摩尔线程新方法优化AI交互:显存节省最多82%原标题:摩尔线程新方法优化AI交互:显存节省最多82%

导读:

美国夏威夷时间月日高通年度旗盛会骁龙技术峰会大幕揭开年度移动旗舰平台骁龙至尊版正式发布在和第二代自研架构加持下骁龙至尊版在性能和能效上实现爆表级的突破的主频频率提升的性能提升整...

美国夏威夷时间10月21日,高通年度旗盛会——2024骁龙技术峰会大幕揭开,年度移动旗舰平台骁龙8至尊版(Snapdragon 8 Elite)正式发布。在3nm和第二代自研Oryon CPU架构加持下,骁龙8至尊版在性能和能效上实现“爆表级”的突破。30%的主频频率提升,CPU40%的性能提升,SoC整体功耗降低27%,支持多模态生成式AI,开启终端AI...

摩尔线程科研团队近日发布了一项新的研究成果《 :以轮次块稀疏性开辟新范式》,使得端到端延迟低于现在主流的Flash Attention,kv-cache显存占用节省最多82%。

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题 任务中的广泛应用。

然而,长时间的交互暴露出两大显著问题:

摩尔线程新方法优化AI交互:显存节省最多82%

首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的;

其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的,导致推理批处理规模受限,同时GPU利用率低下。

为此,摩尔线程提出了Round Attention,以 这些问题。

首先,摩尔线程提出以轮次为分析单元研究Attention规律:

Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。

其次,摩尔线程提出了Round Attention推理流水线;

基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与 tention计算,减少 tention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。

这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。

显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。

返回列表
上一篇:
下一篇:

发表评论中国互联网举报中心

快捷回复:

验证码

    评论列表 (暂无评论,共83人参与)参与讨论

    还没有评论,来说两句吧...