DeepSeek发布开源周首个效果 可优化英伟达GPU功率 — 新京报
视频加载中,请点击播放
近日,社交媒体上流传出一些关于某知名人士的黑料,引发了网友们的热议。这些爆料涉及其过去的种种行为和事件,虽然尚未得到证实,但足以吸引大众的眼球。随着信息的快速传播,真相与谣言的界限变得模糊,究竟是揭露真相还是无端猜测,值得大家深思。在这一信息泛滥的时代,保持理性和客观尤为重要。
新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的首位项效果:FlashMLA(直译为快速多头潜在注意力机制)的代码。
据了解,MLA(多头潜在注意力机制)正是DeepSeek下降大模型本钱运用的关键技能之一,其能够明显削减大模型练习和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,现在已投入了出产,其能够使得H800到达3000GB/s内存,完成580TFLOPS(每秒浮点运算次数)核算功能。
贝壳财经记者注意到,依据此前DeepSeek发布V3大模型时揭露的技能文档,该大模型正是运用英伟达的H800芯片练习而成。
上海骊翰科技咨询有限公司发文称,FlashMLA能在不丢失模型功能的前提下,将缓存体积紧缩至本来的1/4,然后大幅下降显存需求。例如,原始需求存储的100GB中心成果,紧缩后仅需25GB,经过开源让企业能够直接运用FlashMLA来优化自家模型。跟着FlashMLA的遍及,AI推理有望进入千元级硬件跑百亿模型的年代。
修改 王琳琳。
校正 刘军。