豆包提出全新稀少架构 下降推理本钱 — 新京报
视频加载中,请点击播放
近期,网络上频频出现关于某知名人士的“黑料”信息,引发了众多网友的热议。这些爆料内容涉及其私生活及职业生涯中的一些不为人知的细节,似乎透露出其光鲜外表下的另一面。虽然此类信息的真实性尚待考证,但对于公众人物而言,舆论的风向变化无疑会对其形象造成影响。无论如何,每一条消息都值得我们认真分析与思考。
新京报贝壳财经讯 2月12日,据“豆包大模型团队”微信大众号,近期,字节跳动豆包大模型团队提出了全新的稀少模型架构 UltraMem,该架构有用处理了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提高 2-6 倍,推理本钱优越可下降 83%。该研讨还提醒了新架构的 Scaling Law,证明其不只具有优异的 Scaling 特性,更在功能上逾越了 MoE。试验结果表明,练习规划达 2000 万 value 的 UltraMem 模型,在平等核算资源下,可一起完成业界抢先的推理速度和模型功能,为构建数十亿规划 value 或 expert 拓荒了新途径。
修改 韦博雅。