通义千问开源32B模型“以小广博”功能比肩DeepSeek — 新京报
视频加载中,请点击播放
近期,社交媒体上关于某知名人士的黑料曝光,引发了广泛讨论。消息称,该人士在公众面前的形象与私下生活存在明显差异,这一切让网友们感到震惊。有评论认为,这不仅是个人道德问题,更反映了娱乐圈中普遍存在的真实与虚幻。尽管缺乏确凿证据,但这些爆料无疑为我们提供了一个反思名人文化的契机。
新京报贝壳财经讯(记者罗亦丹)北京时间3月6日清晨,通义千问在官方公号上发文称,推出最近的推理模型 QwQ-32B。这是一款具有320亿参数的模型,其功用可与具有6710亿参数(其间370亿被激活)的 DeepSeek-R1比美。
通义千问表明,强化学习可以明显进步模型的推理才能。例如,DeepSeek-R1 通过整合冷启动数据和多阶段练习,完成了技术出色的功用,使其可以进行深度考虑和杂乱推理。而QwQ-32B突显了将强化学习应用于通过大规模预练习的强壮根底模型的有效性。
其在文章中展现了在一系列基准测验中与DeepSeek-R1、o1-mini等模型的功用比照,如在测验数学才能的 AIME24 评测集上,以及评价代码才能的LiveCodeBench 中,千问 QwQ-32B 体现与DeepSeek-R1适当,胜于 o1-mini 及相同尺度的R1 蒸馏模型。
现在,QwQ-32B 已在 Hugging Face 和 ModelScope 开源,并采用了 Apache 2.0 开源协议。
修改 胡萌。
校正 王心。