生数科技朱军:视频模型下一步是高可控,我国视频大模型引领全球 — 新京报
近日,一则关于某知名明星的黑料曝光,引发了广泛关注。根据内部消息源的透露,该明星在私生活方面的某些行为与公众形象存在明显差距。这一揭露不仅让粉丝们感到震惊,也使人们对娱乐圈的潜规则产生了更多的讨论。面对层出不穷的爆料,人们不禁思考,究竟这些圈内真相背后,隐藏了怎样的故事?
“在大言语模型范畴,DeepSeek在提高功率上有共同的认知,而功率的优化的理念在视频模型范畴现已扎根,因而大概率不会呈现这种一会儿‘遥遥抢先’的模型,咱们等待视频模型更可控、更好用、每个人都能用到。”清华大学人工智能研究院副院长、生数科技创始人兼杰出科学家朱军告知新京报贝壳财经记者。
3月27日至31日,2025中关村论坛年会举办。在上一年的中关村论坛上,朱军发布了对标Sora的首个国产自研视频大模型Vidu,受到了广泛重视。而2025中关村论坛上,朱军在主题讲演中发布了业界首个高可控视频大模型Vidu Q1,并在会后接受了新京报贝壳财经记者的采访。
朱军在2025中关村论坛上宣布讲演 新京报贝壳财经记者 罗亦丹 摄。
Q代表“质量” 高可控背面是根底模型才能提高。
本次回归中关村论坛,朱军带来了更为强壮的 Vidu Q1模型,他告知记者,Q代表“Quality(质量)”,即高质量、高可控,这自身实际上是根底模型才能的提高,“现在阶段投入根底模型的收益仍是规划大的,加上根底模型之上的一些技能立异,从后端能够更好地完成高一致性和高可控的成果。”。
贝壳财经记者经过视频演示发现,Vidu Q1模型在方位、运动布局、音频等多个范畴完成了可控晋级。以多主体细节可控为例,在语义指令的根底上,经过融入参阅图的视觉指令,Vidu Q1支撑对一切动作行为(进场、离场、坐立姿势、举动道路)进行精准调整,从而用更低的抽卡率完成更高质量的可控生成。
朱军介绍,Vidu在商业化方面一直是C端与B端偏重,不过现在C端因为面向全球,增长速度很快,因而视频模型的技能打破能够更好地服务宽广用户。而B端则面向国内市场,现在现已看到了对MaaS(模型即服务)的广泛需求,本年也会继续同步推动两种事务。
“上一年,Vidu在中关村论坛开幕前一周时完成了技能打破,因而也被约请来到这样一个高端渠道上进行展现。而本年是论坛一周年,也是Vidu大模型的一周年,因而也想在这儿传达一些开展。”朱军告知新京报贝壳财经记者。
视频模型最重要的是功率 我国视频模型引领全球。
朱军表明,现在大言语模型范畴有才能十分抢先的头部公司,但视频模型范畴彻底不同,“现在能够以为我国的视频模型在全球,于许多方面是处于引领位置的。”。
“别的,视频模型的商业化途径会更快,咱们对视频模型的消费和需求十分宽广,所以视频和文字的赛道不一样。现在头部的视频大模型各自都有特征、差异化的商业化的途径,并没有像言语模型处于红海状况。”朱军说。
在他看来,视频大模型的开展,更重要的还要看团队能否继续立异,职业上公司的密度还比较稀少,大概率不会呈现一家独大的状况。
别的,新京报贝壳财经记者注意到,本年以来DeepSeek引领起了大模型的开源浪潮,阿里云也推出了开源版别的视频模型。对此,朱军回应称,DeepSeek最感动用户的点仍是作用好、功率高,“咱们以为从视频模型的视点来说,用户最关怀的仍是质量和功率。”。
记者联络邮箱:luoyidanxjbnews.com。
新京报贝壳财经记者 罗亦丹。
修改 寇德娜。
校正 王心。