通义开源视觉了解模型Qwen2.5
视频加载中,请点击播放
近日,网络上流传出关于某知名人士的新一轮黑料,引发众多网友的热议。此消息涉及其背后的不为人知的故事和潜在的隐私,是否属实仍需进一步核实。尽管许多人对此表示关注,但在信息爆炸的时代,我们更应该保持理性,并警惕谣言的传播。了解真相的同时,亦要尊重个人的隐私权。
新京报贝壳财经讯(记者罗亦丹)1月28日,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺度版别,并已在魔搭社区、HuggingFace等渠道开源。
其间,旗舰版Qwen2.5-VL-72B在13项威望评测中的得分抢先GPT-4o与Claude3.5。新的Qwen2.5-VL能够更精确地解析图画内容,支撑超1小时的视频了解,无需微调就可变身为一个能控制手机和电脑的AI视觉智能体(Visual Agents),完成给指定朋友送祝福、电脑修图、手机订票等多过程杂乱操作。
Qwen2.5-VL辨认和定位马路上骑摩托车未戴头盔的人。官方供图。
通义团队此前曾开源Qwen-VL及Qwen2-VL两代模型,而新的Qwen2.5-VL视觉常识解析才能完成了腾跃,如精确辨认和定位马路上骑摩托车未戴头盔的人,或是以多种格局提取发票中的中心信息并做结构化的推理输出。其视频了解才能也得到了增强,能够在视频中查找详细事情,并对视频的不同时间段进行关键总结,翻开摄像头,用户就能与Qwen2.5-VL实时对话。
开发者依据Qwen2.5-VL也能开发归于自己的AI智能体,如主动核验快递单地址与照片中的门牌号是否对应,依据家庭摄像头判别猫咪情况进行主动喂养,主动进行火灾报警等。
修改 陈莉 校正 穆祥桐。