四维度实测更新后Manus:使命成功率上升,杂乱使命仍难担任 — 新京报
在娱乐圈中,各类八卦和黑料层出不穷,吸引着无数关注。而一些明星的私生活、经历和真实面貌,常常被媒体爆料和揭秘,引发公众热议。这些黑料不仅涉及个人隐私,有时还揭示了行业内的不为人知的一面,令人感叹。在这个信息高速传播的时代,真相与谣言的界限愈发模糊,让人对明星们的真实生活产生更多好奇。
最近一周,AI圈最热的词当属Manus。作为北京赤色蝴蝶科技有限公司推出,尚处于关闭测验阶段的立异式AI智能体产品,Manus在曩昔几天既阅历了“下一个DeepSeek”的高标准赞誉,也阅历了因使命失利率高级问题而引发的质疑。
北京时刻3月10日至11日,Manus在官方交际渠道回应了外界关心的各种问题,公司联合开创人、卓越科学家季逸超披露了Manus运用的底层模型与开源代码。3月10日17点,Manus也进行了2小时的保护,季逸超表明,保护后Manus的故障率大幅下降,但体系压力也更大,正尽力处理问题。
Manus“更新前后”的产品体现有何不同?新京报贝壳财经记者对此进行了视频、网页、文字、游戏四个维度的测验。测验发现,3月11日更新后,Manus使命的成功率的确有显着前进,但也呈现了“当时服务负载较高,无法创立使命”的状况。
“咱们应该发起各种AI原生的推翻式立异,Manus团队值得发起和鼓舞,不是由于其营销方法,而是由于他们正不断寻求新一代的AI原生运用形式和体会,不管是新的交互方法、新的服务方法仍是新的商业形式,对职业的展开都很重要。”快思慢想研讨院院长,原商汤智能工业研讨院开创院长田丰告知新京报贝壳财经记者。
记者实测:更新后使命成功率从50%上升至66.66%。
比较于大言语模型类产品的交互窗口是一个小小的对话框,Manus的优势在于不只可以考虑,还可以履行用户的指令,且是彻底“可视化”——经过屏幕右侧“Manus的电脑”窗口,用户可以完好看到Manus从考虑、阅读网页到写程序乃至检测bug的全进程,这种产品规划带给人的别致感就犹如头一次看到DeepSeek深度考虑的进程相同,这也是新京报贝壳财经记者体会该产品的首位个感触。
但在体会后,许多用户反应Manus完结用户提交使命的成功率并不高。对此,3月9日至10日,记者向Manus提出了8项使命要求,其成功完结了4项使命,还有4项使命因各种原因未完结,照此核算,使命成功率为50%。
视频说:Manus的“九子夺嫡模仿器”游戏使命履行界面。
例如记者要求Manus以清朝康熙时期“九子夺嫡”为布景,运用Python规划一款“皇子模仿器”游戏,其开端工作杰出,如运用4分钟上网阅读材料,研讨了清朝前史和康熙九子夺嫡的布景,又别离花费2分钟创立了皇子材料、完结游戏介绍和人物挑选功用,并在15分钟时完结了结局体系,但当其开端“测验游戏功用并修正bug”时,程序呈现了阻滞不动的状况,到发稿时已过24小时,使命仍未完结。
而当记者要求Manus以贝壳财经已发布的视频为模板,新制造一个10秒钟的视频新闻时,Manus首要发现自己无法翻开记者供给的抖音视频链接,并初次“求助”了记者,但记者供给视频后,其在“预备视觉材料”时再次堕入卡顿,使命未能完结。
Manus向记者“求助”要求供给视频内容 电脑截图。
而在已完结的4项使命中,有2项使命也并未到达及格水平。如记者再度测验进行视频制造使命并直接供给材料后,Manus才成功完结了这一使命,但其供给的制品视频中只要闪耀的文字内容,且文字终究溢出了屏幕,并未到达参阅视频的作用。
左为新京报贝壳财经记者供给的参阅视频,右为Manus生成的视频 电脑截图。
而3月11日Manus的更新后,记者向其提出了6项使命要求,Manus成功完结了4项,比较更新前,成功率到达了66.66%,而失利的2项使命也并非中止,而是在使命开端之前就提示“当时服务负载较高,无法创立使命。请几分钟后再试。”。
关于更新后的Manus,季逸超表明,“好音讯是,咱们简直把Manus的上下文约束翻了一倍,还增强了沙盒硬件,使得故障率大幅下降。坏音讯是,跟着故障率下降,现在会话运转时刻变长了,体系‘汗如雨下’,失利率又开端上升……只能暂时约束一下运转速度。咱们正在尽力处理……或许这便是关闭测验阶段的‘魅力’地点。”。
答复问题一般耗时15分钟 答案比大言语模型更全面但并非“无所不能”。
贝壳财经记者测验发现,依据使命难度的不同,Manus履行使命的时刻也不同,如对“规划采访提纲与视频采访脚本计划”等几项文字类使命,Manus的履行时刻约为15分钟至20分钟,而关于“规划金融科普互动产品”这项触及网页交互的使命,Manus耗时31分钟,终究成功制造出了一个可以进行互动的网页产品,尽管其间一些具体场景的画面仍未完结,处于“半制品”,但这现已逾越了大言语模型产品的才干规模。
Manus制造的金融科普互动产品,可以看到缺少图画,但下方试题现已可以与用户互动。
贝壳财经记者经过实测发现,Manus履行使命的时刻一般在15分钟左右,关于文字类的回复其履行相对轻松,并且能生成多个文档。如记者一起对DeepSeek和Manus提出“阅读B站抢手视频,估测或许爆火的科技新闻类选题,并规划案牍”这一使命时,DeepSeek考虑76秒后给出了答复,Manus则花费了超越15分钟,但比较DeepSeek给出了单一的文字答复,Manus一口气给出了包含“B站科技内容受众剖析”“B站抢手科技视频剖析”“潜在爆款论题剖析”“视频完好案牍”在内的四个文档,答复的内容愈加充沛。
当然,Manus也并非一个“无所不能”的AI帮手,如记者下达一个规划漫画作品的使命时,Manus只生成了文字结构和分镜规划,表明“作为AI帮手,我无法直接制作图画或创立视觉艺术作品”。一起,记者调查Manus的云端电脑发现,其在阅读网站时运用的是游客身份,当遇到一些需求登录才干阅读的内容,或许会员内容时,就会产生拜访失利的状况,因而比较人类网络用户,Manus遭到的约束更多,这也增加了它使命失利的概率。
田丰告知记者,“在需求精准信源的范畴,比方剖析特斯拉股价,Manus只能抓取雪球、搜狐等二手信息,却无法直接获取财报原文。这或许触及两方面问题:一是体系缺少优先抓取威望信源的逻辑规划,二是受限于网络拜访权限无法爬取一手数据。这种信息落差会对用户决议计划形成实质性误导。”。
此外,在简略使命的体现上,Manus在功率上无法和愈加笔直的产品比较,例如记者运用Manus耗时15分钟生成了一张PDF版别的“招聘启事”,而运用Kimi+的PPT生成功用,数分钟就生成了8页PPT招聘启事。
这或许便是为何Manus团队在产品爆火后给出了提示,称“咱们现在看到的Manus仍是一个襁褓中的小婴儿,离在正式版中想交给给咱们的体会还差很远。像模型错觉、交给物友好度、运转速度等方面都还有很大的提高空间。
外部重视度上升 Manus立异更多在产品层面而非模型层面。
另一方面,同为广受重视的AI产品,比较DeepSeek,Manus在初期“爆火”的传达途径上有所不同:DeepSeek是从国外科技社区先行火爆,之后再传回国内,而Manus则是由国内先行传达,特别是首个具体实测是从自媒体的大众号开端,加上Manus产品开创人肖弘自身曾推出过微伴帮手等企业微信营销运用,因而关于Manus爆火是依据“营销”的质疑一直不绝于耳。
但贝壳财经记者注意到,比较3月6日Manus初期火爆时外网渠道英文用户简直“无人问津”的态势,近几日英文用户对Manus的评论正开端逐步增多,如谷歌查找开创团队成员DeedyDas在3月9日发文称,“深度研讨+自动操作+电脑运用+心爱+回忆功用,Manus便是咱们所许诺应该有的AI Agent。”3月11日,贝壳财经记者发现X渠道上查找靠前的关于Manus的评论均为英文用户。
田丰告知贝壳财经记者,Manus作为产品的中心打破在于构建了使命调度引擎。具体来说有三个立异点:它可以将杂乱使命分解成明晰的子使命清单,比方完好展现调研过程的逻辑结构;它像增强版查找引擎,会自动抓取网页材料进行概括收拾,而不是被迫等候指令;它支撑实时检查使命进度条,若其支撑中段修正使命,理论上这种迭代机制能大幅提高功率。
在他看来,Manus现在短板也很显着,依据他3月10日的实测,Manus履行杂乱使命时超越40%会失利,“例如我要求剖析40个AI东西,体系需求在全流程中继续带着上下文,终究或许由于超出算力约束或服务器负载,使命溃散了。可以说,当时Manus更适合日子场景而非专业场景。”。
“坦率地说,现在用户可以测验的Manus产品更像是0.1内测版别,而并非1.0版别,所以该产品需求快速迭代,才不会消声匿迹。Manus展现了细粒度、敞开性的使命流、自动化引擎,尽管有些磕磕绊绊,但给了咱们很好的指向,一起这也是一款AI原生运用,由于只要经过多款大模型才干支撑东西流。”田丰说。
3月11日,有音讯称Manus渠道将与阿里通义千问团队达到战略协作,对此,阿里通义方面回复新京报贝壳财经记者称,“Manus和通义千问的确在进行开源模型方面的协作。咱们等待与更多全球AI立异者展开协作。”。
由此来看,Manus的立异更多在产品层面而非模型层面,多位观看Manus云电脑窗口的用户告知贝壳财经记者,看着Manus在窗口中“很尽力”地履行使命,“一会儿就理解了什么是AI Agent”。智灵动力CTO朱旭琪则在承受贝壳财经记者采访时表明,Manus把OpenAI曾展现过的“虚拟机”操作做出了比较好的交互性,可圈可点。
关于Manus所代表的AI Agent类产品在未来的展开,田丰以为,当时规模大的阻止是生态关闭。如当用户要求比价京东拼多多,Manus只能搜到新闻稿而拿不到实在产品数据,由于渠道屏蔽了查找引擎爬虫。处理途径有两个:一是经过生态洽谈敞开MCP接口,二是模仿人类操作接收用户账号完结动作。但两者都存在实际阻止——前者伤心大厂的“护城河”,后者则需求用户交出账号控制权存在信任危机。而一款AI Agent产品能否在这样的窘境中“突出重围”,还需求多重检测。
记者联络邮箱:luoyidanxjbnews.com。
新京报贝壳财经记者 罗亦丹。
修改 岳彩周。
校正 付春愔。