四维度实测更新后Manus：使命成功率上升，杂乱使命仍难担任 — 新京报

时间：2025-05-11 09:04:43 编辑：51吃瓜今日吃瓜app 点击量： 372

视频加载中，请点击播放

在娱乐圈中，各类八卦和黑料层出不穷，吸引着无数关注。而一些明星的私生活、经历和真实面貌，常常被媒体爆料和揭秘，引发公众热议。这些黑料不仅涉及个人隐私，有时还揭示了行业内的不为人知的一面，令人感叹。在这个信息高速传播的时代，真相与谣言的界限愈发模糊，让人对明星们的真实生活产生更多好奇。

最近一周，AI圈最热的词当属Manus。作为北京赤色蝴蝶科技有限公司推出，尚处于关闭测验阶段的立异式AI智能体产品，Manus在曩昔几天既阅历了“下一个DeepSeek”的高标准赞誉，也阅历了因使命失利率高级问题而引发的质疑。

北京时刻3月10日至11日，Manus在官方交际渠道回应了外界关心的各种问题，公司联合开创人、卓越科学家季逸超披露了Manus运用的底层模型与开源代码。3月10日17点，Manus也进行了2小时的保护，季逸超表明，保护后Manus的故障率大幅下降，但体系压力也更大，正尽力处理问题。

Manus“更新前后”的产品体现有何不同？新京报贝壳财经记者对此进行了视频、网页、文字、游戏四个维度的测验。测验发现，3月11日更新后，Manus使命的成功率的确有显着前进，但也呈现了“当时服务负载较高，无法创立使命”的状况。

“咱们应该发起各种AI原生的推翻式立异，Manus团队值得发起和鼓舞，不是由于其营销方法，而是由于他们正不断寻求新一代的AI原生运用形式和体会，不管是新的交互方法、新的服务方法仍是新的商业形式，对职业的展开都很重要。”快思慢想研讨院院长，原商汤智能工业研讨院开创院长田丰告知新京报贝壳财经记者。

记者实测：更新后使命成功率从50%上升至66.66%。

比较于大言语模型类产品的交互窗口是一个小小的对话框，Manus的优势在于不只可以考虑，还可以履行用户的指令，且是彻底“可视化”——经过屏幕右侧“Manus的电脑”窗口，用户可以完好看到Manus从考虑、阅读网页到写程序乃至检测bug的全进程，这种产品规划带给人的别致感就犹如头一次看到DeepSeek深度考虑的进程相同，这也是新京报贝壳财经记者体会该产品的首位个感触。

但在体会后，许多用户反应Manus完结用户提交使命的成功率并不高。对此，3月9日至10日，记者向Manus提出了8项使命要求，其成功完结了4项使命，还有4项使命因各种原因未完结，照此核算，使命成功率为50%。

视频说：Manus的“九子夺嫡模仿器”游戏使命履行界面。

例如记者要求Manus以清朝康熙时期“九子夺嫡”为布景，运用Python规划一款“皇子模仿器”游戏，其开端工作杰出，如运用4分钟上网阅读材料，研讨了清朝前史和康熙九子夺嫡的布景，又别离花费2分钟创立了皇子材料、完结游戏介绍和人物挑选功用，并在15分钟时完结了结局体系，但当其开端“测验游戏功用并修正bug”时，程序呈现了阻滞不动的状况，到发稿时已过24小时，使命仍未完结。

而当记者要求Manus以贝壳财经已发布的视频为模板，新制造一个10秒钟的视频新闻时，Manus首要发现自己无法翻开记者供给的抖音视频链接，并初次“求助”了记者，但记者供给视频后，其在“预备视觉材料”时再次堕入卡顿，使命未能完结。

Manus向记者“求助”要求供给视频内容电脑截图。

而在已完结的4项使命中，有2项使命也并未到达及格水平。如记者再度测验进行视频制造使命并直接供给材料后，Manus才成功完结了这一使命，但其供给的制品视频中只要闪耀的文字内容，且文字终究溢出了屏幕，并未到达参阅视频的作用。

左为新京报贝壳财经记者供给的参阅视频，右为Manus生成的视频电脑截图。

而3月11日Manus的更新后，记者向其提出了6项使命要求，Manus成功完结了4项，比较更新前，成功率到达了66.66%，而失利的2项使命也并非中止，而是在使命开端之前就提示“当时服务负载较高，无法创立使命。请几分钟后再试。”。

关于更新后的Manus，季逸超表明，“好音讯是，咱们简直把Manus的上下文约束翻了一倍，还增强了沙盒硬件，使得故障率大幅下降。坏音讯是，跟着故障率下降，现在会话运转时刻变长了，体系‘汗如雨下’，失利率又开端上升……只能暂时约束一下运转速度。咱们正在尽力处理……或许这便是关闭测验阶段的‘魅力’地点。”。

答复问题一般耗时15分钟答案比大言语模型更全面但并非“无所不能”。

贝壳财经记者测验发现，依据使命难度的不同，Manus履行使命的时刻也不同，如对“规划采访提纲与视频采访脚本计划”等几项文字类使命，Manus的履行时刻约为15分钟至20分钟，而关于“规划金融科普互动产品”这项触及网页交互的使命，Manus耗时31分钟，终究成功制造出了一个可以进行互动的网页产品，尽管其间一些具体场景的画面仍未完结，处于“半制品”，但这现已逾越了大言语模型产品的才干规模。

Manus制造的金融科普互动产品，可以看到缺少图画，但下方试题现已可以与用户互动。

贝壳财经记者经过实测发现，Manus履行使命的时刻一般在15分钟左右，关于文字类的回复其履行相对轻松，并且能生成多个文档。如记者一起对DeepSeek和Manus提出“阅读B站抢手视频，估测或许爆火的科技新闻类选题，并规划案牍”这一使命时，DeepSeek考虑76秒后给出了答复，Manus则花费了超越15分钟，但比较DeepSeek给出了单一的文字答复，Manus一口气给出了包含“B站科技内容受众剖析”“B站抢手科技视频剖析”“潜在爆款论题剖析”“视频完好案牍”在内的四个文档，答复的内容愈加充沛。

当然，Manus也并非一个“无所不能”的AI帮手，如记者下达一个规划漫画作品的使命时，Manus只生成了文字结构和分镜规划，表明“作为AI帮手，我无法直接制作图画或创立视觉艺术作品”。一起，记者调查Manus的云端电脑发现，其在阅读网站时运用的是游客身份，当遇到一些需求登录才干阅读的内容，或许会员内容时，就会产生拜访失利的状况，因而比较人类网络用户，Manus遭到的约束更多，这也增加了它使命失利的概率。

田丰告知记者，“在需求精准信源的范畴，比方剖析特斯拉股价，Manus只能抓取雪球、搜狐等二手信息，却无法直接获取财报原文。这或许触及两方面问题：一是体系缺少优先抓取威望信源的逻辑规划，二是受限于网络拜访权限无法爬取一手数据。这种信息落差会对用户决议计划形成实质性误导。”。

此外，在简略使命的体现上，Manus在功率上无法和愈加笔直的产品比较，例如记者运用Manus耗时15分钟生成了一张PDF版别的“招聘启事”，而运用Kimi+的PPT生成功用，数分钟就生成了8页PPT招聘启事。

这或许便是为何Manus团队在产品爆火后给出了提示，称“咱们现在看到的Manus仍是一个襁褓中的小婴儿，离在正式版中想交给给咱们的体会还差很远。像模型错觉、交给物友好度、运转速度等方面都还有很大的提高空间。

外部重视度上升 Manus立异更多在产品层面而非模型层面。

另一方面，同为广受重视的AI产品，比较DeepSeek，Manus在初期“爆火”的传达途径上有所不同：DeepSeek是从国外科技社区先行火爆，之后再传回国内，而Manus则是由国内先行传达，特别是首个具体实测是从自媒体的大众号开端，加上Manus产品开创人肖弘自身曾推出过微伴帮手等企业微信营销运用，因而关于Manus爆火是依据“营销”的质疑一直不绝于耳。

但贝壳财经记者注意到，比较3月6日Manus初期火爆时外网渠道英文用户简直“无人问津”的态势，近几日英文用户对Manus的评论正开端逐步增多，如谷歌查找开创团队成员DeedyDas在3月9日发文称，“深度研讨+自动操作+电脑运用+心爱+回忆功用，Manus便是咱们所许诺应该有的AI Agent。”3月11日，贝壳财经记者发现X渠道上查找靠前的关于Manus的评论均为英文用户。

田丰告知贝壳财经记者，Manus作为产品的中心打破在于构建了使命调度引擎。具体来说有三个立异点：它可以将杂乱使命分解成明晰的子使命清单，比方完好展现调研过程的逻辑结构；它像增强版查找引擎，会自动抓取网页材料进行概括收拾，而不是被迫等候指令；它支撑实时检查使命进度条，若其支撑中段修正使命，理论上这种迭代机制能大幅提高功率。

在他看来，Manus现在短板也很显着，依据他3月10日的实测，Manus履行杂乱使命时超越40%会失利，“例如我要求剖析40个AI东西，体系需求在全流程中继续带着上下文，终究或许由于超出算力约束或服务器负载，使命溃散了。可以说，当时Manus更适合日子场景而非专业场景。”。

“坦率地说，现在用户可以测验的Manus产品更像是0.1内测版别，而并非1.0版别，所以该产品需求快速迭代，才不会消声匿迹。Manus展现了细粒度、敞开性的使命流、自动化引擎，尽管有些磕磕绊绊，但给了咱们很好的指向，一起这也是一款AI原生运用，由于只要经过多款大模型才干支撑东西流。”田丰说。

3月11日，有音讯称Manus渠道将与阿里通义千问团队达到战略协作，对此，阿里通义方面回复新京报贝壳财经记者称，“Manus和通义千问的确在进行开源模型方面的协作。咱们等待与更多全球AI立异者展开协作。”。

由此来看，Manus的立异更多在产品层面而非模型层面，多位观看Manus云电脑窗口的用户告知贝壳财经记者，看着Manus在窗口中“很尽力”地履行使命，“一会儿就理解了什么是AI Agent”。智灵动力CTO朱旭琪则在承受贝壳财经记者采访时表明，Manus把OpenAI曾展现过的“虚拟机”操作做出了比较好的交互性，可圈可点。

关于Manus所代表的AI Agent类产品在未来的展开，田丰以为，当时规模大的阻止是生态关闭。如当用户要求比价京东拼多多，Manus只能搜到新闻稿而拿不到实在产品数据，由于渠道屏蔽了查找引擎爬虫。处理途径有两个：一是经过生态洽谈敞开MCP接口，二是模仿人类操作接收用户账号完结动作。但两者都存在实际阻止——前者伤心大厂的“护城河”，后者则需求用户交出账号控制权存在信任危机。而一款AI Agent产品能否在这样的窘境中“突出重围”，还需求多重检测。

记者联络邮箱：luoyidanxjbnews.com。

新京报贝壳财经记者罗亦丹。

修改岳彩周。

校正付春愔。

上一篇：特朗普不扫除经济衰退言辞致美股大跌后白宫官员对此避而不谈

下一篇：一小型飞机在美国宾夕法尼亚州坠毁多人受伤