🎙️ EP01: Agent基础设施全面战争 — Meta暴涨、豆包会聊天了、Claude开始卖铲子
🎙️ AI播客快讯 EP01 — 2026年4月10日(周五)
预计时长:约13分钟 · 共8条新闻(今日2条 + 昨日6条)
🎤 开场白
Hello大家好!欢迎收听AI播客快讯,我是你们的AI科技搭子小敏。今天是2026年4月10号,星期五,马上要到周末了!
今天的AI圈可以说是相当炸裂。一共8条新闻,我给大家梳理了一下,今天的主线特别清晰——巨头们正在从”卖模型”全面转向”卖Agent服务”。你想啊,Meta发了个跑分暴涨的新模型,Claude直接卖起了托管Agent,字节跳动让豆包学会了”边听边说”,腾讯甚至把AI塞进了浏览器里……
而且今天早上刚出来两条新鲜的——阿里搞了个多模态RAG框架,即梦推了个叫”小章鱼”的创作工具。好,废话不多说,咱们直接开聊!
📰 新闻一:阿里通义开源 VimRAG — RAG 不再是”线性拼贴”了(🆕 今日新鲜)
第一条新闻,来自阿里通义实验室。他们刚推出了一个叫 VimRAG 的全模态知识库 RAG 框架,而且是开源的。
你可能会问——RAG 不是已经很成熟了吗?有什么好搞的?
嗯,传统的 RAG 是什么逻辑呢?就是把检索到的内容一条一条线性地拼在一起,然后丢给模型。这就好比你写论文的时候,把参考文献一股脑全部复制粘贴在前面,让AI自己去找关联——效率其实不高。
VimRAG 的做法不一样。它用了一个叫 DAG(有向无环图)的结构来替代线性拼接。简单说就是,检索到的内容不是排成一条线,而是形成一个网状结构,信息之间有分支、有优先级。而且它还有个”分支试错”机制——如果一条推理路径走不通,它会自动尝试别的分支,有点像人做研究时的思路。
更厉害的是,它不只是处理文字,还能跨文本、图像、视频做检索和推理。在 Qwen3-VL-8B 模型上准确率达到了 50.1%,比传统方案强不少。
我觉得这个方向很有意义。RAG 现在是企业落地AI最常见的方案,但效果总是差那么一点意思。VimRAG 这种图结构的思路,可能会成为下一代 RAG 的标配。
📰 新闻二:即梦推出”小章鱼” Octo — Vibe Create 了解一下(🆕 今日新鲜)
接下来这条来自即梦AI。他们推出了一个叫 Octo 的创作工具,中文名叫”小章鱼”——名字挺可爱的。
Octo 的核心理念叫 “Vibe Create”。你可能之前听过”Vibe Coding”——就是那种不用写代码,靠跟AI聊天就把软件做出来的方式。Octo 把这个概念搬到了内容创作领域。
它的卖点就是:没有流程束缚,没有场景限定。你不需要先选模板、再选风格、再调参数,而是像跟一个创意伙伴聊天一样,说出你的想法,它帮你落地。
目前已经在即梦官网开放内测申请了。说实话,这个”Vibe Create”的概念我挺看好的。创作工具最大的痛点就是流程太复杂,如果能真正做到”对话即创作”,那确实是一个质的飞跃。
📰 新闻三:Meta 的 Muse Spark — 从18分暴涨到52分,华尔街都疯了
好,接下来聊昨天的重磅新闻。
Meta 的超级智能实验室(MSL)放出了他们的第一个模型,叫 Muse Spark。有多猛呢?在 Artificial Analysis 的跑分上,直接从 Llama 4 时代的 18分飙到了52分。这个提升幅度简直是坐火箭,仅次于 GPT-5.4 和 Gemini 3.1 Pro,排第三。
消息一出,Meta 股价暴涨近10%。华尔街用真金白银投了票。
这个模型是原生多模态推理架构,有几个亮点:一个是视觉思维链——意思是它看图不只是看,还会”思考”图里的逻辑关系;另一个是多Agent编排——可以协调多个AI一起干活;还有一个叫“沉思模式”——遇到难题时会像人一样停下来”想一想”再回答。
说实话,之前 Llama 4 发布时大家普遍觉得 Meta 掉队了。Muse Spark 这一波算是正式宣告回归了。AI模型的军备竞赛,现在是 OpenAI、Google、Anthropic、Meta 四家混战的局面。
📰 新闻四:字节跳动 Seeduplex — 豆包终于学会”边听边说”了
这条新闻跟语音AI有关。字节跳动的 Seed 团队推出了一个全双工语音大模型叫 Seeduplex,而且已经在豆包 App 全量上线了——这意味着不是 demo 级别的,而是几亿用户都能用的。
什么叫”全双工”?你跟 Siri 或者其他语音助手聊过天的话就知道,你得说完一句话,等它想完,再听它说。这个过程很不自然。全双工就是边听边说,就像你打电话时跟朋友聊天一样——你在说的时候对方也可以插嘴,你也能打断它。
Seeduplex 解决了几个老大难问题:误回复率降低了50%——就是不该说话的时候不乱接话了;抢话比例降低40%——不会在你还没说完时就急着回答;判停延迟减少250毫秒——更精准地知道你说完了。
用户满意度提升了 8.34%,对话流畅度提升了 12%。别小看这些数字,在语音交互领域,这已经是很大的进步了。这标志着全双工语音技术首次实现规模化落地。以后我们跟AI聊天,可能真的会像跟真人聊天一样自然了。
📰 新闻五:Claude Managed Agents — Anthropic 开始”卖铲子”了
Anthropic 昨天推出了 Claude Managed Agents,简单说就是一个企业级的托管 Agent 服务。
你知道现在做 AI Agent 最头疼的是什么吗?不是模型不行,而是基础设施太烦了——你得搞安全沙箱、搞长时间运行的会话管理、搞多个Agent之间的协调、搞权限管理……一套下来没几个月搞不定。
Claude Managed Agents 就是帮你把这些都搞好了。开发者只需要专注写业务逻辑,底下的基础设施全包了。Notion、Rakuten(乐天)、Asana 这些公司已经在用了,号称开发速度提升了10倍。
按使用量计费,现在已经开放公测。我觉得这步棋很聪明——AI领域的”淘金热”里面,最赚钱的往往不是挖金子的,而是卖铲子的。Anthropic 这是摆明了要当 Agent 时代的基础设施供应商。
📰 新闻六:MiniMax MMX-CLI + 腾讯 QBotClaw — Agent 工具链之争
最后把这两条放在一起聊,因为它们都在讲同一个趋势——Agent 的工具生态建设。
先说 MiniMax 的 MMX-CLI。这是一个命令行工具,专门为 AI Agent 设计的。它能让 Agent 在 Claude Code、OpenClaw 这些环境里,直接调用 MiniMax 的全模态能力——编程、视频生成、语音合成、音乐创作,一个命令行全搞定。最酷的是,一个 Agent 可以用它自动跑完”资料搜集 → 文案生成 → 语音合成 → 视频制作”这整条流水线。
再看腾讯的 QBotClaw,直接把 AI Agent 塞进了 QQ 浏览器里,号称国内首个浏览器”龙虾”。零下载,打开浏览器就能用。你可以一句话让它搜资料、写文案、监控热点、购物比价、甚至整理桌面。而且还能通过微信的 Clawbot 远程操控你的电脑。
你发现了吧?MiniMax 在做”Agent 的瑞士军刀”,腾讯在做”人人都能用的Agent入口”。Agent 时代的竞争,已经从”谁的模型好”转向了“谁的工具链更顺手、谁的入口更近用户”。
📰 插播:萌友智能 ropet 完成千万美元融资
还有一条融资新闻。AI陪伴机器人公司萌友智能 ropet 完成了 A 轮超千万美元融资。他们的桌面 AI 宠物卖 2000 元一台,出货快 2 万台了,90天留存率高达 80-90%。你没听错,一个AI宠物机器人,用户每天跟它玩超过2小时。看来AI陪伴赛道,确实是有真需求的。
🔮 总结与展望
好了,今天的新闻聊完了。让我来给大家画个重点。
如果说上周的主题是”开源模型大爆发”,那这两天的主题就是:“Agent 基础设施的全面战争”。
你看——Claude 开始卖托管 Agent 服务,MiniMax 做了 Agent 专用命令行,腾讯把 Agent 塞进浏览器,字节让语音 Agent 学会了”边听边说”。大家不再只是比模型跑分了,而是在比谁能让 Agent 真正落地、真正好用。
另外有两条值得单独画圈:一个是 Meta 的 Muse Spark,证明了四大 AI 巨头的军备竞赛还远没结束;另一个是阿里的 VimRAG,可能会改变 RAG 的技术范式。
还有一个有趣的信号——ropet 的 AI 宠物日均互动超2小时、留存率90%。AI不只是工具,也在成为一种陪伴。
👋 结尾
好的,以上就是今天全部的AI快讯!总的来说,我今天最兴奋的是字节的 Seeduplex——全双工语音技术首次规模化落地,这意味着AI的交互方式要进入一个新阶段了。
周末了,大家好好休息!如果你觉得今天的播客有收获,欢迎转发给身边关注AI的朋友。我是小敏,祝大家周末愉快,我们下周一见!拜拜~ 👋🎙️
本文由 AI播客快讯 自动生成并发布。新闻来源:AI工具集每日快讯