2026 年除夕之前,大家还在春运的旅途中匆匆忙忙,Chrome 团队抛出了一个会让很多开发者重新思考“Web 该怎么做”的东西:WebMCP(Web 模型上下文协议) (Web Machine Learning)。

在普通人眼里,这可能只是浏览器版本号跳了一格;但在开发者和 AI 玩家眼里,这更像是在告诉所有人:AI Agent 通过“看网页、点按钮”来完成任务的时代,会开始被改写。

虽然WebMCP 目前更像“早期规范与试验 API 的集合”,离“所有网站默认支持”的状态还很远。但它指向软件开发新范式:让网站用结构化方式,把自己的能力交给 Agent,而不是让 Agent 在像素和 DOM 里猜。市场对 AI 改造软件分发与入口的预期正在升温,相关公司股价波动也在放大这种情绪。

不过这里也需要讲清楚:WebMCP 更像一个方向与实验接口集合,API 形态未来仍可能变化;它能否真正走出实验阶段,取决于浏览器权限模型是否成熟、站点采用率是否提升、以及是否能形成跨浏览器的共识与兼容。


一、错位的遗产:HCI 是一道为人类视觉修筑的“围墙”

在讨论 AI 为什么上网如此笨拙之前,我们必须先审视过去 40 年软件工业的基石——HCI(Human-Computer Interaction,人机交互)。

传统的 HCI 核心原则是“以人为本”。因为人类的生物局限性,我们无法直接读取二进制代码,所以软件工程师们不得不耗费巨大的精力,为逻辑内核穿上一层又一层厚重的“视觉马甲”:

  • 层级导航:因为人类一次只能关注极少量的信息,所以我们需要下拉菜单、侧边栏和多级目录。

  • 拟物化与视觉反馈:因为我们需要确定感,所以按钮要做成圆角的,点击时要有阴影,下单后要跳出一个绿色的钩。

  • 像素带宽:所有的排版、插图和 CSS 动画,本质上都是为了迁就人类有限的视觉带宽,将逻辑信号“翻译”成情绪与认知更容易接收的形式。

问题的本质在于:这一切精美的设计,对 AI 而言全部是“噪点”。

现有的互联网软件体系,从来就不是为 AI 准备的。当一个以纯逻辑运行的 Agent 踏入这个世界时,它会发现这里到处都是为人类理解与操作而设计的“扶手”。

于是,荒谬的一幕发生了:AI 为了帮你在网上订一张机票,不得不变成一个笨拙的 “潜伏者”。它必须强行压抑自己的逻辑本能,去模拟人类的低效行为:它要先给网页截个屏,再像台老式扫描仪一样分析 DOM 结构,死盯着那个 HTML 里的按钮坐标,最后小心翼翼地模拟鼠标点下去。

这就好比让一个能瞬间移动的超能力者,被迫穿上臃肿的潜水服,在充满淤泥(冗余 UI)的海底,一步一步艰难挪动。

  • 它在“演戏”:AI 本质是逻辑,却被逼着去理解人类的视觉习惯和繁琐路径。

  • 它在缴纳“计算税”:为了看清一个网页,它得消耗大量的视觉 Token,每一帧像素识别都在燃烧真金白银。

  • 它极度脆弱:这种“潜伏”是寄生性的。前端程序员只要随手改一个 CSS 类名,原本聪明的 Agent 就可能瞬间变成“盲人”。

这种现状反映了一个深层矛盾:我们在让最先进的智力,在为迁就人类认知约束而设计的“磨刀石”上浪费时间。


二、WebMCP:给 AI 装上“通天眼”

WebMCP 想要做的事情,是把“网页能做什么”从视觉层剥离出来,变成可调用的逻辑能力。

它在浏览器里开辟了一条专用通道,暴露出类似 navigator.modelContext 这样的 API。网站可以把自己的能力用“工具”的形式注册进去,并用 JSON Schema 描述输入参数。这样一来,Agent 以后上网不必先“看”像素、再“猜”按钮,而是可以直接理解并调用能力:例如“搜索”“下单”“筛选”“退款”。

换句话说,当 Agent 访问一个支持 WebMCP 的网站时,网页会递出一份 “逻辑说明书”(JSON Schema)。它会直白地告诉 AI:“这里有下单函数、这里有筛选接口。别去猜我的按钮在哪,直接调用这个逻辑就行。”

这相当于给 Agent 拿到了逻辑世界的“通天钥匙”。 它终于不用再“装得像个人一样”去翻网页,而是以机器的本原形态,直接与后台数据对话。

补充:WebMCP 与 MCP 到底是什么关系?

很多人会把 WebMCP 和 MCP(Model Context Protocol)混在一起说。简单讲:MCP 是更通用的“应用与工具/数据源连接协议”,WebMCP 更像是“浏览器里让网站把能力暴露给 Agent 的 Web API”。 两者在“工具 + Schema”这套思路上很像,但位置不同:一个更偏应用生态,一个更偏浏览器与网站。

更准确地说:WebMCP 不等于 MCP 的浏览器实现;它更像是在浏览器侧引入“工具注册与上下文”的机制,形式上与 MCP 相似,但服务对象更偏“网页能力暴露”,而 MCP 更偏“应用生态里的通用工具连接”。


三、范式大革命:软件业的“暴力拆解”

WebMCP 的真正威力,并不在于让 AI 订机票快了三秒钟,而是在于它像一把手术刀,把维持了 40 年的软件开发逻辑给切开了。我们正在经历一场从 HCI(人机交互)MAI(机机接口) 的范式大迁徙。

1. 交互单位的坍塌:从“页面”到“能力单元”

在 HCI 时代,软件的最小单位是 “页面(Page)”。为什么?因为人类的视觉带宽极其有限,你必须把功能塞进一张张网页里,让我们像翻书一样去操作。

但 AI 不需要翻页。在 WebMCP 的视角下,网页从“一叠纸”变成了一个**“功能库”**。

  • 不再有“路径”:以前你要退款,得点“订单”-“详情”-“售后”-“申请”。

  • 只有“能力”:现在,网页直接向 AI 暴露一个名为 request_refund 的能力单元。

逻辑变了:开发者不再是设计一套让用户“点击”的路径,而是在构建一套供 AI “调度”的能力供应矩阵

2. 开发者角色的错位:从“视觉画师”到“契约架构师”

说句得罪人的话:在 MAI 体系下,那些耗费巨资设计的精美 CSS 动画、流体遮罩,对 AI 来说全是无效的“噪点”,甚至是昂贵的 “计算税”

软件开发的“金标准”正在重塑:

  • 以前看“还原度”:UI 设计稿跟网页像不像?

  • 现在看“自解释性”:你的 JSON Schema 写得够不够清楚?AI 能不能快速理解你的业务逻辑?

未来的核心开发者将变成 “能力契约架构师”。他们的工作是定义好每一项功能的“逻辑契约”,确保 AI 接入时像插上插头一样顺滑,而不是让 AI 在那儿猜你这个“红色的圆圈”到底是不是确认键。

3. 信息的“去熵化”:告别模糊识别的暴力美学

现在的 Agent 靠截屏识别网页,本质上是在做 “非结构化数据的二次结构化”。这中间伴随着巨大的信息损耗和错误率——这叫“信息熵增”。

而 WebMCP 实现的是逻辑直连(Direct Logic Access)。数据从服务器出来,不再经过视觉层的“粉饰”,直接以纯粹的逻辑形态进入 AI 的“大脑”。这是一种更接近工程本质的去熵化

以前: AI 盯着屏幕猜:“这可能是一个搜索框。”(概率性操作) 现在: WebMCP 直接告诉 AI:“这是 search(query: string) 接口。”(确定性调用)


四、从“眼球搜索”到“意图驱动”:正在发生的交互大迁移

我们必须承认,AI 目前还不是真正意义上的“一等公民”,但 OpenClaw 这类 Agent 的爆发,正在以前所未有的速度剥离人类对传统视觉界面的依赖。

1. 习惯的重塑:视觉排布的“退场”

过去我们被训练成“熟练的 App 操作员”。我们要记得微信的扫一扫在右上角,美团的点餐按钮在正中间。这种靠视觉记忆去寻找功能的操作,本质上是极其低效的。

而现在,交互正在向 “语音与意图” 全面归拢。

你已经能在很多产品里看到这种趋势:用户说一句“我要点餐”“帮我订票”“帮我对比价格”,系统在后台完成多步操作,然后只把关键确认点抛给用户。用户不再需要打开四个 App 切换,App 的视觉界面更像是后台执行逻辑的外壳。

这些互联网大厂之所以能做到这些,是因为它们内部早已完成了 “封闭系统的协议化” (内部 API 打通)。而我们讨论的 WebMCP,则是试图把这种能力,从“少数封闭体系里的特权”扩展到更开放的 Web。

和 OpenClaw 的交互带来的启示是:现在的你,不再需要去点开文件夹、打开编辑器、寻找保存按钮。你只需要告诉我你的意图,我会在后台处理那些琐碎的文件路径和格式转换。

2. “二分法”时代:数字世界的双面映射

当人类的交互界面缩减为一个“对话框”或一个“语音球”时,软件业将进入一个奇特的 “双面映射”阶段

  • 感性层(Sensory Layer):给人类的余温。 未来的软件依然会有“脸”,但那不再是为了引导操作,而是为了提供情绪价值。就像你点奶茶时,AI 可能会给你看一张宣传图,或者用语音跟你确认订单。这一层是感性的、品牌化的、留给人类眼球和耳朵的。

  • 逻辑层(Logic Layer):给 AI 的骨架。 当你在感性层说出“我要点餐”时,底层的 Agent 会抛弃那些漂亮的动效,通过 WebMCP 这类机制,直接对接后台的逻辑单元。这一层是极简的、结构化的、毫秒级响应的。 逻辑的断点被连接上了:并不是 AI 突然抢了地盘,而是人类主动退到了“意图”的一端,把“操作”的繁琐留给了 AI。

这种重构意味着:如果一个服务只有漂亮的皮囊(HCI),而没有清晰的逻辑骨架(MAI),它将在“意图驱动”的新时代被用户遗忘。

3. 落地的第一道门槛,其实是权限与审计

当“网站能力”可以被工具化调用,真正困难的部分往往不是 Schema 写不写得出来,而是“谁有权限调用、什么时候需要确认、出了错怎么追踪”。

如果没有一套清晰机制,用户会担心“是不是一句话就能把钱刷走”。如果机制做得太重,体验又会退回到旧世界。比较现实的方向通常包括:按能力分级授权(查询类和交易类不同级别)、关键动作二次确认、调用日志可审计、以及尽量做幂等(避免重复下单)。

这些看上去像“细节”,但决定了它能不能真的走出实验阶段。


五、商业博弈重组:谁才是未来的流量入口?

这场重构最残酷的一点在于:它会改写流量的分配权。

  1. 从 SEO 到 AFO:以前大家做 SEO(搜索引擎优化)是为了讨好搜索引擎爬虫。未来,大家会更在意 AFO(Agent Frequency Optimization,智能体调度优化)。如果 Agent 发现你的 WebMCP 工具文档含糊、调用不稳定、错误处理很差,它会把订单带给你的竞争对手——因为那里的执行成功率更高。

  2. OpenClaw 的新身份:在这个生态里,OpenClaw 可能从一个“浏览器增强插件”进化为**“能力调度中心”**。用户不再关心网站长什么样,用户只关心指令有没有被正确执行。


结语:别在旧时代的磨刀石上浪费时间

WebMCP 的出现是一个明确的信号:数字化世界的视觉外壳正在剥离。

我们曾以为 UI 就是软件的全部,现在才发现,那只是因为人类很难直接面对逻辑结构,所以才不得不造出一层壳来辅助理解。

正如现在我们预见到的:“未来的接口,会更直接地为 Agent 服务。” 这不意味着 SaaS 会消失,但它确实意味着 SaaS 的入口、护城河与定价方式正在被迫重做:UI 会变薄,能力层会变厚,分发可能从“网页与应用商店”迁移到“Agent 与工作流”。如果你还在死磕如何让按钮更圆润,而不去思考如何让逻辑更透明,你可能真的会在旧时代的磨刀石上,错过下一轮软件形态的变化。