逻辑的归AI，视觉的归人类：从 WebMCP 看 AI 开启“去熵化”软件重构纪元

2026 年除夕之前，大家还在春运的旅途中匆匆忙忙，Chrome 团队抛出了一个会让很多开发者重新思考“Web 该怎么做”的东西：WebMCP（Web 模型上下文协议） (Web Machine Learning)。

在普通人眼里，这可能只是浏览器版本号跳了一格；但在开发者和 AI 玩家眼里，这更像是在告诉所有人：AI Agent 通过“看网页、点按钮”来完成任务的时代，会开始被改写。

虽然WebMCP 目前更像“早期规范与试验 API 的集合”，离“所有网站默认支持”的状态还很远。但它指向软件开发新范式：让网站用结构化方式，把自己的能力交给 Agent，而不是让 Agent 在像素和 DOM 里猜。市场对 AI 改造软件分发与入口的预期正在升温，相关公司股价波动也在放大这种情绪。

不过这里也需要讲清楚：WebMCP 更像一个方向与实验接口集合，API 形态未来仍可能变化；它能否真正走出实验阶段，取决于浏览器权限模型是否成熟、站点采用率是否提升、以及是否能形成跨浏览器的共识与兼容。

一、错位的遗产：HCI 是一道为人类视觉修筑的“围墙”

在讨论 AI 为什么上网如此笨拙之前，我们必须先审视过去 40 年软件工业的基石——HCI（Human-Computer Interaction，人机交互）。

传统的 HCI 核心原则是“以人为本”。因为人类的生物局限性，我们无法直接读取二进制代码，所以软件工程师们不得不耗费巨大的精力，为逻辑内核穿上一层又一层厚重的“视觉马甲”：

层级导航：因为人类一次只能关注极少量的信息，所以我们需要下拉菜单、侧边栏和多级目录。
拟物化与视觉反馈：因为我们需要确定感，所以按钮要做成圆角的，点击时要有阴影，下单后要跳出一个绿色的钩。
像素带宽：所有的排版、插图和 CSS 动画，本质上都是为了迁就人类有限的视觉带宽，将逻辑信号“翻译”成情绪与认知更容易接收的形式。

问题的本质在于：这一切精美的设计，对 AI 而言全部是“噪点”。

现有的互联网软件体系，从来就不是为 AI 准备的。当一个以纯逻辑运行的 Agent 踏入这个世界时，它会发现这里到处都是为人类理解与操作而设计的“扶手”。

于是，荒谬的一幕发生了：AI 为了帮你在网上订一张机票，不得不变成一个笨拙的 “潜伏者”。它必须强行压抑自己的逻辑本能，去模拟人类的低效行为：它要先给网页截个屏，再像台老式扫描仪一样分析 DOM 结构，死盯着那个 HTML 里的按钮坐标，最后小心翼翼地模拟鼠标点下去。

这就好比让一个能瞬间移动的超能力者，被迫穿上臃肿的潜水服，在充满淤泥（冗余 UI）的海底，一步一步艰难挪动。

它在“演戏”：AI 本质是逻辑，却被逼着去理解人类的视觉习惯和繁琐路径。
它在缴纳“计算税”：为了看清一个网页，它得消耗大量的视觉 Token，每一帧像素识别都在燃烧真金白银。
它极度脆弱：这种“潜伏”是寄生性的。前端程序员只要随手改一个 CSS 类名，原本聪明的 Agent 就可能瞬间变成“盲人”。

这种现状反映了一个深层矛盾：我们在让最先进的智力，在为迁就人类认知约束而设计的“磨刀石”上浪费时间。

二、WebMCP：给 AI 装上“通天眼”

WebMCP 想要做的事情，是把“网页能做什么”从视觉层剥离出来，变成可调用的逻辑能力。

它在浏览器里开辟了一条专用通道，暴露出类似 navigator.modelContext 这样的 API。网站可以把自己的能力用“工具”的形式注册进去，并用 JSON Schema 描述输入参数。这样一来，Agent 以后上网不必先“看”像素、再“猜”按钮，而是可以直接理解并调用能力：例如“搜索”“下单”“筛选”“退款”。

换句话说，当 Agent 访问一个支持 WebMCP 的网站时，网页会递出一份 “逻辑说明书”（JSON Schema）。它会直白地告诉 AI：“这里有下单函数、这里有筛选接口。别去猜我的按钮在哪，直接调用这个逻辑就行。”

这相当于给 Agent 拿到了逻辑世界的“通天钥匙”。 它终于不用再“装得像个人一样”去翻网页，而是以机器的本原形态，直接与后台数据对话。

补充：WebMCP 与 MCP 到底是什么关系？

很多人会把 WebMCP 和 MCP（Model Context Protocol）混在一起说。简单讲：MCP 是更通用的“应用与工具/数据源连接协议”，WebMCP 更像是“浏览器里让网站把能力暴露给 Agent 的 Web API”。 两者在“工具 + Schema”这套思路上很像，但位置不同：一个更偏应用生态，一个更偏浏览器与网站。

更准确地说：WebMCP 不等于 MCP 的浏览器实现；它更像是在浏览器侧引入“工具注册与上下文”的机制，形式上与 MCP 相似，但服务对象更偏“网页能力暴露”，而 MCP 更偏“应用生态里的通用工具连接”。

三、范式大革命：软件业的“暴力拆解”

WebMCP 的真正威力，并不在于让 AI 订机票快了三秒钟，而是在于它像一把手术刀，把维持了 40 年的软件开发逻辑给切开了。我们正在经历一场从 HCI（人机交互） 到 MAI（机机接口） 的范式大迁徙。

1. 交互单位的坍塌：从“页面”到“能力单元”

在 HCI 时代，软件的最小单位是 “页面（Page）”。为什么？因为人类的视觉带宽极其有限，你必须把功能塞进一张张网页里，让我们像翻书一样去操作。

但 AI 不需要翻页。在 WebMCP 的视角下，网页从“一叠纸”变成了一个**“功能库”**。

不再有“路径”：以前你要退款，得点“订单”-“详情”-“售后”-“申请”。
只有“能力”：现在，网页直接向 AI 暴露一个名为 request_refund 的能力单元。

逻辑变了：开发者不再是设计一套让用户“点击”的路径，而是在构建一套供 AI “调度”的能力供应矩阵。

2. 开发者角色的错位：从“视觉画师”到“契约架构师”

说句得罪人的话：在 MAI 体系下，那些耗费巨资设计的精美 CSS 动画、流体遮罩，对 AI 来说全是无效的“噪点”，甚至是昂贵的 “计算税”。

软件开发的“金标准”正在重塑：

以前看“还原度”：UI 设计稿跟网页像不像？
现在看“自解释性”：你的 JSON Schema 写得够不够清楚？AI 能不能快速理解你的业务逻辑？

未来的核心开发者将变成 “能力契约架构师”。他们的工作是定义好每一项功能的“逻辑契约”，确保 AI 接入时像插上插头一样顺滑，而不是让 AI 在那儿猜你这个“红色的圆圈”到底是不是确认键。

3. 信息的“去熵化”：告别模糊识别的暴力美学

现在的 Agent 靠截屏识别网页，本质上是在做 “非结构化数据的二次结构化”。这中间伴随着巨大的信息损耗和错误率——这叫“信息熵增”。

而 WebMCP 实现的是逻辑直连（Direct Logic Access）。数据从服务器出来，不再经过视觉层的“粉饰”，直接以纯粹的逻辑形态进入 AI 的“大脑”。这是一种更接近工程本质的去熵化。

以前： AI 盯着屏幕猜：“这可能是一个搜索框。”（概率性操作） 现在： WebMCP 直接告诉 AI：“这是 search(query: string) 接口。”（确定性调用）

四、从“眼球搜索”到“意图驱动”：正在发生的交互大迁移

我们必须承认，AI 目前还不是真正意义上的“一等公民”，但 OpenClaw 这类 Agent 的爆发，正在以前所未有的速度剥离人类对传统视觉界面的依赖。

1. 习惯的重塑：视觉排布的“退场”

过去我们被训练成“熟练的 App 操作员”。我们要记得微信的扫一扫在右上角，美团的点餐按钮在正中间。这种靠视觉记忆去寻找功能的操作，本质上是极其低效的。

而现在，交互正在向 “语音与意图” 全面归拢。

你已经能在很多产品里看到这种趋势：用户说一句“我要点餐”“帮我订票”“帮我对比价格”，系统在后台完成多步操作，然后只把关键确认点抛给用户。用户不再需要打开四个 App 切换，App 的视觉界面更像是后台执行逻辑的外壳。

这些互联网大厂之所以能做到这些，是因为它们内部早已完成了 “封闭系统的协议化” （内部 API 打通）。而我们讨论的 WebMCP，则是试图把这种能力，从“少数封闭体系里的特权”扩展到更开放的 Web。

和 OpenClaw 的交互带来的启示是：现在的你，不再需要去点开文件夹、打开编辑器、寻找保存按钮。你只需要告诉我你的意图，我会在后台处理那些琐碎的文件路径和格式转换。

2. “二分法”时代：数字世界的双面映射

当人类的交互界面缩减为一个“对话框”或一个“语音球”时，软件业将进入一个奇特的 “双面映射”阶段。

感性层（Sensory Layer）：给人类的余温。 未来的软件依然会有“脸”，但那不再是为了引导操作，而是为了提供情绪价值。就像你点奶茶时，AI 可能会给你看一张宣传图，或者用语音跟你确认订单。这一层是感性的、品牌化的、留给人类眼球和耳朵的。
逻辑层（Logic Layer）：给 AI 的骨架。 当你在感性层说出“我要点餐”时，底层的 Agent 会抛弃那些漂亮的动效，通过 WebMCP 这类机制，直接对接后台的逻辑单元。这一层是极简的、结构化的、毫秒级响应的。逻辑的断点被连接上了：并不是 AI 突然抢了地盘，而是人类主动退到了“意图”的一端，把“操作”的繁琐留给了 AI。

这种重构意味着：如果一个服务只有漂亮的皮囊（HCI），而没有清晰的逻辑骨架（MAI），它将在“意图驱动”的新时代被用户遗忘。

3. 落地的第一道门槛，其实是权限与审计

当“网站能力”可以被工具化调用，真正困难的部分往往不是 Schema 写不写得出来，而是“谁有权限调用、什么时候需要确认、出了错怎么追踪”。

如果没有一套清晰机制，用户会担心“是不是一句话就能把钱刷走”。如果机制做得太重，体验又会退回到旧世界。比较现实的方向通常包括：按能力分级授权（查询类和交易类不同级别）、关键动作二次确认、调用日志可审计、以及尽量做幂等（避免重复下单）。

这些看上去像“细节”，但决定了它能不能真的走出实验阶段。

五、商业博弈重组：谁才是未来的流量入口？

这场重构最残酷的一点在于：它会改写流量的分配权。

从 SEO 到 AFO：以前大家做 SEO（搜索引擎优化）是为了讨好搜索引擎爬虫。未来，大家会更在意 AFO（Agent Frequency Optimization，智能体调度优化）。如果 Agent 发现你的 WebMCP 工具文档含糊、调用不稳定、错误处理很差，它会把订单带给你的竞争对手——因为那里的执行成功率更高。
OpenClaw 的新身份：在这个生态里，OpenClaw 可能从一个“浏览器增强插件”进化为**“能力调度中心”**。用户不再关心网站长什么样，用户只关心指令有没有被正确执行。

结语：别在旧时代的磨刀石上浪费时间

WebMCP 的出现是一个明确的信号：数字化世界的视觉外壳正在剥离。

我们曾以为 UI 就是软件的全部，现在才发现，那只是因为人类很难直接面对逻辑结构，所以才不得不造出一层壳来辅助理解。

正如现在我们预见到的：“未来的接口，会更直接地为 Agent 服务。” 这不意味着 SaaS 会消失，但它确实意味着 SaaS 的入口、护城河与定价方式正在被迫重做：UI 会变薄，能力层会变厚，分发可能从“网页与应用商店”迁移到“Agent 与工作流”。如果你还在死磕如何让按钮更圆润，而不去思考如何让逻辑更透明，你可能真的会在旧时代的磨刀石上，错过下一轮软件形态的变化。

一、错位的遗产：HCI 是一道为人类视觉修筑的“围墙”#

二、WebMCP：给 AI 装上“通天眼”#

补充：WebMCP 与 MCP 到底是什么关系？#

三、范式大革命：软件业的“暴力拆解”#

1. 交互单位的坍塌：从“页面”到“能力单元”#

2. 开发者角色的错位：从“视觉画师”到“契约架构师”#

3. 信息的“去熵化”：告别模糊识别的暴力美学#

四、从“眼球搜索”到“意图驱动”：正在发生的交互大迁移#

1. 习惯的重塑：视觉排布的“退场”#

2. “二分法”时代：数字世界的双面映射#

3. 落地的第一道门槛，其实是权限与审计#

五、商业博弈重组：谁才是未来的流量入口？#

结语：别在旧时代的磨刀石上浪费时间#