AI助手会成为AI OS吗

原标题：AI助手会成为AI OS吗

导读：

聊聊克莱汤普森吧作为今年夏天的风云人物克莱最终选择以一份超低的价格加盟达拉斯独行侠毕竟是场均的得分手三分命中率下滑不少可依然能达到这样的球员薪水却不足万美元声明本文来自于微信公...

聊聊克莱-汤普森吧，作为今年夏天的风云人物，克莱最终选择以一份超低的价格，加盟达拉斯独行侠，毕竟是场均18+的得分手，三分命中率下滑不少，可依然能达到38.7%，这样的球员薪水却不足2000万美元，....

声明:本文来自于微信公众号窄播，作者:窄播，授权转载发布。

当我利用智谱刚刚推出的，打字告诉我的电脑:「在Edge浏览器上打开搜索，搜索并打开得到APP的主页」，并在二十多秒后看到这个页面被成功打开时，感觉就像一个刚开始学习编程的人，成功敲出了「Hello World」。

这种新体验的出现，正在加速的到来。的发展让人们能够在不同硬件上，通过自然语言完成复杂任务的执行。而这种体验的不断完善，是构建起一个具备执行能力的完全体的关键环节之一。拥有执行能力的Agent，才能真正发挥出AI作为人类助手的价值。

当下，越来越多的企业开始致力于新人机交互体验的开发和升级。智谱在升级AutoGLM能力的同时，推出了浏览器插件 AutoGLM-Web 和 GLM-PC，进一步拓展了使用场景。Anthropic的computer use同样处在阶段，并「将在未来几个月内迅速提高能力」。OpenAI和Google的类似产品也已经在开发过程中。

一方面，尽管在体验上还存在诸多不足，但代理执行能力已经成为大模型的又一种基础能力;另一方面，人机交互的未来只被掀开了一角，探索还在很早期，主要在利用大模型对原有的图形界面交互进行改良，让大模型看懂图形界面，代替人去完成机械性的重复操作。

从长远来看，在大模型具备并持续完善对话、推理、执行能力，且原生AI硬件快速发展的前提下，我们可以期待一场更加彻底的人机交互迭代。「图形界面+应用」的组合，很有可能会被「AI助手+Agents」的组合替代，AI助手会成为AI OS的化身。

使用工具是大模型的一次迭代

目前，人们能有机会体验到智谱和Anthropic两家的代理执行产品。其中，Anthropic是通过API让Claude能够像人一样操作电脑，实现看屏幕、打字、移动光标等操作。智谱则通过基于 Agent 技术的 AutoGLM 和 GLM-PC 两款产品，去看懂和理解 OS 系统的操作界面，不管是手机、电脑还是 Web。

从真实的使用体验来看，智谱的产品能够帮用户完成一些回复微信消息、在微信内搜索文章等任务，并具备一定的容错率。即便我把回复对象的名字「乓乒」错输成了「乒乒」，它还是能够准确找到人。但在让AutoGLM帮我打开虎嗅的微信公众号搜索AI相关内容时，它的语音把虎嗅识别成了胡秀和互秀，需要人工介入进行调整。

AutoGLM执行复杂任务的能力还有一定的局限性。我们可以让它跨外卖应用进行比价，但让它帮助总结微信搜索结果中各条内容的概要时，它只总结了条的。此外，这类产品的操作等待时间比较长，且需要用户输入精准的描述，如果将关闭标签页输入成关闭主页，也无确完成操作。

即便能力和体验都还有很大的提升空间，智谱和Anthropic的尝试也给行业指出了一条新的突破方向，让AI具备了进入Agentic AI阶段的可能。在OpenAI和智谱对AI的发展阶段划分中，使用工具的能力都被视为AI第三阶段的标志。

OpenAI认为，人工智能的五个阶段是:可以与人类对话的聊天机器人;可在问题上与人类并驾齐驱的推论者;可采取行动的AI系统;能够帮助发明的创新者以及可完成组织任务的组织者。智谱对五个阶段的划分则包括:语言能力（多模态能力）、逻辑能力、使用工具的能力、自我学习能力、探究科学规律。

OpenAI和智谱的五个阶段划分虽然有所不同，但参考人的成长阶段，都能被分成掌握基础技能和实现社会化学习两个部分。前者是让AI像幼儿一样，具备了对话、推理和使用工具的能力;后者则是让AI进入到上学和工作的阶段，开始学习更复杂的知识，并承担更复杂的社会化协作。

在智谱CEO张鹏看来，智谱的AI目前在语言能力上已经达到了人类80%甚至90%的水平，在推理能力上也具备了人类60%的水平（尽管复杂推理能力只有30%）。但是在行动能力或工具使用能力上，仅具备了人30%至40%的能力，有能力去理解图形化界面，规划和完成复杂任务，却不能保证更好的效果和更广泛的适用性。

让AI具备使用工具的能力是完成基础技能养成的标志。这意味着，AI能够在不断完善对话、推理和行动三项能力的基础上，去开发更实用的功能，更多实际问题，并且开始对现实世界的发展进程产生更深刻地影响。其中，最为显著的改变就是推开了一个人机交互新时代的大门。

能力提升带来人机交互新可能

从命令行界面到键盘鼠标，再到触控，工程师们一直在寻找人与机器进行交互的更好方式，不断缩短输入命令到执行，再到输出结果的路径。但如张鹏所说:「用户至今仍需要花费大量的时间去学习形形的软件的操作，在操作界面跨多个应用来完成复杂的工作流。这中间其实有大量的、重复性的、机械性的人机的交互。」

具备对话、推理、执行能力的大模型，让人不再需要迁就机器，而是让机器开始有能力去理解人的需求，代替人完成复杂任务，用户只需要清楚说出自己的意图即可。

以购物场景为例，在图形界面下，用户要买一袋洗衣液，需要完成打开购物软件、搜索洗衣液、比较价格和功能、填写收货地址、付款等动作，这些动作共同拼凑出了「我要买袋什么样的洗衣液」这个完整的需求。未来用户直接告诉大模型「我要买袋什么样的洗衣液」，大模型就会负责完成整个购买流程。

这是一次基础交互逻辑的变化，更符合人类使用自然语言进行交互的习惯。在这种交互逻辑下，将AI助手带向大众的Si 的创始团队提出过改变人类未来的三个要素:虚拟助理、AI机器人助理和AR。虚拟助理帮助处理信息世界中的事物，AI机器人助理处理现实世界中的事务，AR负责打通虚拟与现实两个世界。

在大模型的语境下，AR更像是一种内容显示方式，真正打通虚拟与现实两个世界的是拥有多模态能力的Agent。它不但可以听懂人类的命令，根据命令拆分出指令序列，还具备调动APP和硬件的功能，协同完成任务的能力。

就像我们已经看到的外价、一句话点外卖、远程操控电脑执行任务等操作，Agent已经能够在一定程度上代替人去连接和调用不同的应用。就像张鹏所说，AutoGLM在用户和众多的应用APP之间添一个APP执行的调度层。

在未来，Agent未尝不能直接连接扫地机器人、电饭煲、新风机，实现对硬件能力的调用。从人操控硬件，到人通过Agent去管理和操控硬件的过程中，能够实现软硬件能力的更灵活解藕与组合。这可能意味着，人正在通过Agent实现与世界的自然语言交互。

走向AI OS的过渡阶段

当下，如果大胆假设，大模型或者其具像化的AI助手，很可能成为用自然语言驱动世界的新OS。只是，目前的尝试还停留在对图形界面交互进行改良的阶段。

一方面，Agent展示出了绕过传统的API接口模式，实现对APP的调用和操控的能力。但是，其完成任务执行所依赖的还是图形界面的窗口、图标、菜单、指针形成的操作路径，通过结构化的操作拼接出完整的用户意图。这很可能是一个人机交互的过渡阶段。

另一方面，就像很多人认为的那样，未来的AI OS大概率会是一个基于自然语言和Agent实现交互的底层系统。荣耀在智谱活动上分享了其认为手机上的AI OS需要具备三个特征:基于大模型驱动的AI内核;智能体驱动的AI交互;开放服务构建的AI生态。但目前并没有形成一个完善的智能体生态。

相较于APP，这个生态会更匹配由AI助手调用分子化软硬件能力的预期。未来随着智能体生态的不断壮大，会出现与之适配的原生AI OS，实现软硬件体验的「自动驾驶」体验。当然，这需要Agent能力实现进一步拓展。

首先，实现更广泛的连接是AI OS的基础。Agent需要有更多跨的能力，做到无处不在。无论是在智能手机内实现跨应用的任务执行，还是在手机、PC、AI硬件上实现不同硬件端的打通，都是Agent跨能力的体现。

未来具备更强跨能力的Agent，更有希望成为系统级的AI助手。正因如此，张鹏在OpenDay上着重强调「跨App」的升级，并定义这是Agent生态里面关键的一步。

从目前的实践来看，智谱、Anthropic、手机厂商的实践都更多是在拓展某一硬件端内的跨应用执行能力。这是一个比较现实且急迫的需求。就像前Android工程副总裁Singleton所说:「我们可以看到AI Agent的前景，但作为开发人员，构建任何好东西都太难了。」人们需要能够绕开应用墙的AI体验构建框架。

但是，在不同硬件端的打通上，还并没有更大的突破和进展。但参照智能手机时代小米与华为在设备连接上的不同进化路径，可以看到越早从系统底层进行打通，就能积累起越来越多的后期红利。尽管智谱在这次OpenDay上展示了在手机端、PC端和WEB端的能力，但不同端的Agent还没有在这些产品中实现打通。

其次，Agent能力的拓展，还需要与原生AI硬件的创新相结合。「往往其实硬件跟软件是一个互相塑造，互相定义的事情。我们看到了互联网时代，互联网定义了iPhone，iPhone又创造了全新的软件生态。我们也看到今天大模型正在试图定义硬件，而这些硬件的成熟一定也会给我们带来重新被定义的软件生态。」智谱COO张帆表示。

智谱发布了一个描绘未来人机交互场景的概念短片。在短片中，人能够通过自然语言在不同场景中与不同硬件实现交互，满足自己的不同需求。这需要诸如AI耳机、AI PC、AI宠物等更多AI原生硬件的支撑，当然也需要 Agent 能力将它们无缝地衔接起来，它们将是整个软硬件融合大系统的一部分。

在已经被揭开的未来的一角中，我们看到了从Agent到AI助手，再到AI OS的可能。就像张鹏所说:「Agent可以看作是大模型通用操作系统LLM-OS的雏形，未来有可能实现原生的人机交互。」

标签：能力交互 Agent