AI Agent 时代,基础设施会怎么变?
最近一直在想几个问题:AI 时代下基础设施会怎么演变?当 AI Coding 越来越强,基础设施的核心竞争力到底是什么?下一代基础设施应该长什么样?
我想尽量抛开自己在做的事,从第一性原理出发,去思考整个基础设施领域的发展方向和未来。不是从某个产品出发往上推,而是从顶层往下看——AI 应用的运行模式变了,底层基础设施必然要跟着变,那它会怎么变?
以下是近期的一些思考。不一定对,也不是最终结论,只是当下这个阶段的理解。每个点后续都会继续展开和修正。保持思考,比得出结论更重要。
一个基本认知框架
基础设施不是凭空被创造出来的,它是被上层应用的需求塑造的。
互联网时代,几百万用户同时访问一个网站,传统数据库扛不住,于是有了 Redis 做缓存、Nginx 做负载均衡。移动互联网时代,后端从一个大系统拆成几百个微服务,服务之间需要异步通信,于是有了 Kafka。云计算时代,应用要随时扩缩容,于是有了 Kubernetes 和 Docker。
每一次都是同一个逻辑:上层应用的模式变了 → 现有基础设施出现不适配 → 新的基础设施被创造出来。
所以要推演 AI 时代的基础设施,核心问题是:AI 应用(特别是 Agent)的运行模式,跟传统应用有什么根本性的不同?
我根据我的理解,整理了七个可能的变化,每一个都有可能重塑底层基础设施的形态。
从"一问一答"到"持续活着"
传统软件的运行模式是"请求-响应"。用户点一个按钮,服务器处理一下,返回结果,结束。整个过程可能只有几百毫秒。服务器不需要记住你,下一次请求来了重新开始。
AI Agent 不是这样。Agent 是"活着的"——它被创建之后,会持续运行。它在后台观察环境、收集信息、思考策略、执行动作、等待反馈、再调整策略。这个过程可能持续几分钟、几小时、甚至几天。
打个比方:传统软件像餐厅服务员,你点菜它上菜,上完就去服务下一桌。AI Agent 像你的私人助理,它一直在你身边,随时观察你的状态,主动帮你处理事情。
这对基础设施意味着什么?
现有的计算架构假设任务是短暂的。Serverless 函数执行几秒钟就结束,K8s 的 Pod 处理完请求就可以释放。但 Agent 是长时间运行的,而且它的资源消耗极不均匀——思考的时候需要 GPU,等待反馈的时候几乎不用资源,收到新信息后又突然需要大量计算。
计费模式也不适配。按请求次数计费?Agent 一直在运行,没有明确的"请求"。按时间计费?Agent 大部分时间在等待,客户不该为等待付费。按资源消耗计费?消耗波动太大,客户预算没法做。
未来需要一种新的计算层: 能让 Agent"挂起"(不占资源但保持状态)和"唤醒"(瞬间恢复执行),在两种状态之间无缝切换。这有点像手机 App 的后台管理——不用的时候冻结,需要的时候立刻恢复。但现在的云计算没有为这种模式设计过。未来会出现专门为 Agent 设计的"Agent Runtime"——一个让 Agent 高效运行、挂起、唤醒、迁移的底层平台。
从"固定管道"到"动态网络"
传统软件的数据流向是架构师提前设计好的。用户请求 → API 网关 → 服务 A → 服务 B → 数据库,这条链路在部署之前就确定了,运行时不会变。
AI Agent 时代,数据流向是动态的。一个 Agent 在执行任务的过程中,可能临时决定调用另一个 Agent,那个 Agent 又调用了第三个。这个调用关系不是提前设计的,是 Agent 在运行时根据需要自己决定的。
打个比方:传统软件像工厂的流水线,每个零件走固定的路线。AI Agent 像一个公司里的员工,今天跟 A 部门合作,明天跟 B 部门开会,后天临时拉了个跨部门项目组。谁跟谁合作、怎么合作,是实时决定的。
这对基础设施意味着什么?
现有的消息中间件(Kafka、RabbitMQ)假设 topic 和订阅关系是预先定义好的。你要先创建 topic,配置好谁生产、谁消费。但 Agent 之间的通信是动态建立的——两个 Agent 今天需要协作,明天就不需要了。如果每次协作都要手动创建 topic、配置订阅关系,根本跟不上 Agent 的节奏。
服务发现也是同样的问题。现有的服务注册中心假设服务是相对固定的。但 Agent 是动态创建和销毁的,一个复杂任务可能临时创建十个 Agent,任务完成后全部销毁。现有的服务发现机制处理不了这种频繁的注册和注销。
未来需要的是: 一种支持动态拓扑的通信基础设施——Agent 可以随时建立通信频道、随时加入或离开、消息能可靠送达,而且整个过程不需要人工配置。
从"存数据"到"存知识"
传统应用存储的是结构化数据——用户表、订单表、日志文件。数据的含义是由应用代码赋予的,数据库本身不理解数据的语义。你存了一行 {"name": "张三", "age": 30},数据库只知道这是一个字符串和一个数字,不知道张三是谁、30 岁意味着什么。
AI 系统需要存储的是"知识"——不只是原始数据,还包括数据的含义、数据之间的关系、数据的上下文。Agent 在做决策的时候,不是查一行数据,而是需要理解"这个用户最近的行为模式是什么"、"这个事件跟之前哪些事件相关"、"这条信息的可信度有多高"。
打个比方:传统数据库像图书馆的书架,按分类号排列,你知道书在哪就能找到。AI 需要的是一个能理解内容的图书管理员——你问"有没有关于 19 世纪法国经济危机对文学影响的资料",它能帮你从不同书架上找到相关的书,而且知道哪些更相关、哪些更权威。
这对基础设施意味着什么?
现在的存储技术是碎片化的——结构化数据放 MySQL,文档放 MongoDB,搜索放 ES,向量放 Pinecone,图关系放 Neo4j。每种数据用不同的系统存,查询时要跨多个系统拼凑。
AI 应用需要的是统一的"知识层"——数据存进去的时候,系统自动理解它的语义、建立向量索引、关联相关数据、标注上下文。查询的时候,不是用精确的 SQL 条件匹配,而是用语义查询——"找到跟这个主题相关的所有信息,按相关性排序"。
现在的向量数据库是这个方向的第一步,但太初级了。未来的"知识存储"需要: 语义索引(理解数据含义)、关系推理(理解数据之间的关联)、时序感知(理解数据的时效性)、可信度评估(理解数据的可靠程度)。这是一个全新的存储品类,目前还没有成熟的产品。
从"看指标"到"看因果"
传统的可观测性是看数字——CPU 使用率 80%,请求延迟 200ms,错误率 0.1%。这些指标告诉你"系统的状态是什么",但不告诉你"为什么是这个状态"。经验丰富的 SRE 能从指标推断原因,但这个推断过程在人脑里,不在工具里。
AI 系统的可观测性问题完全不同。Agent 做了一个决策——比如拒绝了一笔交易、推荐了一个商品、发送了一封邮件。你需要知道的不是"CPU 多少",而是:它为什么做了这个决策?它参考了哪些数据?它的推理过程是什么?如果给它不同的数据,它会做不同的决定吗?
打个比方:传统可观测性像汽车仪表盘——速度多少、油量多少、温度多少,你看到数字就知道状态。AI 系统需要的是行车记录仪加黑匣子——不只记录结果,还要记录整个决策过程,事后可以回放和分析。
这对基础设施意味着什么?
现有的监控工具(Prometheus、Grafana、Datadog)都是围绕"指标"设计的——采集数值、画图表、设阈值、触发告警。但 Agent 的决策过程不是一个数值,而是一个复杂的推理链:输入是什么 → 调用了哪些工具 → 得到了什么中间结果 → 最终推理出了什么结论 → 执行了什么动作。
这个推理链需要被完整记录、可检索、可回放、可分析。而且不是事后分析就够了——在 Agent 执行过程中,可能需要实时监控它的推理是否偏离了预期,偏离了要能及时干预。
这催生了一个全新的品类:Agent 可观测性。 需要推理链的可视化、决策的归因分析、异常推理的自动检测、跨 Agent 的因果追踪(Agent A 的输出导致了 Agent B 的错误决策)。这个品类的市场可能不比 Datadog 小——因为每家用 AI 的公司都需要理解和审计 AI 的行为,尤其是在金融、医疗、法律这些高监管行业。
从"防外人"到"管自己人"
传统的安全模型很简单:信任内部,防御外部。防火墙把公司网络和外部隔开,内部的服务默认互相信任。即使有了零信任架构,核心还是"验证身份,然后授权"——你是谁?你有没有权限访问这个资源?
AI Agent 带来了一个全新的安全问题:Agent 本身可能做出危险的事情,而且它不是"恶意的",只是"判断错误"。 一个有权限访问数据库的 Agent,可能因为推理错误而删除了重要数据。一个有权限发邮件的 Agent,可能发送了不恰当的内容。它有合法的权限,但它的行为是错误的。
打个比方:传统安全像公司的门禁系统——外人进不来,进来的人可以在公司里自由活动。AI Agent 时代的安全像管理一群实习生——他们有工牌可以进公司,但你需要看着他们做的每一件事,确保他们不会搞砸。
这对基础设施意味着什么?
安全检查要从"访问时"下沉到"执行时"。不是 Agent 拿到权限就放行了,而是每次执行动作之前,都要检查:这个动作在当前上下文下合理吗?它要删除的数据量是否异常?它要发送的内容是否符合策略?
这是一种"意图验证"——不只验证身份和权限,还要验证行为的合理性。 需要实时的行为分析引擎、基于上下文的策略引擎、异常行为检测、自动熔断机制。现在几乎没有产品在做这件事,但随着 Agent 越来越多、权限越来越大,这个需求只会越来越迫切。
从"一种协议打天下"到"协议丛林"
传统互联网的通信协议相对统一——Web 用 HTTP,服务间用 gRPC 或 REST,消息用 Kafka 协议或 AMQP。每种场景有一个主流协议,大家都用同一个。
AI Agent 时代,协议会变得极其多样。因为 Agent 的通信对象太多样了:跟人类交互用自然语言,跟工具交互用 MCP 协议,跟其他 Agent 交互用 A2A 协议,跟 IoT 设备交互用 MQTT,跟数据系统交互用 SQL 或 API。同一个 Agent 可能同时需要跟所有这些对象通信。
打个比方:传统软件像一家国内公司,大家都说中文就行了。AI Agent 像一家跨国公司的员工,跟美国同事说英语、跟法国客户说法语、跟日本供应商说日语,还要能把这些语言之间的信息准确翻译传递。
这对基础设施意味着什么?
现有的基础设施通常围绕一种协议设计——Kafka 服务于 Kafka 协议,MQTT broker 服务于 MQTT 协议,HTTP 网关服务于 HTTP 协议。它们之间需要额外的"桥接"组件来互通,每加一个桥接就多一层延迟、多一个故障点。
未来需要"协议原生多语"的基础设施—— 一个系统天然支持多种协议,数据在不同协议之间的流转是内置的,不需要外部桥接。Agent 通过 MCP 发出的指令,可以直接被转化为 MQTT 消息发给设备,设备的响应又可以被转化为 Kafka 消息进入数据流水线。整个过程在一个系统内完成,协议转换自动且透明。
从"人管系统"到"系统管系统"
传统的基础设施运维是人驱动的。DBA 调数据库参数、SRE 写告警规则、架构师设计扩缩容策略。工具是辅助,决策是人做的。
AI 时代,基础设施的运维本身会被 AI Agent 接管。因为 AI 系统的规模和复杂度超出了人能管理的范围。当一个公司跑着几千个 Agent,每个 Agent 有自己的资源需求、通信模式、存储需求,这些需求还在动态变化——没有人类运维团队能实时管理这种复杂度。
打个比方:传统运维像人工驾驶汽车——看路况、踩油门、打方向盘,人全程控制。AI 时代的运维像自动驾驶——系统自己感知环境、做出决策、执行操作,人只需要设定目的地和监督。
这对基础设施意味着什么?
基础设施产品的竞争力会增加一个新维度:"能不能被 AI 有效管理"。
API 要足够完善和一致——AI Agent 通过 API 来管理基础设施,API 设计不好,Agent 就管不好。行为要可预测——Agent 需要理解"如果我调了这个参数,系统会怎么变",如果行为不可预测,Agent 就没法做正确的决策。反馈要实时和结构化——Agent 需要实时知道操作的结果,而不是藏在日志里需要人去翻。
这会导致一个有趣的结果: 设计更"干净"的基础设施产品反而更有优势。那些历史包袱重、API 混乱、行为不可预测的老系统,会越来越难被 AI 管理。而新设计的、从第一天就考虑 AI 可管理性的产品,会因为更容易被 AI 运维而获得额外的竞争优势。
总结:基础设施的整体演进方向
把七个变化放在一起看,基础设施的演进方向是:
从无状态到有状态,从固定拓扑到动态网状,从存容量到存语义,从监控到理解,从边界安全到意图安全,从单协议到多协议,从人工运维到 AI 自治。
用一句话概括:从"为人设计的工具"变为"为 AI 设计的平台"。
传统基础设施的设计假设是:人来配置、人来监控、人来决策、人来运维。未来基础设施的设计假设会变成:AI 来使用、AI 来监控、AI 来决策、AI 来运维。人的角色从"操作者"变为"策略制定者"——设定目标和约束,具体的执行交给 AI。
这不是一个遥远的未来,而是一个正在发生的渐进过程。每一个方向都会长出新的基础设施产品,而大部分方向目前还没有成熟的解决方案。
我们正处在两个时代的交界处——用旧范式的基础设施跑新范式的应用。这中间的 gap,就是这一代基础设施的机会。
