不是靠更大的模型,不是靠更多的GPU,而是靠一个听起来平平无奇的技术——WebSocket持久连接。
结果呢?
这组数字是2026年2月12日,OpenAI发布GPT-5.3-Codex-Spark时一并公布的。
但真正让整个行业震动的,不只是这几个百分比。---
很多人以为AI回复慢,是因为"它在想"。
对,但只对了一半。
AI确实需要时间"推理"——把你的问题拆解、理解、生成答案。但在推理之前,还有一大段时间花在了你根本看不见的地方:网络通信。
打个比方。
你去银行办业务。柜台里的工作人员确实需要时间处理你的单子——这是"推理时间"。但在此之前,你得先做什么?
取号、排队、走到窗口、递材料、等她扫描你的身份证、确认信息……这些杂七杂八的事,全是"通信开销"。
传统的AI API用的是HTTP协议。每一次你发消息给AI,本质上是这样的:
```
你 → 拨号 → 建立连接 → 握手 → 验证身份 → 发送请求 → 等待处理 → 接收回复 → 挂断
```
然后下一句话?再来一遍。拨号、建立连接、握手、验证身份……全部重来。
这就好比你去银行,每问一个问题都要重新取号排队。问完"我余额多少?",回去取号;问"我能转账吗?",再回去取号。
荒不荒谬?但互联网上,这种事每天发生几十亿次。---
OpenAI这次做的事情,说白了就是:不挂电话了。
WebSocket是一种网络协议,和HTTP最大的区别就是——连接建好之后,不断开。
还是银行的比方:
技术上讲,传统HTTP请求的流程是这样的:
```
┌──────┐ ┌──────┐
│ 你的 │ ① TCP三次握手 │OpenAI│
│ 电脑 │ ② TLS加密协商 │服务器 │
│ │ ③ 发送HTTP请求 │ │
│ │ ④ 等待处理 │ │
│ │ ⑤ 接收响应 │ │
│ │ ⑥ 关闭连接 ← 这里断了 │ │
└──────┘ └──────┘
│ │
│ 下一次请求?全部重来 ①→⑥ │
```
而WebSocket是:
```
┌──────┐ ┌──────┐
│ 你的 │ ① TCP三次握手(只一次) │OpenAI│
│ 电脑 │ ② TLS加密协商(只一次) │服务器 │
│ │ ③ WebSocket升级(只一次) │ │
│ │ │ │
│ │ → 发消息 │ │
│ │ ← 收回复 │ │
│ │ → 再发 │ │
│ │ ← 再收 │ │
│ │ → 随时发,随时收 │ │
│ │ (连接一直在,不断开) │ │
└──────┘ └──────┘
```
那些重复的握手、协商、验证——全省了。这就是80%往返开销消失的原因。不是什么黑科技,是把一个本该早就用上的技术,终于用对了地方。
---
没错。WebSocket协议诞生于2011年,距今已经15年了。
微信用它来实时聊天,股票软件用它来推送行情,在线游戏用它来同步状态——这是个成熟得不能再成熟的技术。
那OpenAI为什么现在才用?这个问题才是真正有意思的地方。
答案在于:AI的使用方式变了。
一年前,大多数人用AI的方式是——
1. 打开ChatGPT
2. 提一个问题
3. 等AI回答
4. 关掉页面
这种"一问一答"的模式,HTTP完全够用。就像你偶尔去一次银行,排队就排队呗。
但2026年,AI的使用方式正在变成这样——1. 打开代码编辑器
2. AI实时看你写代码
3. 你改一行,AI立刻给建议
4. 你说"把这个函数重写",AI秒级完成
5. 你再调整,AI再跟进
6. 循环往复,几十上百次交互
这不再是"一问一答",而是实时协作。
就像从给笔友写信,变成了打电话。你总不能每说一句话都挂一次电话吧?
WebSocket不是什么新发明。但它现在才成为AI基础设施的关键,是因为AI的使用场景倒逼了这个改变。---
WebSocket解决的是"通信管道"的问题。但OpenAI这次同时做了另一件事——换了管道里跑的"引擎"。
GPT-5.3-Codex-Spark,这个专为实时编程设计的新模型,跑在了Cerebras的芯片上。
Cerebras是谁?
这家公司做了一件所有人都觉得疯了的事:把整块晶圆做成一颗芯片。
普通的芯片,包括英伟达的GPU,都是从一块硅晶圆上切下来的小方块。一块12英寸晶圆,能切出几十到几百颗芯片。
Cerebras说:我不切了。整块晶圆,就是一颗芯片。
他们的Wafer-Scale Engine 3(晶圆级引擎第三代),面积比你的脸还大。上面有数万亿个晶体管,以及——关键来了——巨大的片上内存。
这为什么重要?
因为AI推理的速度瓶颈,很多时候不是"算得慢",而是"数据搬运慢"。
英伟达GPU的做法是:几十张卡并行,每张卡自己搬运数据。速度靠堆量。
Cerebras的做法是:把冷库建在灶台旁边。一颗芯片上就有足够的内存放下整个模型,不需要反复搬运。
结果?Codex-Spark在Cerebras硬件上跑出了每秒超过1000个token的生成速度。
这是什么概念?一般人阅读中文的速度大约是每分钟300-500字。每秒1000个token意味着AI的"说话速度"大约是你阅读速度的100倍以上。
你还没看完上一句,它已经写完了整段代码。---
你可能会说:我又不写代码,WebSocket优化跟我有什么关系?
关系大了。
第一,所有AI应用都会变快。OpenAI明确说了,WebSocket连接路径未来会扩展到所有模型,不只是Codex-Spark。这意味着你用ChatGPT聊天、用AI画图、用AI写文档——全都会更快。
首个字出现的时间缩短50%,这不是什么抽象的技术指标。这是你每天用AI时,少等的那一秒半。一天交互50次,就是少等75秒。一年呢?省出来的不只是时间,是耐心,是体验,是你愿不愿意继续用这个产品。
第二,AI从"工具"变成"搭档"。过去的AI交互像发电子邮件——你写,发送,等回复。
WebSocket+超低延迟让AI变成了电话另一头的真人——你说一句,它马上接。你打断它,它立刻停。你改主意,它跟着转。
这不是速度的提升,是交互模式的根本改变。
Cerebras的联合创始人兼CTO Sean Lie说了一句话:"最让我们兴奋的,是和开发者社区一起发现——快速推理到底能催生出什么新的交互模式和使用场景。"
注意他的措辞。不是"让现有场景更快",而是"催生新场景"。
当AI的响应速度快到一定程度,人和AI的协作方式会发生质变。就像从书信时代到电话时代,改变的不是通信速度,是人们做事的方式。
第三,成本会降。更少的通信开销意味着更少的服务器资源消耗。OpenAI的Responses API相比旧的Chat Completions API,缓存利用率提升了40%到80%。
成本降低→定价降低→更多人用得起→更多应用涌现。
这是一个正循环。
---
这次发布中还有一个隐藏的信号:OpenAI不只用英伟达了。
过去几年,英伟达几乎是AI芯片的代名词。H100、A100、B200——这些GPU撑起了整个AI产业的训练和推理。英伟达的市值一度突破三万亿美元,CEO黄仁勋成了全球最炙手可热的科技领袖。
但OpenAI选择在Cerebras的芯片上部署Codex-Spark,传递了一个微妙但清晰的信号:
AI推理的未来,不一定只属于GPU。OpenAI的官方措辞很有意思:
翻译一下:GPU仍然是主力,但在"速度至上"的场景,我们找到了更好的方案。
这不是二选一,而是组合拳。
但如果特种部队越来越多任务都能干呢?
Cerebras在博客中透露:"我们预计在2026年将超快推理能力带到最大的前沿模型。"
也就是说,今天跑小模型的Cerebras,明天可能跑GPT-5.3、GPT-6这种超大模型。
这对英伟达来说,不是威胁,但绝对是压力。
---
AI推理速度的提升,最终指向一个哲学问题:
当AI快到你感觉不到延迟,人和机器的边界在哪里?2024年,人们抱怨AI回复太慢。
2025年,人们习惯了等1-2秒。
2026年,AI的回复速度开始接近人类对话的节奏。
当AI能像真人一样即时回应、理解你的意图、在你修改代码的同时给出建议——你还会觉得它是一个"工具"吗?
OpenAI在发布中用了一个词:real-time collaboration——实时协作。
不是"使用AI",是"和AI协作"。
这个用词的转变,比任何技术细节都重要。
---
| 优化项 | 提升幅度 | 技术手段 |
|-------|---------|---------|
| 客户端/服务器往返开销 | 减少80% | WebSocket持久连接 |
| 每token处理开销 | 减少30% | 推理管线重构 |
| 首token生成时间 | 缩短50% | 会话初始化优化 |
| 代码生成速度 | >1000 tokens/秒 | Cerebras WSE-3芯片 |
| 缓存利用率 | 提升40%-80% | Responses API vs Chat Completions |
---
---
2011年,WebSocket诞生的时候,没人想到它有一天会成为AI基础设施的关键一环。 2026年,Cerebras做出整块晶圆大小芯片的时候,很多人觉得这是疯子的玩具。 但技术的故事永远是这样的:今天的"够用了",就是明天的"太慢了"。你觉得AI还需要多快?评论区聊聊。👇