OpenAI砍掉80%延迟:一根永不挂断的电话线,如何让AI快到飞起

📄 View Markdown source

Cover

OpenAI砍掉80%延迟:一根"永不挂断的电话线",如何让AI快到飞起

你有没有过这种体验:跟AI聊天,打完一段话,然后……等。等它"思考"。等那个光标开始闪。有时候等一秒,有时候等三秒,有时候你甚至怀疑它是不是死机了。
现在告诉你一个数字:这个等待时间,OpenAI刚刚砍掉了一半。

不是靠更大的模型,不是靠更多的GPU,而是靠一个听起来平平无奇的技术——WebSocket持久连接

结果呢?

这组数字是2026年2月12日,OpenAI发布GPT-5.3-Codex-Spark时一并公布的。

但真正让整个行业震动的,不只是这几个百分比。

---

🔥 先搞明白一件事:AI为什么会"卡"?

很多人以为AI回复慢,是因为"它在想"。

对,但只对了一半。

AI确实需要时间"推理"——把你的问题拆解、理解、生成答案。但在推理之前,还有一大段时间花在了你根本看不见的地方:网络通信。

打个比方。

你去银行办业务。柜台里的工作人员确实需要时间处理你的单子——这是"推理时间"。但在此之前,你得先做什么?

取号、排队、走到窗口、递材料、等她扫描你的身份证、确认信息……

这些杂七杂八的事,全是"通信开销"。

传统的AI API用的是HTTP协议。每一次你发消息给AI,本质上是这样的:

```

你 → 拨号 → 建立连接 → 握手 → 验证身份 → 发送请求 → 等待处理 → 接收回复 → 挂断

```

然后下一句话?再来一遍。

拨号、建立连接、握手、验证身份……全部重来。

这就好比你去银行,每问一个问题都要重新取号排队。问完"我余额多少?",回去取号;问"我能转账吗?",再回去取号。

荒不荒谬?但互联网上,这种事每天发生几十亿次。

---

🔥 一根"永不挂断的电话线"

OpenAI这次做的事情,说白了就是:不挂电话了。

WebSocket是一种网络协议,和HTTP最大的区别就是——连接建好之后,不断开。

还是银行的比方:

HTTP就像每次去银行都要重新排队。
WebSocket就像你有一条专线电话,直通银行经理办公室。想问什么直接说,不用挂断,不用重新拨号。

技术上讲,传统HTTP请求的流程是这样的:

```

┌──────┐ ┌──────┐

│ 你的 │ ① TCP三次握手 │OpenAI│

│ 电脑 │ ② TLS加密协商 │服务器 │

│ │ ③ 发送HTTP请求 │ │

│ │ ④ 等待处理 │ │

│ │ ⑤ 接收响应 │ │

│ │ ⑥ 关闭连接 ← 这里断了 │ │

└──────┘ └──────┘

│ │

│ 下一次请求?全部重来 ①→⑥ │

```

而WebSocket是:

```

┌──────┐ ┌──────┐

│ 你的 │ ① TCP三次握手(只一次) │OpenAI│

│ 电脑 │ ② TLS加密协商(只一次) │服务器 │

│ │ ③ WebSocket升级(只一次) │ │

│ │ │ │

│ │ → 发消息 │ │

│ │ ← 收回复 │ │

│ │ → 再发 │ │

│ │ ← 再收 │ │

│ │ → 随时发,随时收 │ │

│ │ (连接一直在,不断开) │ │

└──────┘ └──────┘

```

那些重复的握手、协商、验证——全省了。

这就是80%往返开销消失的原因。不是什么黑科技,是把一个本该早就用上的技术,终于用对了地方。

---

🔥 但等等,WebSocket不是什么新技术啊?

没错。WebSocket协议诞生于2011年,距今已经15年了。

微信用它来实时聊天,股票软件用它来推送行情,在线游戏用它来同步状态——这是个成熟得不能再成熟的技术。

那OpenAI为什么现在才用?

这个问题才是真正有意思的地方。

答案在于:AI的使用方式变了。

一年前,大多数人用AI的方式是——

1. 打开ChatGPT

2. 提一个问题

3. 等AI回答

4. 关掉页面

这种"一问一答"的模式,HTTP完全够用。就像你偶尔去一次银行,排队就排队呗。

但2026年,AI的使用方式正在变成这样——

1. 打开代码编辑器

2. AI实时看你写代码

3. 你改一行,AI立刻给建议

4. 你说"把这个函数重写",AI秒级完成

5. 你再调整,AI再跟进

6. 循环往复,几十上百次交互

这不再是"一问一答",而是实时协作

就像从给笔友写信,变成了打电话。你总不能每说一句话都挂一次电话吧?

WebSocket不是什么新发明。但它现在才成为AI基础设施的关键,是因为AI的使用场景倒逼了这个改变。

---

🔥 Cerebras:那块比你脸还大的芯片

WebSocket解决的是"通信管道"的问题。但OpenAI这次同时做了另一件事——换了管道里跑的"引擎"。

GPT-5.3-Codex-Spark,这个专为实时编程设计的新模型,跑在了Cerebras的芯片上。

Cerebras是谁?

这家公司做了一件所有人都觉得疯了的事:把整块晶圆做成一颗芯片。

普通的芯片,包括英伟达的GPU,都是从一块硅晶圆上切下来的小方块。一块12英寸晶圆,能切出几十到几百颗芯片。

Cerebras说:我不切了。整块晶圆,就是一颗芯片。

他们的Wafer-Scale Engine 3(晶圆级引擎第三代),面积比你的脸还大。上面有数万亿个晶体管,以及——关键来了——巨大的片上内存

这为什么重要?

因为AI推理的速度瓶颈,很多时候不是"算得慢",而是"数据搬运慢"

想象你是个大厨,炒菜速度飞快。但食材都在隔壁的冷库里。每炒一道菜,你得跑去冷库取食材、跑回来,再炒、再跑……
你炒菜的手速再快,也被"跑冷库"拖死了。

英伟达GPU的做法是:几十张卡并行,每张卡自己搬运数据。速度靠堆量。

Cerebras的做法是:把冷库建在灶台旁边。一颗芯片上就有足够的内存放下整个模型,不需要反复搬运。

结果?Codex-Spark在Cerebras硬件上跑出了每秒超过1000个token的生成速度。

这是什么概念?一般人阅读中文的速度大约是每分钟300-500字。每秒1000个token意味着AI的"说话速度"大约是你阅读速度的100倍以上

你还没看完上一句,它已经写完了整段代码。

---

🔥 这对普通人意味着什么?

你可能会说:我又不写代码,WebSocket优化跟我有什么关系?

关系大了。

第一,所有AI应用都会变快。

OpenAI明确说了,WebSocket连接路径未来会扩展到所有模型,不只是Codex-Spark。这意味着你用ChatGPT聊天、用AI画图、用AI写文档——全都会更快。

首个字出现的时间缩短50%,这不是什么抽象的技术指标。这是你每天用AI时,少等的那一秒半。一天交互50次,就是少等75秒。一年呢?省出来的不只是时间,是耐心,是体验,是你愿不愿意继续用这个产品。

第二,AI从"工具"变成"搭档"。

过去的AI交互像发电子邮件——你写,发送,等回复。

WebSocket+超低延迟让AI变成了电话另一头的真人——你说一句,它马上接。你打断它,它立刻停。你改主意,它跟着转。

这不是速度的提升,是交互模式的根本改变

Cerebras的联合创始人兼CTO Sean Lie说了一句话:"最让我们兴奋的,是和开发者社区一起发现——快速推理到底能催生出什么新的交互模式和使用场景。"

注意他的措辞。不是"让现有场景更快",而是"催生新场景"。

当AI的响应速度快到一定程度,人和AI的协作方式会发生质变。就像从书信时代到电话时代,改变的不是通信速度,是人们做事的方式。

第三,成本会降。

更少的通信开销意味着更少的服务器资源消耗。OpenAI的Responses API相比旧的Chat Completions API,缓存利用率提升了40%到80%。

成本降低→定价降低→更多人用得起→更多应用涌现。

这是一个正循环。

---

🔥 英伟达该紧张了吗?

这次发布中还有一个隐藏的信号:OpenAI不只用英伟达了。

过去几年,英伟达几乎是AI芯片的代名词。H100、A100、B200——这些GPU撑起了整个AI产业的训练和推理。英伟达的市值一度突破三万亿美元,CEO黄仁勋成了全球最炙手可热的科技领袖。

但OpenAI选择在Cerebras的芯片上部署Codex-Spark,传递了一个微妙但清晰的信号:

AI推理的未来,不一定只属于GPU。

OpenAI的官方措辞很有意思:

"GPU在我们的训练和推理流水线中仍然是基础性的,提供最具成本效益的通用token。Cerebras补充了这一基础,在需要极低延迟的工作流上表现优异。"

翻译一下:GPU仍然是主力,但在"速度至上"的场景,我们找到了更好的方案。

这不是二选一,而是组合拳

就像一支军队,坦克是主力输出(GPU),但有些任务需要特种部队(Cerebras)——快进快出,精准打击。

但如果特种部队越来越多任务都能干呢?

Cerebras在博客中透露:"我们预计在2026年将超快推理能力带到最大的前沿模型。"

也就是说,今天跑小模型的Cerebras,明天可能跑GPT-5.3、GPT-6这种超大模型。

这对英伟达来说,不是威胁,但绝对是压力。

---

🔥 速度之战的终极问题

AI推理速度的提升,最终指向一个哲学问题:

当AI快到你感觉不到延迟,人和机器的边界在哪里?

2024年,人们抱怨AI回复太慢。

2025年,人们习惯了等1-2秒。

2026年,AI的回复速度开始接近人类对话的节奏。

当AI能像真人一样即时回应、理解你的意图、在你修改代码的同时给出建议——你还会觉得它是一个"工具"吗?

OpenAI在发布中用了一个词:real-time collaboration——实时协作。

不是"使用AI",是"和AI协作"。

这个用词的转变,比任何技术细节都重要。

---

📊 数据总结

| 优化项 | 提升幅度 | 技术手段 |

|-------|---------|---------|

| 客户端/服务器往返开销 | 减少80% | WebSocket持久连接 |

| 每token处理开销 | 减少30% | 推理管线重构 |

| 首token生成时间 | 缩短50% | 会话初始化优化 |

| 代码生成速度 | >1000 tokens/秒 | Cerebras WSE-3芯片 |

| 缓存利用率 | 提升40%-80% | Responses API vs Chat Completions |

---

参考来源

---

2011年,WebSocket诞生的时候,没人想到它有一天会成为AI基础设施的关键一环。 2026年,Cerebras做出整块晶圆大小芯片的时候,很多人觉得这是疯子的玩具。 但技术的故事永远是这样的:今天的"够用了",就是明天的"太慢了"。

你觉得AI还需要多快?评论区聊聊。👇