OpenAI砍掉80%延迟：一根永不挂断的电话线，如何让AI快到飞起

📄 View Markdown source

OpenAI砍掉80%延迟：一根"永不挂断的电话线"，如何让AI快到飞起

你有没有过这种体验：跟AI聊天，打完一段话，然后……等。等它"思考"。等那个光标开始闪。有时候等一秒，有时候等三秒，有时候你甚至怀疑它是不是死机了。

现在告诉你一个数字：这个等待时间，OpenAI刚刚砍掉了一半。

不是靠更大的模型，不是靠更多的GPU，而是靠一个听起来平平无奇的技术——WebSocket持久连接。

结果呢？

客户端和服务器之间的往返开销，减少80%
每生成一个token的处理开销，减少30%
第一个字蹦出来的时间，缩短50%

这组数字是2026年2月12日，OpenAI发布GPT-5.3-Codex-Spark时一并公布的。

但真正让整个行业震动的，不只是这几个百分比。

---

🔥 先搞明白一件事：AI为什么会"卡"？

很多人以为AI回复慢，是因为"它在想"。

对，但只对了一半。

AI确实需要时间"推理"——把你的问题拆解、理解、生成答案。但在推理之前，还有一大段时间花在了你根本看不见的地方：网络通信。

打个比方。

你去银行办业务。柜台里的工作人员确实需要时间处理你的单子——这是"推理时间"。但在此之前，你得先做什么？

取号、排队、走到窗口、递材料、等她扫描你的身份证、确认信息……

这些杂七杂八的事，全是"通信开销"。

传统的AI API用的是HTTP协议。每一次你发消息给AI，本质上是这样的：

```

你 → 拨号 → 建立连接 → 握手 → 验证身份 → 发送请求 → 等待处理 → 接收回复 → 挂断

```

然后下一句话？再来一遍。

拨号、建立连接、握手、验证身份……全部重来。

这就好比你去银行，每问一个问题都要重新取号排队。问完"我余额多少？"，回去取号；问"我能转账吗？"，再回去取号。

荒不荒谬？但互联网上，这种事每天发生几十亿次。

---

🔥 一根"永不挂断的电话线"

OpenAI这次做的事情，说白了就是：不挂电话了。

WebSocket是一种网络协议，和HTTP最大的区别就是——连接建好之后，不断开。

还是银行的比方：

HTTP就像每次去银行都要重新排队。

WebSocket就像你有一条专线电话，直通银行经理办公室。想问什么直接说，不用挂断，不用重新拨号。

技术上讲，传统HTTP请求的流程是这样的：

```

┌──────┐ ┌──────┐

│ 你的 │ ① TCP三次握手 │OpenAI│

│ 电脑 │ ② TLS加密协商 │服务器 │

│ │ ③ 发送HTTP请求 │ │

│ │ ④ 等待处理 │ │

│ │ ⑤ 接收响应 │ │

│ │ ⑥ 关闭连接 ← 这里断了 │ │

└──────┘ └──────┘

│ │

│ 下一次请求？全部重来 ①→⑥ │

```

而WebSocket是：

```

┌──────┐ ┌──────┐

│ 你的 │ ① TCP三次握手（只一次） │OpenAI│

│ 电脑 │ ② TLS加密协商（只一次） │服务器 │

│ │ ③ WebSocket升级（只一次） │ │

│ │ │ │

│ │ → 发消息 │ │

│ │ ← 收回复 │ │

│ │ → 再发 │ │

│ │ ← 再收 │ │

│ │ → 随时发，随时收 │ │

│ │ （连接一直在，不断开） │ │

└──────┘ └──────┘

```

那些重复的握手、协商、验证——全省了。

这就是80%往返开销消失的原因。不是什么黑科技，是把一个本该早就用上的技术，终于用对了地方。

---

🔥 但等等，WebSocket不是什么新技术啊？

没错。WebSocket协议诞生于2011年，距今已经15年了。

微信用它来实时聊天，股票软件用它来推送行情，在线游戏用它来同步状态——这是个成熟得不能再成熟的技术。

那OpenAI为什么现在才用？

这个问题才是真正有意思的地方。

答案在于：AI的使用方式变了。

一年前，大多数人用AI的方式是——

1. 打开ChatGPT

2. 提一个问题

3. 等AI回答

4. 关掉页面

这种"一问一答"的模式，HTTP完全够用。就像你偶尔去一次银行，排队就排队呗。

但2026年，AI的使用方式正在变成这样——

1. 打开代码编辑器

2. AI实时看你写代码

3. 你改一行，AI立刻给建议

4. 你说"把这个函数重写"，AI秒级完成

5. 你再调整，AI再跟进

6. 循环往复，几十上百次交互

这不再是"一问一答"，而是实时协作。

就像从给笔友写信，变成了打电话。你总不能每说一句话都挂一次电话吧？

WebSocket不是什么新发明。但它现在才成为AI基础设施的关键，是因为AI的使用场景倒逼了这个改变。

---

🔥 Cerebras：那块比你脸还大的芯片

WebSocket解决的是"通信管道"的问题。但OpenAI这次同时做了另一件事——换了管道里跑的"引擎"。

GPT-5.3-Codex-Spark，这个专为实时编程设计的新模型，跑在了Cerebras的芯片上。

Cerebras是谁？

这家公司做了一件所有人都觉得疯了的事：把整块晶圆做成一颗芯片。

普通的芯片，包括英伟达的GPU，都是从一块硅晶圆上切下来的小方块。一块12英寸晶圆，能切出几十到几百颗芯片。

Cerebras说：我不切了。整块晶圆，就是一颗芯片。

他们的Wafer-Scale Engine 3（晶圆级引擎第三代），面积比你的脸还大。上面有数万亿个晶体管，以及——关键来了——巨大的片上内存。

这为什么重要？

因为AI推理的速度瓶颈，很多时候不是"算得慢"，而是"数据搬运慢"。

想象你是个大厨，炒菜速度飞快。但食材都在隔壁的冷库里。每炒一道菜，你得跑去冷库取食材、跑回来，再炒、再跑……

你炒菜的手速再快，也被"跑冷库"拖死了。

英伟达GPU的做法是：几十张卡并行，每张卡自己搬运数据。速度靠堆量。

Cerebras的做法是：把冷库建在灶台旁边。一颗芯片上就有足够的内存放下整个模型，不需要反复搬运。

结果？Codex-Spark在Cerebras硬件上跑出了每秒超过1000个token的生成速度。

这是什么概念？一般人阅读中文的速度大约是每分钟300-500字。每秒1000个token意味着AI的"说话速度"大约是你阅读速度的100倍以上。

你还没看完上一句，它已经写完了整段代码。

---

🔥 这对普通人意味着什么？

你可能会说：我又不写代码，WebSocket优化跟我有什么关系？

关系大了。

第一，所有AI应用都会变快。

OpenAI明确说了，WebSocket连接路径未来会扩展到所有模型，不只是Codex-Spark。这意味着你用ChatGPT聊天、用AI画图、用AI写文档——全都会更快。

首个字出现的时间缩短50%，这不是什么抽象的技术指标。这是你每天用AI时，少等的那一秒半。一天交互50次，就是少等75秒。一年呢？省出来的不只是时间，是耐心，是体验，是你愿不愿意继续用这个产品。

第二，AI从"工具"变成"搭档"。

过去的AI交互像发电子邮件——你写，发送，等回复。

WebSocket+超低延迟让AI变成了电话另一头的真人——你说一句，它马上接。你打断它，它立刻停。你改主意，它跟着转。

这不是速度的提升，是交互模式的根本改变。

Cerebras的联合创始人兼CTO Sean Lie说了一句话："最让我们兴奋的，是和开发者社区一起发现——快速推理到底能催生出什么新的交互模式和使用场景。"

注意他的措辞。不是"让现有场景更快"，而是"催生新场景"。

当AI的响应速度快到一定程度，人和AI的协作方式会发生质变。就像从书信时代到电话时代，改变的不是通信速度，是人们做事的方式。

第三，成本会降。

更少的通信开销意味着更少的服务器资源消耗。OpenAI的Responses API相比旧的Chat Completions API，缓存利用率提升了40%到80%。

成本降低→定价降低→更多人用得起→更多应用涌现。

这是一个正循环。

---

🔥 英伟达该紧张了吗？

这次发布中还有一个隐藏的信号：OpenAI不只用英伟达了。

过去几年，英伟达几乎是AI芯片的代名词。H100、A100、B200——这些GPU撑起了整个AI产业的训练和推理。英伟达的市值一度突破三万亿美元，CEO黄仁勋成了全球最炙手可热的科技领袖。

但OpenAI选择在Cerebras的芯片上部署Codex-Spark，传递了一个微妙但清晰的信号：

AI推理的未来，不一定只属于GPU。

OpenAI的官方措辞很有意思：

"GPU在我们的训练和推理流水线中仍然是基础性的，提供最具成本效益的通用token。Cerebras补充了这一基础，在需要极低延迟的工作流上表现优异。"

翻译一下：GPU仍然是主力，但在"速度至上"的场景，我们找到了更好的方案。

这不是二选一，而是组合拳。

就像一支军队，坦克是主力输出（GPU），但有些任务需要特种部队（Cerebras）——快进快出，精准打击。

但如果特种部队越来越多任务都能干呢？

Cerebras在博客中透露："我们预计在2026年将超快推理能力带到最大的前沿模型。"

也就是说，今天跑小模型的Cerebras，明天可能跑GPT-5.3、GPT-6这种超大模型。

这对英伟达来说，不是威胁，但绝对是压力。

---

🔥 速度之战的终极问题

AI推理速度的提升，最终指向一个哲学问题：

当AI快到你感觉不到延迟，人和机器的边界在哪里？

2024年，人们抱怨AI回复太慢。

2025年，人们习惯了等1-2秒。

2026年，AI的回复速度开始接近人类对话的节奏。

当AI能像真人一样即时回应、理解你的意图、在你修改代码的同时给出建议——你还会觉得它是一个"工具"吗？

OpenAI在发布中用了一个词：real-time collaboration——实时协作。

不是"使用AI"，是"和AI协作"。

这个用词的转变，比任何技术细节都重要。

---

📊 数据总结

| 优化项 | 提升幅度 | 技术手段 |

|-------|---------|---------|

| 客户端/服务器往返开销 | 减少80% | WebSocket持久连接 |

| 每token处理开销 | 减少30% | 推理管线重构 |

| 首token生成时间 | 缩短50% | 会话初始化优化 |

| 代码生成速度 | >1000 tokens/秒 | Cerebras WSE-3芯片 |

| 缓存利用率 | 提升40%-80% | Responses API vs Chat Completions |

---

参考来源

OpenAI官方博客：[Introducing GPT-5.3-Codex-Spark](https://openai.com/index/introducing-gpt-5-3-codex-spark/)（2026年2月12日）
Cerebras官方博客：[Introducing OpenAI GPT-5.3-Codex-Spark Powered by Cerebras](https://www.cerebras.ai/blog/openai-codexspark)（2026年2月12日）
OpenAI开发者文档：[Responses API vs Chat Completions](https://developers.openai.com/api/docs/guides/migrate-to-responses)

---

2011年，WebSocket诞生的时候，没人想到它有一天会成为AI基础设施的关键一环。 2026年，Cerebras做出整块晶圆大小芯片的时候，很多人觉得这是疯子的玩具。 但技术的故事永远是这样的：今天的"够用了"，就是明天的"太慢了"。

你觉得AI还需要多快？评论区聊聊。👇