从286到M4:CPU 40年进化史,用大白话讲明白

📄 View Markdown source

Cover

从286到M4:CPU 40年进化史,用大白话讲明白

先说清楚:CPU到底是啥?

如果把电脑比作一个人,CPU就是大脑。

更准确地说,CPU(Central Processing Unit,中央处理器)是一块指甲盖大小的芯片,负责执行你在电脑上做的一切事情——打开网页、播放视频、运行游戏,背后全是它在疯狂计算。它每秒钟能执行数十亿次运算,但归根结底只会做一件事:按照指令,对0和1进行加减乘除和逻辑判断。

你可能会想:就这?

对,就这。但正是这个"就这",在过去40年里从"一秒算几万次"进化到了"一秒算几万亿次",推动了整个数字世界的诞生。

这篇文章要讲的,就是CPU这40年怎么一步步走过来的。不是罗列参数,而是讲清楚每个关键转折点背后的逻辑:为什么要这样变?变了之后世界有什么不同?

起点:8086和286——个人电脑的"石器时代"

1978年,Intel推出了8086处理器,这是x86架构的起点。所谓x86,就是后来统治PC世界几十年的指令集架构的总称,名字就来自8086这个型号。

8086有大约29,000个晶体管,主频5-10MHz。这些数字今天看来小得可笑,但在当时已经够用了——因为那个年代的电脑主要就是处理文字和简单计算。

1982年,Intel推出了80286(简称286),晶体管数量增加到13.4万个。286最大的贡献是引入了"保护模式",简单说就是让操作系统能管住各个程序,不让它们互相打架。在此之前,一个程序崩溃经常会把整台电脑拖下水。

类比一下:如果8086是一间只有一个房间的小作坊,所有人挤在一起干活,那286就是给作坊加了隔墙——虽然房子还是很小,但至少各干各的,不会互相影响了。

不过286有个致命的尴尬:它的保护模式切换回实模式非常麻烦,导致软件兼容性很差。这个问题要等到下一代才能真正解决。

386:32位时代开启,真正的分水岭

1985年,Intel 80386(简称386)问世,晶体管约27.5万个。

386是PC史上最重要的CPU之一,原因只有一个:它是第一款32位x86处理器

什么叫32位?简单说,CPU一次能处理的数据宽度从16位变成了32位,就像公路从双车道变成了四车道。更关键的是,32位意味着CPU可以直接寻址4GB内存——在286时代,理论最大内存只有16MB。

4GB在1985年是天文数字,但这个设计给未来留出了巨大的空间。事实上,32位架构统治PC世界长达20多年,直到2003年AMD推出64位的Athlon 64才开始被超越。

386还完善了虚拟内存和多任务机制,让Windows 3.0(1990年)和后来的Windows 95成为可能。没有386打下的底子,个人电脑不可能从命令行时代走进图形界面时代。

Pentium时代:品牌、性能与频率的狂飙

1993年,Intel没有叫它"586",而是起了一个能注册商标的名字:Pentium(奔腾)。

这一步看似只是营销策略,实际上标志着CPU行业进入了品牌竞争时代。在此之前,没有普通消费者关心自己电脑里的CPU叫什么。Pentium之后,"Intel Inside"成了卖电脑的金字招牌。

技术上,Pentium引入了超标量架构——简单说就是CPU内部有两条"流水线"可以同时执行指令,就像一个工厂从单生产线升级成了双生产线。初代Pentium的晶体管数量达到310万,主频60-66MHz。

之后的Pentium Pro(1995年)、Pentium II(1997年)、Pentium III(1999年)不断提升,到Pentium III时主频已经超过1GHz。整个90年代,CPU的故事可以用一句话概括:频率就是一切,越快越好。

消费者理解起来也简单:数字越大越好,500MHz比300MHz快,1GHz比500MHz快。这段时间是CPU性能提升最直观的黄金年代。

奔腾4:频率竞赛的尽头,Intel的战略失误

然后Intel踩了一个大坑。

2000年,Intel发布了基于NetBurst架构的Pentium 4。NetBurst的设计思路很激进:把流水线做得非常长(最多31级),这样主频可以拉得很高。Intel的目标是把频率推到10GHz。

流水线越长频率越高,这话怎么理解?想象一个工厂的组装线:如果每个工位只负责拧一颗螺丝(步骤极其简单),那每个工位的速度就能非常快,整条线的节拍就能加快。但代价是:一旦发现螺丝拧错了,要退回去重来的步骤就特别多。

在CPU里,这个"退回去重来"就叫分支预测失败的惩罚。Pentium 4的超长流水线导致每次预测失败的代价极高,实际效率远没有主频数字看起来那么好。

更致命的是功耗问题。2004年发布的Prescott核心(90nm工艺),频率达到了3.8GHz,但TDP(热设计功耗)飙到了115W以上。Intel原本计划推出的4GHz版本直接取消,因为散热已经搞不定了。

这就是著名的"功耗墙"——频率不是不能继续往上拉,但发热量会以更快的速度增长(大致与频率的三次方成正比),到了某个点,散热成本会变得不可接受。

Intel最终承认了NetBurst路线的失败,转而基于节能的Pentium M架构开发了Core(酷睿)系列。2006年发布的Core 2 Duo标志着一个新时代的开始:频率竞赛结束,多核时代到来。

多核时代:一个人干不完,就多叫几个人

既然单个核心的频率提不上去了,那就在一块芯片上放多个核心——这就是多核的基本逻辑。

类比:你一个人搬砖的速度有上限,再怎么训练也快不了多少。但如果叫两个人一起搬,速度理论上能翻倍。四个人就是四倍。当然,实际上会有协调成本,不会严格线性增长。

2005年,Intel发布了第一款桌面双核处理器Pentium D(虽然本质上是两个Pentium 4核心粗暴粘在一起)。AMD同年推出了Athlon 64 X2,架构更优雅。此后核心数量稳步增长:2核、4核、8核……到2025年,消费级CPU已经普遍达到16-24核心。

但多核也不是万能的。很多日常任务(比如网页浏览、文档编辑)其实很难被拆成多个并行任务,主要还是吃单核性能。这就是为什么即使到了今天,单核频率和IPC(每时钟周期指令数)依然很重要。

AMD的逆袭:从万年老二到正面硬刚

AMD的故事是CPU史上最精彩的商业剧本之一。

早期跟随(1990年代):AMD最初就是Intel的"合法仿制厂"。在8086时代,IBM要求Intel必须有第二供应商,AMD因此获得了x86的授权。K5(1996年)性能平平,但K6(1997年)凭借收购NexGen获得的技术,第一次在性价比上给Intel制造了压力。 短暂的巅峰(2003年前后):AMD的Athlon 64是第一款消费级64位x86处理器,而且集成了内存控制器(Intel当时还在用外部北桥芯片),内存延迟大幅降低。2005年的双核Athlon 64 X2在性能和功耗上全面超越Pentium D。这段时间AMD的服务器市场份额一度超过20%。 跌入谷底(2011-2016年):AMD赌上了"推土机"(Bulldozer)架构,设计思路是每个模块共享浮点单元来增加整数核心数量。结果单核性能大幅落后于Intel的Sandy Bridge/Haswell系列,市场份额跌到不足10%。公司股价一度跌破2美元,濒临破产。 Zen架构翻盘(2017年至今):2012年,AMD请来了芯片设计天才Jim Keller(他之前参与设计了Athlon 64和Apple A4/A5)。Keller主导了Zen架构的早期设计,然后由Mike Clark等人完成。2017年3月,基于Zen架构的Ryzen处理器发布,IPC(每时钟周期指令数)比推土机提升了52%。

这个数字在CPU行业是炸裂的——正常年份IPC提升5-10%就算不错了。

之后Zen 2(2019年,7nm)、Zen 3(2020年)、Zen 4(2022年)、Zen 5(2024年)持续迭代。AMD不仅在消费市场翻身,还凭借EPYC服务器处理器在数据中心市场攻城略地。根据Mercury Research的数据,到2024年第三季度,AMD在x86服务器市场的份额已超过24%,创下历史新高。

AMD的翻盘故事证明了一件事:在芯片行业,架构设计的重要性远大于堆参数。

ARM崛起:从手机芯片到颠覆桌面

在x86阵营的Intel和AMD打得不可开交的时候,另一个阵营悄悄长大了。

ARM(Advanced RISC Machines)的故事要从1985年说起。英国的Acorn公司设计了一种精简指令集处理器,后来独立成ARM公司。ARM自己不生产芯片,只设计架构然后卖授权——这个商业模式让它的架构扩散到了几乎每一部手机里。

ARM和x86最核心的区别是什么?

x86是CISC(复杂指令集),指令数量多、功能强,单条指令能做的事情更复杂。ARM是RISC(精简指令集),指令简单、数量少,但每条指令执行速度快。

类比:x86像是一个全能型员工,你跟他说"把那个文件翻译好排版好打印出来",他一个人全干了。ARM像是一群专注型员工,每人只做一件事,但配合起来又快又省力。

长期以来,ARM在性能上一直被认为不如x86,它的优势是功耗极低——所以手机几乎全用ARM芯片。但2020年发生了一件改变格局的事。

Apple M1芯片(2020年11月):苹果基于ARM架构自研的桌面级芯片,采用台积电5nm工艺,集成160亿个晶体管。M1发布后,业界震惊的不是它有多快,而是它在那么低的功耗下有那么快。

M1的单核性能直接追平甚至超越了同期Intel的桌面处理器,而功耗只有后者的几分之一。运行在M1 MacBook Air上的笔记本甚至不需要风扇。

到了M4(2024年),苹果继续推进到台积电3nm工艺,集成约280亿个晶体管。M4 Pro和M4 Max在多线程性能上已经可以和AMD/Intel的高端桌面芯片掰手腕,同时功耗依然保持极低水平。

苹果的成功证明了两件事:

1. ARM架构不存在性能天花板——之前性能不够只是因为没人认真去做高性能ARM芯片。

2. 垂直整合(自己设计芯片+自己做操作系统+自己控制软件生态)能带来巨大的效率优势。

这给整个行业敲响了警钟。高通随后推出了基于ARM的Snapdragon X Elite系列笔记本芯片(2024年),微软也在全力推动Windows on ARM。x86不再是PC的唯一选择。

摩尔定律:没死,但变了

说CPU的历史不可能绕过摩尔定律。

1965年,Intel联合创始人戈登·摩尔观察到:集成电路上的晶体管数量大约每两年翻一倍(最初说的是每年,后来修正为两年)。这不是物理定律,而是一个经验观察,但它神奇地指导了半导体行业近半个世纪的发展节奏。

近年来,"摩尔定律已死"的说法越来越多。理由很充分:

但另一方面,晶体管密度确实还在增长。台积电的2nm工艺预计2025年量产,Intel的18A工艺也在推进中。只是增长速度在放缓,而且"nm"这个数字已经变成了营销概念——台积电的"3nm"和Intel的"Intel 4"在实际晶体管密度上差距并不大。

更重要的是,行业找到了新的方向来绕过摩尔定律的放缓:

所以摩尔定律没有死,只是从"更小"变成了"更巧"。

中国芯片:蹒跚但在前行

在全球CPU版图上,中国是一个特殊的存在。

龙芯:中国科学院计算技术研究所主导开发,最初基于MIPS架构,2021年推出了自主指令集LoongArch。龙芯3A6000(2023年发布)采用12nm工艺,4核设计,官方称单核性能接近Intel第10代酷睿水平。龙芯主要面向党政军等信创市场,不追求消费级的绝对性能。 海光:获得了AMD Zen 1架构的授权(通过与AMD的合资公司),主要做服务器处理器。海光的优势是x86兼容,软件生态迁移成本低。但受限于授权范围,架构迭代受到约束。 华为鲲鹏:基于ARM架构的服务器处理器,鲲鹏920(2019年)采用7nm工艺,64核设计,性能在发布时属于主流水平。但2020年美国制裁切断了台积电的代工渠道后,鲲鹏的后续迭代受到了严重影响。 现实差距有多大?坦率地说,差距依然显著。以制造工艺为例,中芯国际目前量产的最先进工艺大约在7nm级别(N+2),而台积电已经在量产3nm。在CPU架构设计上,龙芯和鲲鹏的单核IPC与Intel/AMD/Apple最新一代有2-3代的差距。

但也要看到进步。中国芯片行业在成熟制程(28nm及以上)的产能在快速扩张,在特定应用场景(如信创、安防、物联网)已经能满足需求。芯片设计能力也在提升——2024年中国IC设计企业数量超过3400家(据CSIA数据)。

芯片是长周期行业,不可能一蹴而就。中国芯片的故事还在早期章节。

未来:三条路径

CPU的下一个十年,有三条清晰的发展路径:

RISC-V:开源的搅局者

RISC-V是一种开源指令集架构,2010年诞生于加州大学伯克利分校。它最大的优势是免费、开放——任何公司都可以基于RISC-V设计自己的芯片,不需要向ARM或Intel支付授权费。

目前RISC-V主要在嵌入式和物联网领域发展。但已经有公司在尝试做高性能RISC-V芯片,比如SiFive、阿里平头哥的玄铁系列。中国对RISC-V特别积极,因为它不受x86和ARM的授权限制。

RISC-V要在桌面和服务器领域挑战x86和ARM,最大的障碍不是性能,而是软件生态——几十年积累的x86/ARM软件不会自动迁移过来。

AI专用芯片:通用CPU的边界

最近几年最大的变化是:很多原本由CPU做的事情,正在被专用芯片接管。

NVIDIA的GPU在AI训练领域几乎是垄断地位。Google的TPU、各家公司的AI加速卡(如华为昇腾、寒武纪MLU)也在快速发展。即使是传统CPU厂商,也在芯片里集成NPU(神经网络处理单元)——Intel的Meteor Lake、AMD的Ryzen AI、Apple M4的Neural Engine都有NPU。

这意味着CPU会被淘汰吗?不会。CPU是通用的"总管",负责调度、控制流、处理那些不规则的计算任务。AI芯片擅长的是大规模并行的矩阵运算,但不擅长做判断、跳转、管理操作系统这些事情。

未来的计算架构更像是一个"团队":CPU是项目经理,GPU/NPU是各个专业组的干将,各干各的擅长的事。

量子计算:还很远

量子计算经常被媒体描述为"下一代计算",但实事求是地说,它离取代传统CPU还非常遥远。

2025年初,最先进的量子计算机(如Google的Willow、IBM的Heron处理器)在特定问题上展示了"量子优越性",但在通用计算方面,当前的量子计算机还不如一台普通笔记本电脑。

量子计算的真正应用场景是密码学、药物分子模拟、材料科学等极其特殊的领域。对于日常计算需求,经典CPU + GPU的组合在可预见的未来仍是主角。

40年一句话总结

回头看这40年,CPU的进化史其实就是人类不断遇到物理极限、然后想办法绕过去的故事:

每一次"走不下去了"的时刻,都催生了新的技术方向。这种"被逼出来的创新",或许才是半导体行业最迷人的地方。

而对于普通用户来说,最直观的变化其实就是:1985年,一台386电脑售价上万美元,能做的事不过是运行简单的表格和文字处理。2025年,一台几千块钱的手机,CPU性能比当年的超级计算机还强,装在口袋里就走了。

这就是40年的距离。

---

*参考数据来源:Intel/AMD/Apple官方产品规格页、Mercury Research市场份额报告、IBS芯片开发成本研究、CSIA中国半导体行业统计、台积电技术路线图公开资料。*