太平洋科技笔记本

台积电董事长：3D小芯片技术是打造1万亿晶体管GPU的关键

小烂毛整合编辑：杨玥锴发布于：2024-04-03 17:46

在近日的IEEE Spectrum报告中，台积电董事长刘德音和首席科学家黄汉森对外表示，随着人工智能的快速发展，对性能密度更高的GPU需求激增。他们预测，未来的GPU将需要集成一万亿个晶体管，而这样的技术突破可能在2030年代初实现。

两位高层指出，尽管晶体管数量持续增加，但目前的单芯片设计受到光罩限制的挑战，最大的光罩限制约为800平方毫米。这不仅导致生产成本昂贵，而且在短期内难以实现一万亿晶体管的目标。因此，他们认为3D小芯片技术和3D堆叠将是实现此目标的关键。通过将多个芯片并排和叠加在一起，可以突破现有技术的局限，同时还能降低制造成本。

报告中还提到，3D堆叠技术不仅有助于增加内存密度，还可以用于其他目的，例如AMD的3D V-Cache技术在其基于小芯片的Ryzen和Epyc系列CPU上的应用。

台积电的历史趋势图显示，自2008年以来，晶体管数量大约每八到十年增加十倍。从一百亿到一千亿，再到最近NVIDIA的Blackwell GPUs突破的一千亿晶体管障碍，都证明了这一趋势。

尽管台积电预计在2034年实现一万亿晶体管的目标，但英特尔首席执行官Pat Gelsinger表示，他预计在2030年即可实现。与台积电的观点一致，Gelsinger也强调了3D堆叠的关键性，同时提及了如Ribbon FETs和背面电源传输等晶体管级别的改进。

无论首个一万亿晶体管GPU（或CPU）是在2030年还是2034年问世，多芯片设计与3D堆叠技术都将成为半导体行业未来发展的关键方向。

原文翻译："我们如何实现一个拥有1万亿晶体管的GPU —— 半导体技术的进步正在推动AI的繁荣"

在1997年，IBM的深蓝超级计算机击败了国际象棋世界冠军加里·卡斯帕罗夫。这是超级计算机技术的一次突破性的展示，也是高性能计算有朝一日可能超越人类智能水平的一个初步迹象。在接下来的十年里，我们开始将人工智能应用于许多实际任务中，如面部识别、语言翻译和推荐电影及商品等。

再快进十五年，人工智能已经发展到可以“合成知识”的地步。生成型AI，如ChatGPT和Stable Diffusion，能够创作诗歌、创造艺术作品、诊断疾病、编写摘要报告和计算机代码，甚至设计出与人类相媲美的集成电路。

对于人工智能成为所有人类努力的数字助手的巨大机遇，ChatGPT就是一个很好的例子，展示了AI是如何使高性能计算的利用民主化，为社会的每一个个体带来好处。

所有这些令人惊叹的AI应用都归功于三个因素：高效的机器学习算法的创新、大量可用于训练神经网络的数据的可获得性，以及通过半导体技术进步实现的能效计算方面的进展。尽管它在普及度上得到了应有的认可，但最后一项对生成型AI革命的贡献却相对较少。

在过去的三十年里，AI的主要里程碑都是由当时的领先半导体技术所驱动的，没有它，这些里程碑是不可能实现的。Deep Blue使用了0.6微米和0.35微米节点芯片制造技术混合实施。赢得ImageNet竞赛并开启当前机器学习时代的深度神经网络，则是用40纳米技术实施的。AlphaGo使用28纳米技术征服围棋，而最初的ChatGPT版本是在由5纳米技术构建的计算机上训练出来的。最新的ChatGPT版本则由使用更先进的4纳米技术的服务器提供动力。从软件和算法到架构、电路设计和设备技术，计算机系统涉及的每一层都是AI性能的倍增器。但可以说，基础晶体管器件技术是推动上述各层进步的关键。

如果AI革命要继续保持当前的步伐，那么它将需要半导体行业做出更多的努力。在未来十年内，我们需要一个拥有1万亿晶体管的GPU——即比目前常见的GPU多出十倍晶体管的GPU。

AI模型大小的无情增长

过去五年中，AI训练所需的计算和内存访问量已增加了数个数量级。例如，训练GPT-3需要相当于一天内进行超过50亿亿次运算（即5,000 petaflops-days），以及3万亿字节（3 terabytes）的内存容量。

新的生成型AI应用程序所需的计算能力和内存访问量仍在迅速增长。我们现在需要回答一个紧迫的问题：半导体技术如何才能跟上这一需求？

从集成器件到集成小芯片

自从集成电路发明以来，半导体技术一直致力于缩小特征尺寸，以便在指甲盖大小的芯片上塞入更多的晶体管。如今，集成又上升了一个层次；我们正在超越二维缩放进入三维系统集成。我们现在正将多个芯片组合成一个紧密整合、高度互联的系统。这是半导体技术集成的一个范式转变。

在AI时代，系统的功能直接与其集成的晶体管数量成正比。主要的限制之一是光刻制芯片工具被设计成只能制作大约800平方毫米的IC，这就是所谓的掩模版限制。但现在我们可以将集成系统的尺寸扩展到超出光刻掩模版的限制。通过将几个芯片附着到一个较大的中介层——一块硅片，其中建有互连——我们可以集成一个包含比单个芯片所能容纳多得多的设备的系统。例如，台积电的晶圆上芯片封装（CoWoS）技术可以容纳多达六个掩模版区域的计算芯片，以及一打高带宽内存（HBM）芯片。

HBMs是另一个对AI越来越重要的关键半导体技术：通过在顶部堆叠芯片来集成系统的能力，我们在台积电称之为系统集成芯片（SoIC）。HBM由位于控制逻辑IC顶部的垂直互联DRAM芯片堆栈组成。它使用称为穿硅通孔（TSVs）的垂直互连来获取每个芯片的信号，并通过焊球形成存储芯片之间的连接。今天，高性能GPU广泛使用HBM。

展望未来，3D SoIC技术可以提供一种“无凸点替代方案”，以取代传统HBM技术，在堆叠的芯片之间提供更密集的垂直互连。最近的进展显示，使用混合键合（一种铜到铜连接，其密度高于焊球所能提供的）的HBM测试结构具有12层的芯片堆叠。在更大的基础逻辑芯片顶部低温焊接，这种存储系统的总厚度仅为600微米。

由大量裸片运行大型AI模型的高性能计算系统组成时，高速有线通信可能会迅速限制计算速度。今天，光学互连已经被用于数据中心的服务器机架连接。我们将很快需要基于硅光子学的、与GPU和CPU封装在一起的光学接口。这将允许能量和面积效率高的带宽进行直接的光学GPU到GPU通信，使得数百台服务器能够像一台巨大的统一内存的GPU一样工作。由于来自AI应用的需求，硅光子学将成为半导体行业最重要的赋能技术之一。

迈向一个拥有1万亿晶体管的GPU

正如前面提到的，用于AI训练的典型GPU芯片已经达到了掩模版限制。它们的晶体管数量约为1000亿个。继续增加晶体管数量的趋势将需要多个芯片，通过2.5D或3D集成进行互联，以执行计算。通过CoWoS或SoIC及相关高级封装技术集成的多个芯片，可以实现比单个芯片所能挤入的晶体管总数多得多的系统。我们预测，在未来十年内，多芯片GPU将拥有超过1万亿晶体管。

我们需要将所有这些小芯片在三维堆栈中链接起来，幸运的是，业界已经能够迅速缩小垂直互连的间距，从而增加连接的密度。而且还有很大的空间可以继续扩大。我们认为没有理由认为互连密度不能增长一个数量级，甚至更多。

GPU的能量效率性能趋势

那么，所有这些创新的硬件技术是如何贡献于系统性能的呢？

如果我们查看服务器GPU的趋势，我们可以看到在被称为能量效率性能（EEP）的指标上稳步提高。EEP是一个衡量系统能源效率和速度的综合指标。在过去的15年里，半导体行业每两年就将能量效率性能提高了约三倍。我们相信这一趋势将以历史速率继续下去。这将由包括新材料、器件和集成技术、极紫外（EUV）光刻、电路设计、系统架构设计以及所有这些技术元素的协同优化在内的许多创新驱动。

特别是，EEP的增加将由我们在这里讨论的高级封装技术所推动。此外，诸如系统技术协同优化（STCO）这样的概念，其中GPU的不同功能部分被分离到它们自己的小芯片上，并且使用各自的最佳表现和最经济的技术进行构建，将变得越来越重要。

3D集成电路的Mead-Conway时刻

1978年，加州理工学院教授卡弗·梅德和Xerox PARC的林恩·康韦发明了一种计算机辅助设计的集成电路方法。他们使用一套设计规则来描述芯片缩放，以便工程师可以在不深入了解工艺技术的情况下轻松地设计超大规模集成电路（VLSI）电路。

同样类型的能力对于3D芯片设计来说是需要的。今天，设计师需要了解芯片设计、系统架构设计和硬件和软件优化。制造商需要了解芯片技术、3D IC技术和高级封装技术。就像我们在1978年所做的那样，我们再次需要一个共同的语言来描述这些技术，以便电子设计工具能够理解。这样的硬件描述语言将给设计师提供一个自由的手去处理3D IC系统设计，无论底层技术是什么。它已经在路上了：一个名为3Dblox的开源标准已经被当今大多数科技公司和技术公司接受。

突破狭隘，走向广阔未来

在人工智能时代，半导体技术是推动新兴人工智能能力和应用的关键驱动力。新一代GPU不再被简单地限制于过去的标准尺寸和形态。新半导体技术已不再局限于在二维平面上持续缩小下一代晶体管。通过将尽可能多的节能晶体管、专门计算负载的高效系统架构以及软硬件优化等有机结合,可以构建出集成的人工智能系统。

在过去半个多世纪里，半导体技术的发展就像在一条笔直的隧道里前行，发展方向一目了然，减小晶体管尺寸就是明确的既定目标。

如今，我们已走出了这条隧道。未来的道路将更加崎岖，技术发展的难度也将与日俱增。但是，隧道之外是一片广阔的天地，半导体技术不再被过去的束缚所限，各种新颖的可能性正向我们招手。

GPU 多芯片设计 3D堆叠技术

小烂毛

原创栏目