盘点四大主流计算芯片CPU、GPU、ASIC、FPGA谁将成为AI算力之王？

大家好，欢迎来到IT知识分享网。

导读

从手机到电脑，从本地到云端，无处不在的算力时刻在为我们提供服务，今天的生活能如此便捷，离不开这一颗颗小小的算力芯片。就此话题，我们就来深入地盘一盘当下主流的AI算力芯片，在计算特点和功能上有何不同？

纵观人类历史，从结绳计数、木制计数到巴比伦的粘土板上的刻痕，再到中国古代的算盘，社会生产力的提高与当时所采用的计算工具密切相关。计算工具能力越强，就能大幅缩短人类解决复杂问题的时间，社会生产力水平自然就会越高。

回顾人类工业进程，每一次工业革命都会推动对人们对更强计算工具的追求。第一次工业革命，查尔斯·巴贝奇提出了“分析机”的概念，虽然未能完全实现，但奠定了机械计算设备发展的基础。后来，赫尔曼·霍尔勒斯开发了一种可以执行不同运算的机械计算器，为机械计算设备的发展注入了新的活力。第二次工业革命，电力电气大发展为世界第一台电子计算机的出现创造了条件，从而带来了半个多世纪的科技大发展。

时至今日，我们仍在享受计算机性能不断提升带来的红利。从手机到电脑，从本地到云端，无处不在的算力时刻在为我们提供服务，今天的生活能如此便捷，离不开这一颗颗小小的算力芯片。就此话题，我们就来深入地盘一盘当下主流的AI算力芯片，在计算特点和功能上有何不同？

CPU——传统通用计算之王

今天的我们都知道CPU是计算机的心脏，但CPU具体是怎么运行的很多人不太清楚。CPU，全称Central Processing Unit，即中央处理器。现代电子计算机的发明是基于1940年代诞生的冯·诺依曼架构，这个架构主要由运算器（也叫逻辑运算单元，ALU）、控制器、存储器、输入设备、输出设备等五个主要部分组成。

按照冯·诺依曼架构，数据来了，会先放到存储器。然后，控制器会从存储器拿到相应数据，再交给运算器进行运算。运算完成后，再把结果返回到存储器。大致的架构如图1所示，其中运算器和控制器两个部分组成了CPU的主要功能。

图1 冯·诺依曼架构

上面的计算方式，从数据输入到输出算一个完整的处理流程，冯·诺依曼体系采用的就是串行运算方式。即一次只能进行一项计算任务，只有上一个计算指令完成了，数据存储了，才能开启下一个指令。

这就好比排队进站，只有一个进站口和检查口，也只允许排一条队，如果进站人数很多，就需要等待很长时间才能完成进站，这就是CPU所采用的先进先出运算模式。从个人计算机诞生起，CPU的硬件架构到指令集都是基于串行运算模式设计，其优势是逻辑控制力好，即计算通用性很好，为的就是能应付各种复杂的计算需求，在软件对计算性能要求不高的时代，这种设计是有优势的。

在上世纪80年代，个人计算机主要用于简单的电子表格和文件打印等处理，但进入90年代，随着互联网的快速发展以及图形视窗操作系统的出现，出现了应用程序开发的大爆发，当时在国内，从甩图板、财会电算化到大型网络游戏的引入，对个人计算机的应用性能越来越高，从而给CPU的性能带来了极大压力。

笔者是1998年接触个人电脑，当时最大的感受就是“慢”，不管是打开网页还是玩网络游戏，频繁出现卡顿。也可能是当时的网吧配置低，但那时主流的电脑配置用的奔腾一，运行速度才60MHz，最高的电脑配置才奔腾二，主频450MHz。总体而言，在当时CPU性能实际上已跟不上应用软件的发展需求。

当初英特尔应该也是想急于改变现状，但限于制造工艺水平，想大幅提升CPU性能当时是很困难的，直到2000年奔腾四推出，主频达到1.5GHz，性能不足问题才有所缓解。在此之前，唯一可行的就是将计算机的图形计算交出去，让CPU专司应用。

而就在此时，英伟达抓住机遇，承担起了图形处理任务，于1999年推出业界第一款GeForce 256图形卡，就是我们今天所说的GPU，专司图形处理。或许英特尔也不曾料到，20年后，这个曾经替自己接下算力“边角料”的小兄弟，早已超越自己，一骑绝尘而去。

GPU——高性能计算的引领者

GPU，英文为Graphics Processing Unit，又称显示核心、视觉处理器、显示芯片。GPU核心技术包括双重纹理四像素256位渲染引擎、立方环境材质贴图和顶点混合、硬件T&L（几何转换和光照处理）、纹理压缩和凹凸映射贴图。GPU是专门为处理图形数据而创建和调整的处理器。

GPU除作为独立显卡的核心用于个人电脑，为高清视频、大型游戏提供高质量3D图形渲染，基于GPU构建的专业显卡还配置在高端工作站上做复杂的三维设计和工程仿真。但当前GPU最重要的应用场景还是AI计算，支撑AI大模型的训练和推理。那为什么CPU不行，非GPU不可？

前面已经讲过，GPU的推出就是为了接手原本由CPU负责的图形显示处理工作。因而GPU架构有其先天的计算特征，就是完全为3D图形处理而设计，就是在CPU的控制指令下，为大量的实时的图形图像显示提供计算。由于是听候CPU安排，因此GPU的控制单元比较少，计算单元却非常多，CPU和GPU的架构如图2所示。如果CPU是孤胆英雄，能独当一面，那么GPU就是无数的小兵，靠规模致胜。

图2 CPU和GPU架构比较

由于CPU指令相对复杂，它需要做好资源的调度和控制，支持操作系统的中断处理、内存管理、I/O处理等，运算过程需要大量的逻辑控制，因此内部的控制单元较多，极大挤压了计算单元数量，使计算性能受到很大限制，还需要预留空间为数据建立多级缓存；GPU运算就不需要考虑这些，也无需太多的控制单元，芯片上大部分空间都留给了计算单元，因此适合并行计算任务和大规模数据访问，通常具有更高的带宽和更低的延迟。

试想一下，有个计算任务需要进行1000个加减运算，你说是一个人做快呢，还是让1000个人每个人算一个加减运算快呢，结果很显然。如何理解GPU所做的功？再举个例子：

现在电脑显示器的分辨率越来越高，以4K显示器来说，分辨率就达到了3840*2160，就是829万4400个像素点，按照RGB三色显示，单个像素的字节位就达到了24bit，也就是显示器刷新一次就要处理高达1.99亿个bit。如果再乘以显示器刷新率，一般高端显示器刷新率最低也在120Hz，一秒钟仅GPU就得处理240亿个bit。

可见，仅图形显示处理就对计算性能要求很高。如果全部依赖CPU来处理，即使性能再强也会不堪重负，并严重拖慢正常软件应用的计算效率。当然现在的CPU也发展出了多核心和多线程，英特尔最新发布的至强处理器就有64核心128线程，但比起英伟达H100的18432个CUDA核心，仍然是小巫见大巫。

随着人工智能应用的不断深入，为AI大模型提供训练和推理运算已成为当前及未来一段时间高性能计算发展的主流。由于英伟达早在十多年前就开启人工智能计算布局，GPU已成为各大AI应用的首选。而CPU受限于架构问题，在这场人工智能竞争中已经成为协助角色，但尽管GPU风光无限，却仍然存在强大的竞争者，而它就是ASIC！

ASIC——GPU面临最强竞争

去年12月，谷歌官宣了多模态大模型Gemini，包含了三个版本，其中Gemini Ultra版本甚至在大部分测试中完全击败了OpenAI的GPT-4。同时还丢出另一个重磅炸弹——TPU v5p，号称是现在最强大的AI自研芯片。

TPU，全称Tensor Processing Unit，即张量处理单元。所谓“张量（tensor）”，是一个包含多个数字（多维数组）的数学实体。目前，几乎所有的机器学习系统，都使用张量作为基本数据结构。所以，张量处理单元，我们可以简单理解为“AI处理单元”。

图3 谷歌TPU

谷歌TPU就是基于ASIC专用芯片开发，为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制，所以ASIC与通用芯片相比，具有以下几个方面的优越性：体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。但ASIC芯片的算法是固定的，一旦算法变化就可能无法使用。

随着人工智能算法不断涌现，ASIC专用芯片如何做到适应各种算法是最个大问题，如果像GPU那样，通过架构来适应各种算法，那ASIC专用芯片就变成了同CPU、GPU一样的通用芯片，在性能和功耗上就没有优势了。这意味着玩AISC芯片需要强大实力，包括雄厚的资金，强大的技术实力和丰富的应用场景。

这里请注意，谷歌去年发布TPU v5p的时候，一同发布了多模态大模型Gemini，该模型在图像、音频、视频和文本领域拥有强大的功能。与英伟达开放GPU购买策略不同，谷歌高端TPU主要供自家产品和服务运用，这才是关键。换句话说，谷歌高端TPU是基于自家多模态大模型Gemini开发的专用AI芯片，在自家的产品和服务上做到最优，性能表现丝毫不输GPU。

公开的信息显示，TPU v5p每个模块有8960颗芯片，较之上代v4的4096有所提升，且每块架构内的总浮点运算次数（FLOPs）增加至原来的四倍，吞吐能力达到惊人的4800Gbps。新型架构在内存及带宽方面更为出色，高达95GB的高带宽内存（HBM）远超TPU v4的32GB。

根据官方数据显示，谷歌的TPU v5p在训练大规模语言模型上性能表现，达到了A100 GPU四倍，比起英伟达的顶配H100显卡性能也丝毫不落下风。当然这只是谷歌基于自身的Gemini模型做的测试，肯定在研发阶段就做了优化和匹配。但足见TPU v5p性能之强，同时也可以说明，ASIC芯片在AI大模型应用方面有着丝毫不输GPU的优势。

截至目前，谷歌、英特尔、英伟达都相继发布TPU、DPU等ASIC芯片，国内ICG、寒武纪、比特大陆、地平线、阿里巴巴等也都推出了深度神经网络加速的ASIC芯片。目前GPU应用范围广，市场非常成熟，但并不意味着其他的芯片就没有机会，ASIC的发展势头依然很猛，正在成为GPU最强大的挑战者。

FPGA——CPU智算的最佳伴侣

FPGA全称是可编程逻辑门阵列，内部结构由大量的数字（或模拟）电路组成，可以实现各种功能。FPGA是ASIC的一种，只是ASIC是全定制电路芯片，FPGA是半定制电路芯片，它解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。

数据计算包括两种方式：一种是利用CPU或GPU基于指令的架构编写计算所需的软件，另一种是针对特定计算需求设计制造出一套专用的电路，比如ASIC、FPGA。但不同的是，对FPGA进行编程要使用硬件描述语言，硬件描述语言描述的逻辑可以直接被编译为晶体管电路的组合。所以FPGA实际上直接用晶体管电路实现用户的算法，没有通过指令系统的翻译。

相比于CPU 和GPU数据处理需先读取指令和完成指令译码，FPGA不采用指令和软件，是软硬件合一的器件。因而计算效率更高、功耗更低，且更接近IO。

图4 FPGA芯片

举个例子，假如拿一块主频 3GHz的CPU和一块主频 200MHz的FPGA做运算，若做某个特定运算，CPU需要30个时钟周期，FPGA只需一个，则耗时情况：CPU：30/3GHz ＝10ns；FPGA：1/200MHz ＝5ns。就是说，FPGA 做这个特定运算速度比CPU块，能帮助加速。

除了计算效率更高，有机构对FPGA与CPU在执行深度学习算法时的耗能进行了对比。在执行一次深度学习运算，使用 CPU耗能 36 焦，而使用 FPGA只耗能10焦，取得了3.5 倍左右的节能比。通过用FPGA 加速与节能，让深度学习实时计算更容易在移动端运行。

这就是为什么AMD和英特尔不惜重金收购FPGA厂商的原因所在。在智能计算路线布局上，AMD实际上比英特尔更完善。传统CPU时代，AMD得到了英特尔X86架构授权，成为与英特尔并行而立CPU大商，而后通过收购显卡厂商ATI入主GPU赛道，成为英伟达的最大竞争者，到2022年通过收购FPGA领域老大赛灵思，AMD最终完成“CPU+GPU+FPGA”的智能算力战略布局。

而英特尔由于未能在GPU时竞开发出能与英伟达同台竞争的超算产品，只能选择在2015年收购FPGA领域的老二Altera，最终形成“CPU+FPGA”的智能计算组合，虽非优选，但的确开拓了一条新智算发展新路线。

相比CPU和GPU，FPGA 凭借比特级细粒度定制的结构、流水线并行计算的能力和高效的能耗，在深度学习应用中展现出独特的优势，在大规模服务器部署或资源受限的嵌入式应用方面有巨大潜力。

此外，FPGA 架构灵活，使得研究者能够在诸如GPU的固定架构之外进行模型优化探究。特别是在采用FPGA后，即便芯片产品已经制造出来，但依然可以对其重新编程或进行功能升级。

写在最后

从1997年IBM深蓝计算机在国际象棋对弈中战胜世界冠军卡斯帕罗夫，再到2016年谷歌AlphaGo在围棋比赛中战胜李世石，包括后来将世界冠军柯洁斩于马下。这些年我们一次次地被人工智能展现出来的强大能力所震撼。特别这两年，AI应用的快速发展，让我们真切地感受到人工智能时代已经到来。但也认识到，人工智能发展仍处于初级阶段，AI应用对算力的需求是无止尽的。

目前主流Al芯片就三类：以GPU为代表的通用芯片、以ASIC定制化为代表的专用芯片以及以FPGA为代表的半定制化芯片，其中GPU市场最为成熟且应用最广。但人工智能产业发展除了需要强大的算力，还需要更优秀的算法和庞大的数据支撑，GPU能否在AI算力竞争中持续保持优势仍是未知。在我们看来，有谷歌和华为背书的ASIC，以及英特尔和AMD背书的FPGA，未来都是有很大破局机会的。

转自公众号：华南智能制造

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/52400.html

盘点四大主流计算芯片CPU、GPU、ASIC、FPGA谁将成为AI算力之王？

相关推荐

发表回复