超能课堂:为什么说Armv9架构将会全面挑战x86?

超能课堂:为什么说Armv9架构将会全面挑战x86?更接近于人们认知的是苹果推出了首款自研芯片M1,从自己产品线吹响了取代英特尔芯片的号角,无论对于苹果还是Arm生态系统,这都是一个划时代的产品。

大家好,欢迎来到IT知识分享网。

近十年来,Arm整个生态体系有了飞速的发展。这得益于智能手机的普及,几乎所有人都知道了Arm的存在。事实上更大的变革来自其他方面,比如桌面平台、服务器和超算领域。更接近于人们认知的是苹果推出了首款自研芯片M1,从自己产品线吹响了取代英特尔芯片的号角,无论对于苹果还是Arm生态系统,这都是一个划时代的产品。x86已经主宰了计算机行业多年,随着Arm的崛起,接下来的将面临有史以来最大的挑战。

超能课堂:为什么说Armv9架构将会全面挑战x86?

Armv8架构是Arm在2011年推出的第一款64位架构,相比Armv7架构是一个巨大的跨越。苹果在其中扮演了重要的角色,也借此迅速地推出了一连串基于此架构的芯片,从iPhone和iPad系列产品,最终拓展到了桌面平台的iMac上,在市场竞争中占据了先机,因此大获成功。不少企业也基于此架构,开发了可用于服务器和超算领域的产品,个别产品也获得了不错的效果,Arm架构芯片得到了更广泛的应用。可以说Armv8架构让Arm芯片从小型或移动设备,进入了新的领域。

前一段时间,Arm发布了全新的Armv9架构,开启了新的征程。根据Arm官方的介绍,新的Armv9架构将会至少使用10年,未来两代基于Armv9架构的处理器在性能上有望提升30%。与Armv8架构不同的是,Armv9架构的适用范围更广阔,其一系列改进不少都是为了Arm架构芯片可以实现高性能计算做铺垫,也就是说更接近于大家口中“x86处理器的对手”这个定位。

Armv9架构相比Armv8架构改进了什么?

在Armv8架构基础上,Armv9架构继续使用AArch64作为基准指令集,保持了向下兼容性,在此基础上分别在安全性、AI(机器学习)以及可伸缩矢量扩展和DSP上做出改进,扩展了应用范围。Armv9架构包括了三个系列,分别是通用计算的A系列、实时处理器的R系列和微控制器的M系列。

超能课堂:为什么说Armv9架构将会全面挑战x86?

Armv9架构在安全性方面做了多方面的工作,比如引入了Arm机密计算体系(Confidential Compute Architecture, CCA)和动态创建机密领域(Realms)概念,通过打造基于硬件的安全运行环境来执行计算,保护代码和数据免被窃取或修改。Arm还与谷歌合作开发了“内存标签扩展”技术,可以在软件中查找空间和时间的内存安全问题。另外,Arm与剑桥大学在其CHERI架构上进行合作,从架构底层提高安全性。

Arm认为,未来计算性能的提升非常重要的驱动力就是AI。不同的设备的AI性能需求不同,对AI处理器的要求也会不一样。为了满足未来的行业需求,Arm在原有的SVE(可伸缩矢量扩展)指令集基础上,开发了SVE2指令集,增强了新一代Arm架构在高性能计算、5G网络、虚拟现实、AI和DSP等方面的性能。另外Arm对矩阵乘法的进一步优化,以及Mali GPU和Ethos NPU的持续改进,也将扩展Armv9架构的技术能力。

随着各行各业对处理器的要求已从通用计算向专用计算发展,为了满足各方对性能的需求,Arm提出了全面计算(Total Compute)的设计方法。通过对系统级硬件(包含Arm的CPU、GPU、NPU)和软件优化,将全面计算的设计方法应用在汽车、用户端、基础设施和物联网等解决方案的整个IP组合中,让Armv9架构加速总体计算性能。

富士通在Armv9架构开发过程中的作用

超能课堂:为什么说Armv9架构将会全面挑战x86?

富士通(Fujitsu)作为一家在超级计算机领域有着丰富经验的企业,与Arm合作开发了SVE指令集来扩展Arm处理器。SVE指令集并不是Armv8基本规范的一部分,只是一个扩展,不过在Armv9里,已经成为了标准规范的一部分。虽然SVE作为初代产物,应用范围有限,并且更多地只是针对HPC工作负载,但作用不可忽视。

Arm和富士通的合作成果是A64FX,是首款使用SVE指令集的Arm架构处理器,也就是目前世界排名第一超算系统“Fugaku”使用的芯片,表现相当亮眼。

根据富士通的介绍,A64FX采用台积电7nm FinFET工艺制造,拥有87.86亿个晶体管,596个信号针脚,集成了52个核心,包括48个计算核心和4个一样结构的管理核心。所有的52个核心分为四组,每组13个,共享8MB二级缓存。每组之间的互联使用的是富士通第二代TOFU,也就是6D mesh/torus片上互联网络。同时配置了配的32GB HBM2内存,16条PCIe Gen3通道,拥有1024 GB/s的存储带宽。可以提供2.7 TFLOPS@64bit,21.6 TFLOPS@8bit的性能。

超能课堂:为什么说Armv9架构将会全面挑战x86?

基本上A64FX是一款除了贵,没有什么缺点的产品。Arm与富士通在A64FX合作开发过程中,得到了超算系统方面的大量研发经验,为接下来Armv9架构的标准规范制定工作奠定了坚实的基础。

随着人工智能、机器学习和数据分析等项目在经济生产和日常生活中变得更普遍,数据中心和超算系统将越来越受到重视。这个由英特尔和AMD的x86处理器主导的市场,自然也是未来Arm想要涉足的地方。在这个领域,富士通A64FX处理器为Arm打响了第一枪,可以说是Arm架构芯片一次成功的试水。

SVE2与x86的SIMD相比有什么优势?

对于目前使用基于Armv8架构处理器的iPhone或iPad系列这样的产品,想运行某些为A64FX制作的代码是不可行的,因为不支持SVE指令集。在不久的将来,基于Armv9架构处理器的新一代移动设备却可以做到,因为SVE指令集已经成为Armv9架构标准的一部分。从这个角度来看,等于将“超算”塞进了口袋。

在现代微处理器中,处理矢量的指令被称为SIMD指令。从技术上讲,Arm的Neon和SVE指令集都可以视为SIMD指令的一种形式,这是单指令多数据流的简称。简单来说,就是当你向CPU发出一条指令,然后会在同一时间对多个值进行相同的操作。这类型的指令集其实很常见,在x86微处理器里,为更快进行多媒体处理和视频编解码工作,使用了包括MMX、SSE系列和现在的AVX系列等指令集,都有相似的思路和作用。

超能课堂:为什么说Armv9架构将会全面挑战x86?

不过目前x86的SIMD指令存在一定的问题。比如一些看起来相同的指令,因为参数不同,都会被编码为独立的指令。另外矢量寄存器由MMX的64位,扩展到AVX-512的512位,但由于在x86的SIMD指令里,矢量寄存器的长度会被编码在SIMD指令中,需要增加一条指令来处理,长度不同的矢量寄存器都要添加新的扩展和指令,所以每当英特尔提供更大的矢量寄存器,就不得不大量增加新指令以适应矢量寄存器长度的变化。自1978年以来,IA-32指令集已从80条增加到大约1400条,主要就是由SIMD指令推动的,最终变得越来越臃肿,编译也变得愈加繁琐。

在x86的早期,处理器制造工艺的提升相对容易,晶体管数量可以很轻松地以几何级数量增加,指令集的条数也不算多,想加入更大的矢量寄存器并不难,每隔几年增加新指令也是常态。不过随着工艺开发越来越难,以及晶体管密度过高造成的各种问题,通过这种方式提高性能可能开始有点行不通了。目前在消费级平台,使用AVX-512指令集的时候会有什么样的效果,英特尔第11代酷睿系列处理器的表现相信已经有目共睹了。

一般来说,使用x86处理器的领域允许其做得更大,功耗高一些可能也没关系,对于超算系统使用的处理器而言,更不会那么严格。不过Arm架构的处理器大多是用在小型设备上,对功耗和散热都很敏感,所以就变得很谨慎了。更重要的一点是,Arm试图让自己的架构可以覆盖更广泛的领域,从微小的嵌入式设备到“Fugaku”这样的超算系统。虽然Arm也能提供不同的指令集,或者为不同的细分市场提供不同的配置标准,但软件可以在所有Arm架构芯片上编译和运行会更符合Arm的利益,发挥出其架构的最大效益。

超能课堂:为什么说Armv9架构将会全面挑战x86?

如果Arm按照x86的这种思路,显然是达不到自己想要的效果。而SVE/SVE2指令集可以让Arm做到不同类型芯片上提供可变长度的矢量寄存器,一个矢量寄存器的最小长度为128位,最大长度为2048位。无论在什么样的Armv9架构芯片上运行,矢量的可变长度都为128位。

未来智能手机使用的Arm处理器,可能使用128位的矢量寄存器就可以了,而在超算系统里,则可以使用2048位的设计,代码能够充分利用矢量寄存器的长度以达到更高的性能。这意味着同样的代码其实可以适用于超算系统和普通人的智能手机,这是目前x86的SIMD指令所做不到的,而且需要解码和管理的指令也更少,装入缓存的指令也少得多。

或许有人会产生一个疑问,为什么SVE2与SVE有什么不同?带来了什么变化?

SVE指令集是Armv8架构里的一个可选扩展,为适应高性能计算需要而设计的,适用性有限。对于大多数用户而言,更多地是使用Arm的Neon指令集,所做的多媒体工作负载可能更贴合他们的需求,对于这类型工作基本不需要长的矢量寄存器。SVE2指令集一方面完善了SVE指令集的不足,另一方面基本做到了原来Neon指令集所要做的事情,而且有着更高的效率和更好的灵活性,可变长度让其不但适应使用长矢量寄存器的工作,还能胜任使用短矢量寄存器的任务。

Arm未来可期,x86将面临真正的挑战

超能课堂:为什么说Armv9架构将会全面挑战x86?

未来用户根据自己的实际用途,使用Armv9架构可以设计出更适合自己的芯片,既可以是最小最省电的芯片,也可能是要求最高性能的芯片,而且用户只需要编译一次。这也避免了Arm相隔几年就要考虑大量加入新的SIMD指令,使其加入到英特尔和AMD的SIMD指令军备竞赛中。SVE2指令集为使用Arm架构芯片的用户提供了一个具有稳定性和可发展空间的平台,开发人员编写和优化Arm代码变得更加容易,这有利于编写机器学习、人脸识别和语音识别的程序变得更加容易,而且不用担心目标平台是否支持这些指令,搭载的设备变得更多样化。

事实上RISC-V和Arm一样,在指令集类型上有一样的追求。在未来几年,英特尔和AMD将面临严峻的挑战,在机器学习、人工智能、数据中心和超算等高性能、高利润的领域,面对的竞争对手并不是彼此,而是Arm甚至RISC-V这样的新生势力强有力的冲击。Armv9架构的发布,指明了Arm前进的方向,未来的道路已渐露曙光。当了解了这些以后,再看看英伟达想以400亿美元买下Arm,是不是觉得有点超值?

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/51739.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信