Zen 4架构解析,站在前人基础上继续强化运算性能

让我们一起来深入了解Zen 4架构的改进之处。AMD Ryzen 7000系列处理器采用Zen 4架构,搭配TSMC(台积电)5nm节点制程,前者通过改善架构的方式带来约13%的处理器IPC(Instructions per Cycle,每周期指令)性能提升,而后者则有助于提高处理器运行时脉,让最高Turbo时脉飙到5.7GHz,2者整合可以带来29%的性能提升,时代升级的效益相当明显。

AMD技术营销总监Robert Hallock在Ryzen 7000系列桌面处理器产品说明会中特别强调,受益于制程精进的帮助,Ryzen 7000系列处理器的基础时脉基本上已经接近Ryzen 5000系列处理器的最高Turbo时脉。以旗舰产品为例,Ryzen 9 7950X的基础、Turbo时脉分别为4.5、5.7GHz,而Ryzen 9 5950X则为3.4、4.9 GHz,可以看到先进制程在功耗、发热、时脉等综合因素所创造的优势。

至于处理器的架构方面,可以从功能方块图看出Zen 4架构与Zen 3的相似程度很高,但细部还是有许多改良之处。

从前端部分开始细看,Zen 4架构强化分枝预测的机制,并加大68%Op Cache缓存内存容量,有助于提升预测的准确度。而在执行单元部分,指令队列(Instructions Retired Queue,确认预测指令为正确的流程)的宽度提升了25%,也加大整数/浮点数托管器堆(Register File),再搭配访问单元中读取队列(Load Queue)加大22%,L2资料、指令缓存内存由512KB增加1倍至1MB,对于强化整体运算性能、降低延迟都有正面帮助。

Ryzen 7000系列处理器具有许多创新之处,包括Zen 4架构、5nm节点制程、AM5平台、PCIe Gen5总线、DDR5内存。

与前代产品相比,Ryzen 7000系列处理器的IPC提升达13%,加上时脉提高的帮助,整体性能提升达29%。

Ryzen 7000系列处理器的基础时脉快要追上Ryzen 5000系列处理器的最高Turbo时脉。

13%IPC增益来自前端、访问单元、分枝预测、执行引擎、L2缓存内存的改善。

Zen 4架构整体与Zen 3颇为接近,但改善许多设计以强化性能表现。

Zen 4架构功能方块图放大版。

Zen 4架构(右)与Zen 3架构(左)大体规划如出一辙。

Zen 3、4架构的改进项目一览表。

在官方提供的性能对照中,Ryzen 9 7950X在多款游戏、创作软件的性能较Ryzen 9 5950X高出6~48%不等。

而13% IPC增益则是将8核16绪的处理器定频在4.0GHz,并测试多款软件取平均所得。

Zen 4架构的另一大改变是导入AVX-512指令集(Advanced Vector Extensions 512,高端矢量延伸指令集512),并支持BF16(Brain Float 16)、VNNI(Vector Neural Network Instructions,矢量神经网络指令集)等指令,能够加速科学模拟、金融分析、AI(人工智能)、深度学习(ML)、3D模型制作与分析、图片与音频处理、加密与资料压缩等工作负载。

Robert Hallock在说明会中也特别强调,Zen 4架构的AVX-512是通过256bit资料宽度进行实例,虽然会牺牲少许峰值性能,但带来的好处是不会影响处理器的时脉表现,也不会造成发热问题(笔者注:针对性很强啊),根据AMD官方提供的数据,AVX-512能提升FP32资料类型AI推论性能30%,或提升INT8资料类型AI推论性能150%,效果相当显著。

回顾Zen 3架构“型号带X”的Ryzen 5000X系列处理器并不具有内置显示功能,这次Zen 4架构中负责输出、输入功能的IOD(I/O Die)不但由原本的12nm制程节点提升至6nm制程节点,并全面搭载内置显示功能。

首波发布的4颗Ryzen 7000X系列处理器都搭载体有2组运算单元(CUs)的RDNA 2内置显示芯片,基础时脉为400MHz,最高时脉可达2.2GHz,并且支持AV1、VP9硬件解码,以及H.264、H.265(HEVC)硬件解码与编码功能。

在显示的输出部分,最高支持4K分辨率与60FPS更新频率,并支持HDMI 2.1 FRL(Fixed-Rate Link)、DisplayPort 2.0 UHBR10、USB Type-C Alternate Mode等输出接口,功能相当完整。

根据AMD官方的说明,在归纳用户回复的意见后,决定在Ryzen 7000X系列处理器加入最基本内置显示功能,满足商务应用的需求,因此可以解读为仅有“点亮屏幕”的功能,而不具有流畅执行游戏的性能。考虑到它具有丰富的硬件解码与编码以及输出接口等功能,能够确实满足基本使用与播放视频的需求,并省下量机卡的预算,提供用户相当大的组装弹性与便利。

AMD终于Zen 4中导入AVX-512指令集,但采取256bit资料宽度进行实例,在牺牲少许峰值性能的前提下,避免影响处理器的时脉与降低发热。

AVX-512能提升FP32资料类型AI推论性能30%,或提提升INT8资料类型AI推论性能150%。

Zen 4架构的IOD(I/O Die)全面搭载内置显示,并支持HDMI 2.1 FRL(Fixed-Rate Link)、DisplayPort 2.0 UHBR10、USB Type-C Alternate Mode等输出接口。

其内置显示仅具有最低限度的功能,具有2组RDNA 2架构的运算单元(CUs),并支持AV1、VP9硬件解码,以及H.264、H.265(HEVC)硬件解码与编码。

AV1、VP9硬件解码都能支持8K分辨率,实用性相当完整。

笔者尽通过《古墓丽影:暗影》进行初步Ryzen 7000X系列处理器的游戏性能测试,由于其运算单元数量太少,就算已升级为RDNA 2显示架构,性能仍落后分别具有7、8组运算单元的Ryzen 5 5600G、Ryzen 7 5700G等处理器,且就算降低到最低画质,性能也不足30FPS,无法满足最低限度的游戏需求。

与Zen 4架构一并到来的,是AMD的全新的AM5平台,包含LGA1718处理器脚位,以及支持PCIe Gen 5、DDR5等规格。

处理器脚位由AM4的PGA 1331更换至LGA1718最大的优点,就是不用再担心因为黏性特高而被戏称为“祖传水泥膏”的AMD原厂散热膏,造成在拆卸散热器时不慎将整个处理器黏下,而造成处理器背面脚针弯曲的损坏。

另一方面,AM5平台能够提供最高达230W的CPU插槽功率,大幅缓解处理器的功耗墙(Power Wall)瓶颈。而根据AMD表示,多数处理器在遇到功耗墙之前会先遇到TJMax(最高安全执行温度,指在没有损坏或劣化的风险下全天候运行)为摄氏95度的温度墙(Thermal Wall),因此在散热器解热能力充足的前提下,系统会尽可能提升负载以改善性能表现。

PCIe Gen 5则能较AM4平台采用的PCIe Gen 4具有高出1倍的带宽表现,有助于提高显卡与固态硬盘的资料传输性能。以固态硬盘使用的x4宽度总线为例,先前的PCIe Gen 4×4带宽仅有8GB/s,而PCIe Gen 5×4带宽则高达16GB/s,能够提供更大的资料吞吐量。

在内存部分,Zen 4架构处理器只支持DDR5内存,其传输速度规格由DDR5-4800起,目前也已有DDR5-6400的产品问世,相较于DDR4常见的DDR4-3200、DDR4-4000能提供更高的传输速度与带宽,但价格较高却是它无法避免的硬伤(不像Intel的第12、13代Alder Lake、Raptor Lake能同时支持DDR4、DDR5内存)。

为了提升内存性能与平抑成本,AMD也推出免授权费的EXPO内存自动超频规范,它的概念与XMP类似,厂商可以自行验证内存超频的优化参数,将参数提交给AMD并写入模块,对用户而言,只需到BIOS/UEFI设置中打开EXPO设置,就可以达到“一键超频”的效果。

对于想要手动超频的玩家而言,AMD也特别强调在AM4平台中,玩家追求的目标为尽可能拉高FCLK时脉,并以1:1:1(FCLK:MCLK:UCLK,Infinity Fabric:内存控制器:DRAM)模式执行内存。但到了AM5平台推升FCLK时脉不会产生实质效益,因此建议将设置转变为AUTO:1:1(此设置会让FCLK尽量维持在2000MHz),并尽可能拉高内存传输速度,而达到提升带宽与降低时序、延迟的效果。

AM5提供许多新功能,最受瞩目的就是支持PCIe Gen 5总线与DDR5内存。

AMD首波将推出X670E、X670等芯片组,并于10月推出B650E、B650等芯片组。

EXPO自动超频功能使用上相当简单,有助于提升内存性能表现。

在Zen 4架构中提高FCLK时脉不会产生实质效益,因此建议将FCLK设置为AUTO,并尽可能拉高内存传输速度。

与Zen 3架构的Ryzen 5000系列处理器相比,Zen 4架构可以在相同性能下节省62%电力,或在相同功耗下提升49%性能。

这波Zen 4架构的Ryzen 7000系列处理器相关专题报到会先在这边告一段落,我们也预计会在日后补充Ryzen 5 7600X处理器与B650系列芯片组的测试专题,敬请各位读者保持关注。