Linus Torvald认为ECC技术很重要

Linux之父Linus Torvald在2021年1月1日,在一串以Ryzen 9 5000系列处理器为题的讨论流,提到他自己对修正错误内存(Error-Correcting Code memory,ECC)的看法,认为英特尔的定价和市场切分策略,影响了ECC内存的普及程度,而AMD对于非官方ECC内存的支持,对于ECC在市场普及程度有正向贡献。

Linus Torvald与芬兰游戏公司资深程序设计师Jukka Larja,在论坛中讨论AMD与英特尔多核心处理器的性能与价格。Linus Torvald提到,由于英特尔的Xeon CPU的定价模型,用户如果要获得2倍的运算性能,基本上要付出5倍的价格,因此他自己在个人工作站,都仅使用英特尔的消费型CPU,而使用AMD的Ryzen Threadrippers,即便需要花更多的钱购买主板和散热组件,但仍可以让用户几乎以2倍价格,买到2倍的运算性能,也就是说,用户的花费可以获得对等的运算性能。

Linus Torvald表示,Threadripper还提供ECC功能,他补充说明,过去英特尔毫无疑问的是高核心数CPU的领导厂商,他也对英特尔的消费型产品很满意,除了定价策略之外,唯独不认同的就是英特尔对ECC的态度。

Jukka Larja同意了Linus Torvald大部分的说法,他自己不只在个人台式机使用AMD,在工作上,他们也使用Ryzen 9系列以及Threadrippers,同意AMD目前拥有优秀的产品线,但认为AMD非官方支持的ECC并不重要。

为此,Linus Torvald以长篇幅的文章,回应Jukka Larja“ECC绝对重要”,他认为ECC的可用与否非常重要,但是因为英特尔的市场切分策略,几乎扼杀了整个ECC产业。以主板来说,市场上大部分仍是非ECC的型号,仅有少数支持ECC,但是价格又太过高昂。

Linus Torvald也提到,现在要找到ECC双列直插式内存模块(DIMM)并不容易,而由于AMD,这个情况开始有所改善。ECC能够预防Rowhammer错误,Linus Torvald表示,现在连存储设备制造商内部都开始进行ECC,因为他们认为有其必要性。Rowhammer是DRAM中会发生的一种意外情况,会导致存储器单元泄露电荷,导致位元反转,而这是因为现在高密度DRAM单元所造成,可采用ECC技术来防止这问题发生。

反对ECC的意见,通常是经济性与功耗问题,Linus Torvald不认为这是真正的理由,Rowhammer问题已经存在已久,而硬件制造商仍然宣称Rowhammer的发生是因为攻击造成,而非偷工减料,他表示,虽然制造商没有说实话,消费者永远不会知道,非攻击性所造成的位元反转次数发生频率,但他斩钉截铁认为,Rowhammer问题一定会发生,事实不如制造商对外宣称,现代DRAM够可靠,不需要ECC的说法。

Linus Torvald提到,数十年来,不停地发生无法解释奇怪的随机核心错误,而这些错误的成因,皆指向糟糕的内存,这不仅是一个位元反转的问题,而是可能造成核心崩溃。他气愤的认为英特尔是主要厂商,却是导致ECC市场崩溃的原因,虽然AMD非官方支持ECC,但是却允许市场开始修复这些问题。