回顾存储的发展历程。3D Xpoint是自NAND Flash推出以来,最具突破性的一项存储技术。由于具备以下四点优势,3D Xpoint被看做是存储产业的一个颠覆者:

(1)比NAND Flash快1000倍;

(2)成本只有DRAM的一半;

(3)使用寿命是NAND的1000倍;

(4)密度是传统存储的10倍;

而得益于这些优势,3D Xpoint能被广泛应用在游戏、媒体制作、基因组测序、金融服务交易和个体化治疗等领域。以上只是3D Xpoint的一些应用示例。但从以上介绍,我们可以看出,3D Xpoint未来的应用非常有潜力。

目前存储器存在的一些问题

存储器的性能是PC设备上目前的短板。这一点从很多用户由HDD更换为SSD后,感觉像是“换了一个电脑”就能体现出来。HDD目前的传输速度往往在200MB/s以内,寻道时间约为10ms级;SSD传输速度为数百MB/s到几GB/s,寻道时间约为0.1ms以内;更快的内存带宽为几十GB/s,延迟时间低至ns级。再向上还有更高速的缓存、寄存器等设备。

DRAM:易失性难以解决

抛开和处理器紧密相关的高速缓存和寄存器不说,先来看内存和外部存储这两个级别。目前我们使用的内存主要是DRAM。DRAM的核心问题是易失性,其它方面的表现优秀——比如在性能上DRAM的延迟很低(纳秒级别)、带宽较为充裕;寿命方面由于原理所致,DRAM寿命很长。不过,DRAM的存储需要不停供电,断电就会丢失存储的数据。从DRAM被发明出来到现在,DRAM只是不断地在预取值和总线上进行调整,核心的存储架构其实变化不大。

NAND:寿命、延迟不尽如人意

再来看目前广泛应用于存储设备的NAND闪存。NAND闪存分为SLC、MLC、TLC等多种分支颗粒。从寿命上说,NAND是有平均读写次数的寿命的,即使是性能最好的SLC NAND颗粒,其寿命也比DRAM小得多。虽然可以通过设置缓冲空间、平衡磨损算法、提前设置寿命预警来确保NAND不会在使用时“掉链子”、引发数据丢失,但寿命依旧是NAND在使用中不可回避的问题。

此外,受制于存储原理,NAND延迟较高,尤其是写入时存在充电时间,怎么也快不起来,目前只能被用作外部存储设备。但在今天,由于之前有性能更低的HDD机械硬盘的存在,基于NAND颗粒的SSD仍旧让用户感受到了性能的巨大提升。

002NAND20170206 ▲随着制程提升,NAND的容量正在迅速提升,但寿命和延迟等问题,并没有革命性的变化。

003NAND20170206 ▲NAND工作原理图,绝缘浮置栅极是其存储数据的核心。

性能鸿沟:PC架构的问题

所谓性能鸿沟,就是上下两级系统存在较大的性能差距,使得级次缓存的设计方案很难体现出最佳的效果堪称天堑;在NAND和DRAM上,这个鸿沟相比DRAM和HDD之间的性能鸿沟略有缩小,但是本质上的变化并不明显。举例来说,NAND设备目前的最快速度差不多在2GB/s~3GB/s,处理器的内存带宽已经突破50GB/s大关,两者间差了一个数量级。延迟上,DRAM只有十几纳秒,相比NAND的约一百微秒,快了好多个数量级。

实际上,内存和外部存储之间的性能差距过大,已经成为影响用户体验继续提升的瓶颈。所以研究机构一直在提出很多解决方案,试图解决这个鸿沟,比如相变存储器、赛道存储器、全新的高速磁存储设备等。但这些技术不是还深藏在实验室中,就是刚在PPT上公诸于众。到了去年,作为存储业界的领军企业之一的英特尔和美光,终于将其中一种全新的存储技术推向了前台,这种技术同时拥有高性能和非易失性两种特性,这就是今天的主角:3D XPoint!

004NAND20170206 ▲内存的基本技术结构也已经很久没有革命性的变化。目前最快的DDR4内存,仍旧只能充当暂存器。

3D XPoint的原理

目前英特尔和美光对3D XPoint应用的物理特性闭口不谈,资料更是匮乏。一些不具名的介绍资料显示,3D XPoint使用的标记数据状态的物理值不是业内常用的电压、也不是电流,更不是目前还在实验室内的磁极,而是电阻。

005NAND20170206

3D XPoint的工作原理与NAND存在着根本性的不同。NAND通过绝缘浮置栅极捕获不同数量的电子以实现bit值定义,而3D XPoint则是一项以电阻为基础的存储技术成果,其通过改变单元电阻水平来区分0与1。

006NAND20170206

3D XPoint的结构非常简单。它由选择器与内存单元共同构成,二者则存在于字线与位线之间(因此才会以‘交叉点’来定名)。在字线与位线之间提供特定电压会激活单一选择器,并使得存储单元进行写入(即内存单元材料发生大量属性变化)或者读取(允许检查该存储单元处于低电阻还是高电阻状态)。猜测,写入操作要求具备较读取更高的电压,因为如果实际情况相反,那么3D XPoint就会面临着上在读取存储单元时触发大量材料变化(即写入操作)的风险。英特尔与美光双方并没有透露内部读取/写入的具体电压数值,不过根据得到的消息,其电压值应该低于NAND——后者需要利用约20伏电压来编写/擦除以创建出足够通过绝缘体的电场电子隧道。而这种较低的电压要求自然也能够使得3D XPoint拥有比DRAM以及NAND更低的运行功耗。

007NAND20170206

顾名思义,3D XPoint的存储单元可以以3D方式进行堆叠,从而进一步提升存储密度。目前第一代晶粒样品使用的是双层设计方案。双层听起来实在有些寒碜,特别是考虑到目前的3D NAND芯片已经拥有32层,且逐步开始向48层进军。不过3D XPoint的构建方式完全不同,直接进行层数比较显然并不科学。

3D NAND在制造过程中首先加入沉积导电层,而后再在每一层之上添加绝缘材料。只有在全部层沉积完毕之后,整个“单元塔”才能以光刻方式进行定义,而后再在高纵横比蚀刻孔内填充通孔材料以实现各层内存储单元的彼此互通。相比之下,3D XPoint的每一层都需要进行光刻与蚀刻(即在各层之上重复同样的流程),接下来再对下一层进行沉积。这种方式牺牲掉了3D NAND所带来的一部分经济优势(即光刻步骤较少),但3D XPoint却同时带来了远高于纯光刻技术所能实现的出色存储密度。

英特尔与美光公司指出,未来工艺尺寸伸缩将同时出现在光刻与层3D堆叠这两个方面。横向与纵向的规模可调整能力将成为关键,保证其未来仍然具有进一步可延展性,这是因为基于氩氟的传统多模式浸没式光刻技术在10纳米级别上已经失去了经济性优势,而目前尚未出现任何明确的继任技术可供选择。当下业界普遍将希望寄托在EUV身上,而英特尔与美光则确认称,3D XPoint将(不出所料)兼容EUV光刻,而且存储单元设计尺寸可以最大缩水至个位数纳米级别——同时不会对使用帮助/可靠性造成显著影响(事实上,随着物理尺寸的下降,其在某些方面反而有所改善)。不过在未来几年内,恐怕仍然无法利用EUV实现批量化生产。首批EUV生产的主要重心也将放在逻辑层面,这一方面是因为其设备成本实在太过高昂,另一方面也是因为逻辑无法像记忆体般进行垂直绽放、因此可能导致散热问题。

从理论层面讲,3D XPoint也支持多层单元设计,但英特尔与美光双方目前并不打算追求这条路线。虽然在实验室当中实现多个电阻层级并不是件太难的事,但其实际难度还是要远远高于保证生产的数万片晶圆当中、每个晶粒都具备必要的特性以实现双层单元操作。相比之下,这一思路很像是二十年前每单元2 bit机制刚刚出现在NAND领域的状况,因此目前英特尔与美光暂时会将注意力集中在光刻技术及3D伸缩方面,从而提高存储密度及成本效益。不过相信在未来,多层单元设计也将逐步出现在3D XPoint当中。

而与NAND在架构上的最大区别在于,3D XPoint实际上是以bit层级进行访问。在NAND当中,整页(在最新节点中为16KB)必须一次性进行编程才能存储1 bit数据。而更糟糕的是,我们必须要在块层级(至少包含200个页)执行擦除操作。如此一来,NAND就需要使用更为复杂的垃圾回收算法,从而更为高效地实现性能水平。然而无论算法多么精巧,处于稳定状态的驱动器在性能上仍然会因此受到影响,因为必须采用固定的读取-修改-写入周期才能对块中的单一页进行擦除。而作为以bit为基础访问单位的3D XPoint来说,其并不需要配合任何垃圾回收机制即可高效运作,这不仅极大简化了控制器与固件结构,更重要的是还将实现更高性能水平与更低功耗需求。

在最终产品——特别是面向存储需求的产品——当中,3D XPoint仍然会保留一部分逻辑页以降低追踪操作带来的负担,这是因为在bit层级上进行数据追踪将需要大量高速缓存作为配合。然而,英特尔与美光公司已经在声明当中就此作出了明确回应,表示日前发布的公告仅仅属于一项技术性结论。两家公司拒绝就基于这项新技术的未来面世产品发表任何评论。换句话来说,这两家企业将各自打造自己的产品方案,并预计将在明年正式将其交付至广大用户手中。

内存单元:3D XPoint背后的秘密

从子阵级角度出发,3D XPoint的运作方式还算比较容易理解,但探究大量属性变化过程中内存单元之内的实际动态则是个非常复杂的问题。能想到的就是需要通过两种方式实现这一目标——以物理方式利用外部刺激调整存储单元属性,从而实现晶体结构变更; 或者是以化学方式对单元内的材料属性进行调整。在发布会之后的对话环节当中,我们得到的消息3D XPoint所使用的并非相变材料,这就消除了一种潜在可能性——即3D XPoint利用相变材料通过单元晶体结构变化来实现电压切换。英特尔与美光选择的方式也极具现实意义,因为引导稳定晶体结构发生变化很可能意味着对不同原子结构长度进行频繁调节,而这有可能影响到存储单元之间连接材料,最终导致使用寿命降低。考虑到这一点,惟一可行的就只有化学调整方式了,更具体地讲对存储单元中的bit电子结构进行调整,从而使其出现电阻差异。

咱们不妨在这里就其实现原理展开一番探讨。

自旋交叉

根据以往的经验,自然而然地想到了自旋电子与自旋交叉化合物的应用。简而言之,这意味着此类材料拥有两种不同电阻级别,具体取决于结构内电子层级中的电子状态。而外部刺激(包括温度、电压以及磁场的变化)则用于实现两种电子状态之间的切换。

接下来的内容可能有些艰深,我们最好是从单个过渡金属原子出发进行考量。根据该金属原子周边的局部排列,金属的键合轨道部分会充斥着大量电子:

008NAND20170206

这里是一个处于2+价环境下的铁化合物分子,其主要成键轨道为t2g(低能量)与eg(高能量)。根据Pauli提出的不相容原理,6个电子配对构成三条轨道,而且每个电子对中的一个电子“自旋加快”、另一个则“自旋减慢”。这就是我们所说的基态,也被称为低自旋状态。其整体自旋值S等于0,因为一个电子的自旋值1/2会被另一个电子的自旋值-1/2所抵消。

此原子的另一种模式则为高自旋态,其中2个电子转移到了较高的键合轨道当中,而总体自旋值S=2:

009NAND20170206

由于外部刺激的存在,其中将有2个电子翻转自旋并占据高能量eg轨道,而这也就是所谓“亚稳定”状态。根据周边原子的实际排列,这种状态实际上也可以表现得非常稳定,但却与原始基态在性质上存在很大的不同。

不过将这种原理推广到大量材料之上,从原则上讲非常困难。简要概括,各类研究论文指出自旋交叉化合物可以直接进行对接并实现电阻变化,但与这类操作相关的大部分论文都属于化工学科,探讨的也主要为碳纳米管、石墨烯层或者有机链等对象。

010NAND20170206 图片来源:M. Urdampilleta等所著之《自然材料》第十章502节(2011年)

在这篇论文当中,低自旋/高自旋状态将提供或不提供两种极性之间的导电率,具体取决于金属原子的实际性质、电阻、特性以及/或者平台稳定性水平。英特尔公司需要开发出这样一种材料,其能够通过电压变化而非外部刺激实现编程,而这显然将复杂性提升到了新的高度。一般来讲,自旋交叉化合物具备特定的温度窗口,在不同温度下其电子可以在高状态与低状态之间往来切换,这意味着温度因素对其稳定性存在直接影响。

从这一点出发,材料的可延展性与基础特性成为实现大规模自旋交叉的主要障碍,特别是在同时采用碳纳米管的情况之下。如果要对大量金属材料进行延展,那么我们需要为其提供一个单独的金属环境进行批量处理,带线(与间隙)会令原本单纯的轨迹概念变得更加模糊,因此我们根本无法将其纳入至存储单元之中。英特尔公司还指出,他们的技术能够让每个存储单元承载多bit,而自旋交叉的排布问题能够利用电子隧道机制加以解决,从而达成构建存储单元的目标。

自旋转矩效应(简称STT)

内存单元的自旋转矩效应取决于单元两种状态之间的电阻水平,外加在存储单元内部控制磁性的能力。简而言之,如果大家对某种材料的磁性布局作出调整,也就能够同时调查其电阻并将其作为记忆体加以使用。

而更为具体的解释是,自旋转矩效应的长期存在依赖于被称为自旋极化电流的性质。电子自旋从根本角度讲分为两种方向,即自旋加速与自旋减速。一般的电流通常由这两类方向均匀混合,这样整体看起来就呈现出非极化电流的形式(即不存在整体自旋方向性)。而当一股非极化电流通过一层厚厚的磁性材料时,其立刻开始呈现出极化特征。如果这种极化电流随后通过处于不同电子密度状态的薄磁层,那么电流的极性则会产生磁性,从而使更多电子自然进入反向自旋状态。

由于厚磁层具有恒定的磁场向性,而薄磁层(或者称作自由层)能够进行翻转(具体取决于材料本身),因此这两者相结合后所产生的电阻即可作为记忆体单元使用。

011NAND20170206 图片来源:《STT-RAM作为高效节能主内存替代方案的可能性评估》,作者:Kültürsay等。

论文指出,自旋转矩效应方案的优势在于其能耗水平低于DRAM,但性能表现则与后者基本相当。而这项技术的实现障碍主要源自以纳米光刻这样极为微小的立足点构建永久磁体的能力,外加如何将众多如此微小的磁体以彼此接近的方式加以排布(类似于磁盘驱动器当中的bit单位)——这有可能导致其中一部分发生意外翻转。除此之外,也并不清楚使用这种方法能够提供每单元单一二进制bit以上的容纳能力。而且现有研究表明,其需要同时使用一个控制晶体管方能正常起效。而英特尔方面已经明确指出,3D XPoint并不使用任何控制晶体管。

自旋转矩效应技术的公开发展历史最早可追溯到2011年由高通公司推出的1 Mb IC以及2012年来自Everspin公司的64 Mb模块,不过二者始终未能投入实际生产。

导电桥接技术(简称CB)

对通路电阻进行调整的最简单办法之一就是通过物理变化将电子运动路径几乎完全阻断。导电桥接技术(或者被称为可编程金属化单元)则采用类似于电解的技术在电极之间创造出一道纳米桥,从而降低单元电阻。

在一个导电桥接单元当中,一层薄电解质膜(过去一直以液态方式存在,但现在也可以呈现为固态)处于活性与惰性电极之间。当惰性电极被施加一个负偏压时,电解质中的金属离子会被不愿为金属原子。当析出并连接的金属原子数量达到一定程度后,其会形成一条位于两个电极之间的导线。而要切断这条导线,我们需要施加反向电位差,从而将导线中的原子重新氧化成电解质的组成部分。最终的电极-电解质-电极组合仍然具备导电能力,但其电阻要高于前面提到的存在导线的情况。

012NAND20170206

不过对于任何一位对于电解机制比较熟悉的朋友来说,以上概括性描述同时也带来了大量问题。首先,也许存储单元当中使用的是液态材质,但我们更倾向于假定需要处理的是处于固态材料当中的移动离子,其活动空间介于各嵌入点之间(也就是晶格/框架之间的空间)。真正值得仔细推敲的还是要数上述表达中提到的“导线”一词。通常来讲,通过电解实现的原子析出往往缺乏指向性——我们是领先不同晶体面的活动来推出析出,这就导致离子扩散以多向性方式进行,不过根据实际晶体面的增长情况、电极指向会略有偏差。在这种情况下,分叉线就会出现——类似于闪电的表现形式。而在对不同电极进行彼此连接时,或者至少是在电子隧道的长度之内,导线本身的电阻差异(从高电阻到低电阻)也相当巨大。不过随着导线的持续构建,电阻值也会不断降低。考虑到这一点,建立导线这种处理方式确实能够为每个单元提供多bit容纳能力,但正如我之前所提到,其实施难度也相当之大。另一项因素在于逆转的过程——通常是由同样的材料作为离子提供活性电极,但这意味着电极本身基本上也具备可溶解性。通过研究我们看到,这恐怕会对产品的使用寿命造成影响。

而在导电桥接技术的优势角度,其在理论上能够实现低于浮栅单元的物理尺寸、而布局也相对简单。根据报告所言,其能够在功耗与性能水平方面较当前NAND改善达数个量级。

考虑到上述问题与优势的存在,我认为导电桥接技术目前应该作为3D XPoint方案的优先使用对象。美光公司曾于2002年的官方许可当中作出过相关暗示,而且2014年美光分析师大会上展出过的幻灯片资料也提到了他们如何克服我之前提到的一些问题:

013NAND20170206

图片下方列出的正是当时正处于研发状态的存储单元,演示材料中确实提到了桥接技术的存在。为了确保活性电极不会在逆向编程过程中被“吃掉”,技术人员设置了一套大型离子库供其调用。另一个电极则尺寸很小,以便于导线能够定向构建。只要整个电解质层够小(数个单分子层),那么读取/写入操作的速度将极快、实现也将非常容易。

未来发展

总结而言,如果我们快速跳转至2015年2月,那么请注意美光公司在其分析师会议当中公布的另一份演示资料:

014NAND20170206

在这幅图片的下半部分,我们可以明显看到美光公司正着眼于左侧基于自旋转矩效应的记忆体方案,而亦有分析师报告指出图片右侧的RRAM单元很可能使用的就是导电桥接技术。而在本周公布的3D XPoint演示资料中,多位分析人士认为最优先的实现选项很可能是利用二极管探测实际电阻特性。

考虑到公告强调称目前正在进行的技术研发从根本角度讲迥异于此前有过的尝试,而3D XPoint产品进入批量生产的最大难关在于制造材料,我最终无法判断其具体采用了哪一种实现方式。从可能性方面来看,英特尔与美光双方也许使用的是导电桥接技术打造出了这款产品。最为精确的细节将被牢牢掌握在英特尔与美光手中,因为毕竟这项技术成果从概念到产品的整个推进流程殊为不易——考虑到前面提到的2002年发布导电桥接技术许可,整个研究周期已经延续了整整十年。

从英特尔给出的一些图片来看,3D XPoint的基本单元结构和目前的存储芯片非常相似,都拥有完整的字线和位线,数据存储在交叉叠起的字线和位线之间。字线或者位线之间存在的特定电压差,能够改变一种特殊材料的电阻。当数据需要读取时,字线和位线可以检测某个存储单位的电阻值,根据其电阻值来反馈数据存储情况。

3D XPoint的特点

了解了3D XPoint的基本工作原理,看起来似乎很简' ;&+"vHE' ;&+ǜ比上文描述的复杂。尤其是特殊的电压差和特定的材料,目前尚没有第三家厂商掌握其中的原理。接下来,我们重点来看看3D XPoint到底能给我们的生活和应用带来怎样的变化。

定位:并非你死我活

据英特尔给出的说法是,3D XPoint并不是用于彻底替代DRAM和NAND的技术,它的定位是计算机存储中的一个新的层级,可以在不同的应用领域增强目前的存储结构体系。

从英特尔给出的延迟数据来看,3D XPoint产品的读取延迟大约在10纳秒级别(写入延迟更长一些),和DRAM最低可达几纳秒还存在一点点差距,但远远好于NAND的微秒级别;寿命方面,3D XPoint的寿命约为百万级读写次数,相比NAND中MLC的数千次读写提升了几个数量级,当然,和DRAM还是没法比;带宽方面,多通道技术的应用使得3D XPoint在带宽上并不存在什么劣势。

在英特尔的官方宣传中,3D XPoint拥有NAND类似的容量和DRAM类似的性能。包括比NAND速度快(应该是指延迟低)1000倍以上,寿命是NAND的1000倍以上,数据密度则达到了DRAM的十倍以上。

016NAND20170206 ▲3D XPoint的性能表现非常出色。

英特尔认为,这样的性能可以让用户根据不同的需求来选择新的存储系统组合,比如可以选择组成DRAM+3DXPoint+NAND三级存储系统,或者是3D XPoint接管DRAM+NAND,亦或者组成DRAM+3D XPoint的方案,甚至也可以是3D XPoint+NAND的系统,不同方案的成本、侧重点和性能都有所不同,结局是开放性的,并没有气势汹汹地取代谁,而是根据市场选择来搭配合适的方案。

017NAND20170206 ▲NAND和3D XPoint并不是你死我活的竞争关系。

018NAND20170206 ▲3D XPoint在系统中的地位。

寿命:胜任所有的热温存储场景

有关寿命问题,实际上是在NAND的应用中被讨论最多的,因为TLC的NAND芯片在千次级别的完全读写就有可能耗尽一个单元的所有寿命。千次听起来非常短,但目前大量的数据中心和企业用户都布置了NAND存储设备,这证明在各种平均摩擦和数据缓冲算法的帮助下,NAND的寿命问题得到了比较好的解决。在我们之前的测试中,TLC芯片的SSD,在压力测试下同样未出问题。

相比NAND,3D XPoint的寿命问题其实更不是问题。根据英特尔数据,3D XPoint如果拥有200万次的读写寿命,在平衡算法下,一个512GB的3D XPoint设备理论上需要完全读写1024PB才会死亡,相当于在五年内每天写入574TB数据。除了那些必须使用DRAM维持超高负载的特殊场合,3D XPoint完全可以胜任目前几乎所有的热/温存储中心应用。至于冷存储,从成本的角度看一直就不适合最新的高速存储设备。

019NAND20170206 ▲3D Xpoint在高性能消费级PC上也有用处,在各级队列深度下的IOPS吞吐速度提升极快。

价格:不会太便宜

说起3D XPoint的价格,需要考虑两个方面的内容:一是成本,二是市场定位。

先来看成本。根据英特尔和美光展示出来的资料,3D XPoint的单个晶元可以切割396个3D XPoint晶粒,每个晶粒面积大约为210平方毫米(每个晶粒容量为128Gb)。相比之下,20nm 128Gb的MLC NAND晶粒的面积约为202平方毫米。总的来看,除开研发和生产中其他成本,仅从晶元的角度来看,3DXPoint的成本应该和NAND相差不多,当然良率又是另外一说了。

接下来看市场定位。一般来说,一个产品的市场定位是由其在市场中所处的性能位置所决定的。目前3D XPoint的性能定位在DRAM之下、NAND之上,但是更偏向于DRAM,因此也应该具有类似的市场定位。考虑到目前DRAM的价格,可以说3D XPoint的价格应该不会太便宜。

另一方面,英特尔自己也有庞大的NAND工厂和不小的市场份额,3DXPoint无论从技术上还是商业利益上来看,都不会在目前这个时候去抢NAND的饭碗。而如果从企业级和消费级来划分,按照惯例,产品成熟后,英特尔显然会更倾向于将这一新技术首先运用于面向利润较高的企业级产品中。

20160630000123