从SAS过渡到NVMe岂止仅换个底盘

2019-06-10 17:29:35 浏览数 (1)

广告:冬瓜哥新作《大话计算机——计算机系统低层架构原理极限剖析》将于8月份出版,详细内容点击链接。

从SAS过渡到NVMe,是不是更换个底盘就完了?这里面事其实挺复杂的。

本文组织:

1. PowerMax简介

2. 说说从SAS到NVMe的过度

1

PowerMax简介

2018年5月1日,戴尔EMC在DellTechnologies World宣布了最新的计算和存储产品方案。戴尔宣布了基于全闪存架构的PowerMax存储系统,该系统将全面取代之前的VMAX。这意味着后续DELLEMC的高端存储系统将全部是全闪存架构。

PowerMax存储阵列可以被视为历史悠久的VMAX产品家族的继任者,该产品家族的起源可追溯到1990年,而存储巨头EMC公司在2016年推出了首个全闪存VMAX,而这是EMC公司在被DELL公司收购之前所推出的。

PowerMax的命名与DELLEMC服务器产品线的PowerEdge相呼应,形成统一的命名风格。PowerMax内部的控制器也被命名为PowerBrick(之前是V-Brick),操作系统命名为PowerMax操作系统(之前为HyperMatrix操作系统)。

PowerBrick

之前VMAX的全闪存版本为VMAX-AF,而PowerMax相比VMAX的区别在于:

1、后端由SAS体系结构全面替换为基于PCIE的NVMe体系结构,性能大幅提高。

2、引入机器学习来辅助性能分析、故障检测和日常运维,彰显智能。

3、增加了对重删(Deduplication)的支持,存储空间使用效率提升。

DELLEMC本次发布了两款PowerMax型号,分别为2000和8000。其中2000可视为升级版的VMAX250F, 8000为升级版VMAX 950F。PowerMax使用SFF8639连接器的双端口NVMe SSD,并同时支持NVMe over Fabrics(NVMe-oF)协议。

控制器节点Brick使用的CPU也是沿着Intel产品发展路线从VMAX 250F/950F的Broadwells升级到Xeon E526xx v4,尽管最大Core数576没有发生变化,但IOPS从950F的670万上升到8000的1000万。

PowerMax 2000能够提供高达170万的IOPs和1PB容量,可以扩展到2个PowerBricks。PowerMax8000能够传输高达1000万的IOPs和4PB容量,可扩展到8个PowerBricks。

新增加的Inline重复数据删除功能,可以与现有的Inline压缩一起使用,可高达5:1的数据缩减率,支持灵活开关。最大有效容量与250F和950F的最大(1PB和4PB)保持一致,在10U的PowerBrick中支持从13TB开始起配。PowerMax的机架密度是VMAX的2倍,能耗降低了40%。

PowerMax的运行软件将有两个版本组成: 即Essentials和Pro。Essentials 版本提供了SnapVX,deduplication和QoS等特性,而Pro版本提供远程复制、PowerPath和SRM。

PowerMax对NVMe SCM的支持将极大地减少阵列的延迟。使用NVMe闪存驱动器的PowerMax的响应时间比之前的VMAX减低25%,而端到端NVMe和SCM的组合将使PowerMax的响应时间比VMAX快50%。

PowerMax操作系统使用机器学习、预测分析和模式识别等技术使得存储系统更加智能和自动化。在机器学习方面,PowerMax操作系统可从设备上收集的性能和相关数据(包括阵列的实时数据),PowerMax可以决定哪些数据或数据块可以存储在哪些存储层上,它通过利用超过4000万套部署数据集(存储)和IO读、写、Get和Put等操作中变得更加智能。

2

说说从SAS到NVMe的过度

PowerMax这次后端从SAS完全过渡到PCIE,这是个非常大的变化。这个过度并非升级,而是完全抛弃换新的底盘,基于这个底盘所构建的上层软硬件形态也需要跟着做很大的变化。这也意味着之前在SAS方面的积累几乎作废。但是有一点可以保留,那就是Enclosure Management部分可以重用之前的框架。

如上图所示,在SAS体系下,SAS Controller将整个SAS后端的一切都隐藏了起来,Host端看得到的只有SAS Controller的地址空间,通过上层驱动一层层识别到后端的SAS设备。这种松耦合方式灵活,方便运维。比如SAS热插拔等处理都非常方便。但是最大一个劣势,就是延迟相比NVMe盘而言太高,因为经过了SAS Controller、SAS Expander两个器件。然而过渡到PCIE之后,由于没有了HBA Controller,所有PCIE设备都被直接暴露在地址空间中,对NVMe设备的控制可以直接通过访存方式完成,而并不需要通过HBA Controller中转,所以性能得到巨大的释放和发挥,尤其是时延方面的降低,更符合互联网时代的快速响应的诉求。

在由NVMe设备、PCIE Switch组成的这个新底盘上,还有很多基础功能、高级功能有待开发完善,发展潜力很大。比如,已经解决的有热插拔,包括planned hot remove以及suprisingly hot remove。尚未解决或者说标准化的功能有LED灯控制,这方面NVMe标准正在快速推出,比如NVMe Management Interface(NVMe MI)的标准化已经成型,PCIE Switch可以像以往SAS Expander一样对NVMe的JBOF(Just a bunch of FLash)最对应的Enclosure Mangement。

上层软件方面,为了充分发挥NVMe硬盘的性能,OS内核的协议栈可能需要全盘优化甚至直接替换,或者,直接砍掉!将所有I/O协议栈做到用户态去,每次I/O调用不再需要进入到内核系统调用流程,进一步降低时延。

前端访问方面,提供SCSI协议之外的全新低时延访问协议:NVMe over Fabric,将整个系统路径的时延再次降低。

综上,PCIE生态系统已经成熟,以Microchip(收购了Microsemi,Microsemi收购了PMC)为代表的厂商已经推出了第二代PCIE3.0 Switch,马上就要推出PCIE 4.0 Switch,通道数量达到上百个。趋于成熟的底层生态必将让基于NVMe的全闪存存储系统在后续的产品规划、发展路径中如鱼得水。

然而,SAS其实也没闲着。SAS4下x4 PHY的速度已经可以达到单向96Gb/s,而且SAS4相比SAS3的一个很大提升则是支持基于时分复用的链路复用和全双工(目前仅Microchip/Microsemi 的SAS4产品支持)。SAS or PCIE?or both?冬瓜哥会持续关注相关底层产业生态发展,为大家持续提供消息。

0 人点赞