物尽其用还省心,希捷Exos CORVAULT不简单!

2022-02-24 13:32:36 浏览数 (1)

作为全球数据存储基础设施解决方案的领导者之一的希捷最近推出了突破性的 Exos CORVAULT 自愈块存储系统。这款智能大容量存储产品的一大特点,就是能够简化数据管理、并减少宏观边缘与数据中心环境的人工干预。除了极高的存储密度,Exos CORVAULT 新品还提供了 SAN 级别的性能,结合第六代 VelosCT ASIC、ADAPT 纠删码数据保护、以及自我修复等功能。

双控双电源JBOD?SAN?

这台Corvault系统,实际上是一台介于SAN存储系统和SAS JBOD之间的过渡态存储系统。说到SAN存储,一般是指前端可以通过FC,iSCSI等传统意义上的网络协议向外输出逻辑块设备的存储系统。但是Corvault系统的前端只支持SAS接口,这让它乍一看像是一台JBOD。

但是看到上图中的介绍,发现Corvault支持Erasure Code纠删码对数据做冗余保护,那就可以得出一个结论,这并不是一台JBOD,因为JBOD是直接把后端的物理硬盘暴露给主机端,既然Corvault做了数据冗余保护,就一定暴露的是逻辑硬盘。理论上,暴露逻辑硬盘可以与后端物理硬盘做一比一映射,甚至可以把逻辑硬盘虚拟成与物理硬盘一模一样的规格透明暴露给主机,刨掉用于存放Erasure Code冗余数据块的等容量硬盘数量之后,就相当于一台能够防止单盘甚至多盘故障的JBOD了。但是经过与希捷工程师的确认,Corvault是一台可以灵活划分逻辑卷容量的SAN产品,不过它内部也是可以被设置成JBOD模式的。Corvault支持下面的数据保护方式:nraid|raid0|raid1|raid5|raid6|raid10|ADAPT,其中nraid就是JBOD模式,ADAPT则是Erasure Code模式。

Raid XOR和EC的计算采用了希捷自有IP的ASIC芯片加速运算,整机采用双控冗余架构,并支持带超级电容保护的镜像缓存,镜像通路是基于PCIe直连方式方式实现。Corvault具备了SAN存储的全部关键要素。

整机方面,在4U高度机箱内整合了双控双电源外加106盘位,已经做到了SAN控制器领域的盘控一体形式的最高密度。不得不说,希捷作为老牌硬盘厂商,对机械盘的散热、震动、降噪、供电等方面应该是了如指掌,做到如此高密度也算是希捷独门秘笈了。

集成硬盘原厂私密技术,物尽其用还省心

|自带ADR福利,赚大了!|

大家都可能遇到这种情况:某家庭NAS,Raid卡或者系统自带的软Raid只要检测到某个硬盘有问题,或者不稳定,就把它踢掉,整个磁盘组处于降级模式,然后提醒你更换硬盘。此时,我的下意识做法则是,把“坏盘”拔出来,过一会再插上,你会发现这块硬盘又恢复正常了,而此时Raid系统会把整个数据重构一遍,这个过程对于8TB的一般需要十几个小时,这段期间内,所有硬盘都处于高负荷运转,不仅废盘,而且不安全,因为很有可能接连坏盘。这块盘实际上没有彻底坏,显然只是出现了点卡壳而已。

没有人能比硬盘厂商本身再了解硬盘了。硬盘是整个存储系统最难以管理的部件,如果硬盘能够确保100%的可靠性,那么存储系统的设计将会大大简化。实际上,硬盘本身的架构复杂性,并不亚于整个存储系统。硬盘存在着很多难以预料的软硬件故障,而常规的存储系统根本无法感知到硬盘内部故障的详细情况,所以存储系统一般会用粗粒度的方式来处理,也就是直接把故障硬盘隔离不用,然后启动各类基于Raid或者高级冗余算法来恢复丢失的数据块到其它活动硬盘空间。然而这样做非常不经济,根据硬盘厂商统计,大概有30%左右的硬盘故障,都是可以通过一些自动诊断修复手段来现场修复的。以往的故障硬盘一般都是先返厂,在经过厂商内部诊断程序精细诊断辨别之后,约30%的故障是可以原地修复的。

Corvault系统的Autonomous Drive Regeneration(ADR)自动硬盘驱动器修复技术,相当于在Corvault系统内直接内置了这套诊断系统,可以做到无干预自动原地修复,相当于直接将硬盘故障率降低约30%。这个超级福利,是一般存储系统无法提供的。另外,结合更深度的技术,能够将硬盘进一步物尽其用,比如,硬盘内部的某单个磁头出现问题,或者某单个盘片表面出现问题,这并不表示整个硬盘就不能继续使用了,相反,只要屏蔽这些故障区域,然后将受影响的数据恢复到其它可用空间,这块硬盘的剩余容量依然可以被继续使用,而只有硬盘原厂的系统才能做到如此精打细算了。

|亲自上阵把MACH.2/SMR/HAMR用到极致|

现代硬盘驱动器有很多用来提升容量和性能的新技术,比如提升性能/空间比的双磁臂技术(比如希捷的MACH.2),以及提升盘片容量密度的叠瓦式磁记录技术(SMR)。虽然这两项技术基本上可以做到对上层透明使用,但是如果想用好它们,上层软件还是需要一些适配。

对于SMR技术,该技术就有多种运行模式,比如Device Managed模式就是完全对上层透明,由硬盘固件来负责底层数据布局的安排和优化;而Host Manage则是完全交给Host端上层软件来指挥硬盘固件数据应该如何安放,还有一种模式是Host端向硬盘固件提供对应的建议信息,由硬盘自行负责数据安放。为此T10 SCSI标准组织还专门颁布了一套专门用于Host端与SMR硬盘交互信息的SCSI协议子集:Zone block command。然而这套协议也只是提供了一种语言而已,具体怎么做才能提升SMR硬盘的性能,则需要长期的经验积累。如此复杂的模型,一般存储系统开发者需要经过长时间摸索,尤其是对SMR盘行为、性能模型的摸索。

对于最新的双磁臂技术,目前的实现方案是硬盘会向上层暴露2个逻辑硬盘,这会给上层的管理和性能模型带来挑战。运维上,同一个硬盘槽位出现2个盘,而且这2个盘是在同一个故障域内,同时故障的概率很高,上层的数据冗余机制就需要考虑不要使用这两块盘做相互冗余。性能上,需要考虑这两块盘会争抢同一个SAS/SATA端口产生竞争,需要精细调测。

针对这些新技术,上图中涉及到的第三方二次开发,就都不需要了。因为Corvault系统把上述工作打包到了一起,自己开发的技术亲自把它们用起来还是最顺畅的,这样无论是在系统架构上、性能优化上,还是在后期的运维和问题处理流程上,都是最优的,可以让用户以最小的成本获得对新技术的最佳体验。

此外,Corvault还内置了Seagate Secure技术。采用自加密 (SED) 技术,可实现出色的安全性,而不需要控制器级别的额外开销。利用SFTP可实现安全文件传输,而且可选FIPS 140-3 协议。

|ADAPT,坏了秒修,免维护|

如今的硬盘动辄10 TB容量,传统Raid的设计理念已经无力应对这种挑战了。传统Raid的理念基于早期硬盘而设计,早期硬盘故障率和可靠性都不太行,再加上容量较小,所以坏了直接踢盘重构,也不是大问题。但是现代硬盘已经变得非常灵活,有些内部故障,硬盘自己就可以透明屏蔽。有些只要上层可以配合,甚至可以区域屏蔽。传统Raid的整盘重构模式,会逐渐退出历史舞台。取而代之的则是Raid2.0理念,不再以粗粒度的单盘作为管理对象,而是以数据块作为管理和重构的对象。Erasure Code就是目前主流的实现方式。

希捷Corvault系统内置了ADAPT (Autonomic Distributed Allocation Protection Technology)技术,实际上是利用EC实现的Raid2.0技术。只要预先设定好对应的冗余空间比例,可以实现接连坏盘而免维护的效果,比如,5年免维护,这个的确非常省心。ADAPT的数据块级细粒度管理方式,让其得以支持不同容量的盘混用,从而极大降低了部署成本。

利用ADAPT,可以极大地降低系统重构时间。在实际测试中,传统8 2的Raid6模式重构需要约55小时,而相同的重构量,24盘组成的ADAPT只需要24小时。因为ADAPT是利用分布式重构方式,所有硬盘都会承接被恢复之后的数据写入,而传统Raid则将重构出来的数据写到单一的一块盘上,整体重构速度就受限于单盘的吞吐量。

总结和展望

Corvault给人的印象是一款紧凑型务实型产品,它更像一台能够把硬盘容量、性能和可靠性发挥到极致的大Raid阵列。当前,它没有更多的高级数据管理功能比如快照,容灾;也不支持除了SAS之外的其它前端访问协议。不过据悉Corvault将来会支持更多前端访问协议以及功能。

它的市场定位我感觉是想替代一些传统Raid卡的场景,比如8台服务器,各安装一块SAS HBA,现在完全可以采用SAS线缆连接到Corvault获取逻辑资源的方式来实现。Corvault能够提供更大的存储容量、更高的性能和可靠性、以及更好的用户管理运维体验。

0 人点赞