为什么需要存储?

2021-08-06 17:30:10 浏览数 (1)

信息是人类认知外界的方式,最初的信息都会对应到现实世界的一个客体或者相关描述。人类是通过不断增加、完善信息来接触、认知并改变世界的。

最初人类依靠大脑中的神经突触来存储信息,但有些信息是如此重要,所以人们想出一切办法来使这些信息能保存下来。于是人类发明了一种描述信息的信息,这种信息就是数据。

数据是可以保存在一种物理介质上的,其实, 在“说话”的过程中,空气可以被视为一种短暂的物理介质。人类通过振动声带在空气中产生波动,声波在空气中可以短暂保留并扩散,不同波形携带了不同数据,这种波动被鼓膜接收到,达到了数据传递的效果。

但是,空气只能将信息保存一瞬间,之后就要靠大脑了。人是会生老病死的,除了口耳相传,人类需要更可靠的数据存储方法与更长久的物理介质。在过去,人类将数据保存在石板、竹简上,后来人类将数据保存在纸上,配合印刷术,使得信息可以大范围长久传播保存。

人类学会以电磁波的方式承载信息后,距离不再是信息传输的限制,但电话无非是远距离说话,电报无非是快速邮寄的信件,最终所有的信息还要回归到大自然构造的眼睛、耳朵和大脑。直到计算机问世后,人类终于可以突破自己处理信息的生理学极限,让程序和电路代替自己处理信息。

冯·诺伊曼定义了计算机的基本结构:处理器、存储设备、和输入/输出设备。人类使用计算机的流程是:编写程序使其能以特定的方式处理数据;输入数据;程序处理数据;输出处理后的数据。在上述过程中,数据和程序都存储在存储设备里,由文件系统来组织管理,当然,描述文件系统的信息也存储在存储设备里,即“文件系统元数据”。

随着互联网时代的到来,数据爆炸式增长。对存储系统提出了“更大”,“更快”,“更安全”的要求。

计算机存储设备,从早期的软盘、只有几十兆字节大小的硬盘,发展到现在1-2TB大小的单个民用硬盘、4GB-1T容量的U盘。

现代计算机程序对存储容量的要求变得非常巨大。最新的Windows 11操作系统,刚刚安装完后所占用的磁盘空间就超过了20GB。一些大型游戏,例如荒野大镖客2,,下载时需要确保有156G的储存空间。一些数据库管理程序所生成的数据库文件,经常达到几TB至上百上千TB的大小。

为了追求高速度与高容量,人们把多块磁盘做成RAID(Redundant Arrays of Independent Disks)系统,所谓 RAID 就是将多块磁盘组合在一起,对外抽象成一个容量大,读写速度高,容错性好的大型磁盘。

RAID解决了单一磁盘的性能问题,但没有解决整个存储系统的扩展性、稳定性和与其他系统对接的问题。

最初的解决方案是直连存储(DAS),是指直接和计算机相连接的数据储存方式,与依赖于计算机网络连接存储器的存储区域网络(SAN)和网络附加存储(NAS)相对,实际上“直连式存储”这一名称本身是在网络存储方式出现以后才有的称谓;像固态硬盘、机械硬盘、光盘驱动器这一类和计算机直接相连的存储设备都是属于直连式存储设备。

之后的解决方案是集中存储,分为存储区域网络(SAN)和网络附加存储(NAS)两类。集中存储系统中包含机头(控制器)、磁盘阵列( JBOD )、交换机,还有各种辅助设备。机头中有包含两个控制器,互为备用, 避免硬件故障导致整个存储系统的不可用。机头是所有数据统一的出入口,通常包含前端端口和后端端口,前端端口用户为服务器提供存储服务,而后端端口用于扩充存储系统的容量。通过后端端口机头可以连接更多的存储设备。

集中存储再大,再完善,也只是在“单一区域”内进行纵向扩展,不断增大单机存储容量的成本会成倍上升,而且总有上限。随着互联网时代的到来,横向扩展的“分布式存储”应运而生。

分布式存储是采用分布式架构的存储集群,将数据分布在不同物理位置,并通过网络把它连接起来。与传统的高端服务器、高端存储器和高端处理器不同的是,互联网公司的分布式存储系统由数量众多的、低成本和高性价比的普通 PC 服务器通过网络连接而成。其主要原因有以下三点

(1) 互联网的业务发展很快,而且注意成本消耗,这就使得存储系统不能依靠传统的纵向扩展的方式,即先买小型机,不够时再买中型机,甚至大型机。互联网后端的分布式系统要求支持横向扩展,即通过增加普通 PC 服务器来提高系统的整体处理能力。

(2) 普通 PC 服务器性价比高,故障率也高,需要在软件层面实现自动容错,保证数据的一致性。

(3) 随着服务器的不断加入,需要能够在软件层面实现自动负载均衡,使得系统的处理能力得到线性扩展。

另外,越来越多的企业将核心业务数字化,如果采用单击系统,一旦出问题,那么系统就完全不能用了。而分布式系统天然适用于容灾备份。

打一个不是很精确但易于理解的比方,如果把数据看成零售店商品,直连存储就是把商品存放在店里的仓库,集中式存储就是把商品存放在一座有很多仓库的大楼里,分布式存储就是在各地都有仓库,并相应建立了一套物流系统。

现在,是云和大数据的时代。中国近10亿手机用户和8亿个人电脑用户大都用着来自云端的服务,云和大数据使个人的终端超越了本机存储能力和计算能力的限制。例如,网盘、相册等云存储应用使用户可以在任意地点存取任意大小的数据。面向企业的云应用更是百花齐放,从直接提供软件的在线建站、电商系统,到提供平台的各种云端SDK和数据库,再到最基础的计算、存储、网络等服务。这些应用的后端都离不开大规模分布式存储系统。

香农认为,信息的意义就是消除对世界的不确定性。人类文明的进步史,就是不断获取更多信息的过程。其中,存储技术一直是信息的基石,因此,存储技术无论从宏观的人类发展,还是从微观的个人生活来看,都无疑是重要的一环。

0 人点赞