唯有超大规模存储系统才能满足人工智能的需求

2023-11-02 09:43:47 浏览数 (1)

随着世界各国政府努力应对人工智能的深远影响,关于如何规范人工智能的使用以造福社会并防止其滥用的复杂辩论正在升温。“与此同时,人工智能和机器学习工具已经成为我们日常生活中不可或缺的一部分,并将变得更加普遍。”昆腾企业产品和解决方案营销部门的Tim Sherbak表示。

令人欣慰的是,有许多例子表明人工智能的能力正在以积极的方式发展,例如医学利用这些优势来帮助检测癌症,银行和信用卡公司部署解决方案来防止欺诈和诈骗,以及建筑业评估如何使用这些解决方案来提供更快、更高效的建筑设计过程。

人工智能在各行各业的应用正在迅速扩大,以处理和利用以不同格式创建的数据,以及自动化任务、检测异常,并生成新的内容和创意。然而,要成功交付这些结果需要大量的源数据。这正是存储问题的开始,而且还不止于此。

为什么人工智能存储问题日益严重

首先,需要收集大量的原始数据来构建人工智能和机器学习应用程序。但所使用的数据类型带来了进一步的挑战,主要是因为其中大多数是非结构化数据,如文档、网页、社交媒体帖子、电子邮件、录音、视频和图像。这些形式的数据比通常存储在数据库和档案中的结构化数据要大得多。

接下来,对原始数据进行处理,将其转换为用来训练算法模型的格式。整体有效性取决于原始数据的数量和质量、算法设计以及反馈和更新数据的不断改进。最终的人工智能模型包含了训练过程中获得的所有知识,从简单的基于规则的系统到复杂的神经网络。

所有这些加起来就形成了巨大的数据量,可能是PB级的,随着新数据的收集,数据量还在不断增长。它可能需要存储几十年,甚至更长时间,特别是如果未来需要这些数据集来训练全新的人工智能模型。

非结构化数据的时代

必须引起重视的是,在过去两年中创建的数据中,超过80%是非结构化的,并且正在以惊人的速度增长。分析师预测,未来五年创建的数据量将是过去十年的两倍,而且超过80%的数据仍然是非结构化的。这加起来就有ZB(数万亿GB)级的数据需要管理!

如今,企业在不知道未来需要什么数据的情况下,被迫就保留多少数据做出重要决定。因此,许多人都采取了尝试保留所有数据的方法,并面临着寻找“不仅价格合理而且易于检索数据”的存储解决方案的问题。

火上浇油的是,人工智能应用对存储系统性能提出了巨大的要求。处理这些庞大的非结构化数据集需要极低的延迟和高性能,而传统存储系统从来没有围绕这些需求而构建,当然也没有人工智能所需的强一致性。

性能和可访问性的规划

目前,世界上大部分数据都存储在基于硬盘的系统上,而这些系统是20多年前开发出来的,是在甚至没有考虑将EB的非结构化数据存储几十年的概念时构思的。当时,数据大多是结构化格式,通常出于合规和法律目的而不是其内在价值而归档的。从历史上看,这种保留的数据几乎不需要额外的处理,可以长期保存在性能较低的存储系统中。现在,所有的企业都希望保持并使其数据易于访问和搜索,并期望再次需要以新的方式进行再加工、再训练或变现。

使这种检索行为更加困难的是,许多企业的信息分布在云和本地的多个系统中。他们通常不知道自己的档案中到底有什么,也不知道自己是否在许多地方持有相同数据的副本。此外,新数据可能在数据中心之外由应用程序或对象(如物理摄像机)生成,并移动到其他地方进行处理。因此,在数据从一个地方移动到另一个地方的整个生命周期中,也必须适应对数据的管理。因此,存储解决方案必须非常灵活,才能满足所有要求,并在云中或本地运行。

对于传统存储系统来说,这是一个不可能的要求,因为它们从来没有为这种数量或类型的数据而设计,也没有达到这样的规模。传统的网络连接存储和对象存储体系结构如果试图超规模化,就会崩溃。包含RAID和复制的替代方案也有类似的问题,因为它们无法提供足够的故障保护或存储效率。此外,管理多个存储设备和不同的存储层会占用宝贵的管理时间。

扩展人工智能驱动的世界

许多组织面临的问题是,如何在不破坏存储预算的情况下,长期保护不断增长的有价值数据?答案就是,现在是时候用负担得起的云原生解决方案实现超大规模化了,这些解决方案是从头开始设计的,旨在为人工智能驱动的社会提供高性能的解决方案。

这些解决方案是用结合闪存和RDMA(远程直接内存访问)网络的大规模扩展架构开发的。在人工智能和机器学习等数据密集型工作负载中,它们的延迟非常低,吞吐量更高,从而实现了超快的应用程序性能和响应能力。这也实现了跨多个系统的高效数据共享和同步,非常适合分布式和混合云,以及本地环境。

另一个改变游戏规则的因素是,超大规模不仅仅是容量问题。最新的创新存储技术还通过自动化数据标注和分类,以及跨不同系统管理数据去重,实现了更快、准确的搜索和检索。

企业越来越多地看到他们所创造的信息和情报中未开发的潜力,但却难以有效地存储它们。现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。

本文作者为昆腾企业产品和解决方案营销部的Tim Sherbak。

0 人点赞