2019年8月30日,《信息安全技术数据安全能力成熟度模型》(GB/T 37988-2019)简称DSMM(Data Security Maturity Model)正式成为国标对外发布,并已于2020年3月起正式实施。
DSMM将数据按照其生命周期分阶段采用不同的能力评估等级,分为数据采集安全、数据传输安全、数据存储安全、数据处理安全、数据交换安全、数据销毁安全六个阶段。DSMM从组织建设、制度流程、技术工具、人员能力四个安全能力维度的建设进行综合考量。DSMM将数据安全成熟度划分成了1-5个等级,依次为非正式执行级、计划跟踪级、充分定义级、量化控制级、持续优化级,形成一个三维立体模型,全方面对数据安全进行能力建设。
在此基础上,DSMM将上述6个生命周期进一步细分,划分出30个过程域。这30个过程域分别分布在数据生命周期的6个阶段,部分过程域贯穿于整个数据生命周期。
随着《中华人民共和国数据安全法(草案)》的公布,后续DSMM很可能会成为该法案的具体落地标准和衡量指标,对于中国企业而言,以DSMM为数据安全治理思路方案选型,可以更好的实现数据安全治理的制度合规。
本系列文将以DSMM数据安全治理思路为依托,针对上述各过程域,基于充分定义级视角(3级),提供数据安全建设实践建议,本文作为本系列第三篇文章,将介绍数据采集安全阶段的数据源鉴别及记录过程域(PA03)。
一、定义
数据源鉴别及记录,DSMM官方描述定义为对产生数据的数据源进行身份鉴别和记录,防止数据仿冒和数据伪造。
DSMM标准在充分定义级对数据源鉴别及记录要求如下:
组织建设
应由业务团队相关人员负责对数据源进行鉴别和记录。
制度流程
应明确数据源管理的制度,对组织采集的数据源进行鉴别和记录。
技术工具
1)组织应采取技术手段对外部收集的数据和数据源进行识别和记录;
2)应对关键追溯数据进行备份,并采取技术手段对追溯数据进行安全保护。
人员能力
负责该项工作的人员应理解数据源鉴别标准和组织内部数据采集的业务,能够结合实际情况执行。
二、实践指南
组织建设
组织机构在条件允许的情况下应该设立专门的数据源鉴别团队或人员,该团队或人员负责对数据源进行鉴别、记录和追溯,检测数据是否被仿冒、伪造,同时为组织机构提供统一的数据源管理策略和方案,此做法的好处在于能够做到专人专职,能够制定更为有效、客观的数据源管理策略方案。如果公司条件有限,则可以将此岗位的工作内容交由业务团队的相关人员负责,此做法的好处在于能够提供更为贴切真实业务场景的数据源鉴别服务。
人员能力
针对该项工作的相关人员,需要熟悉国家网络安全法律法规以及组织机构所属行业的政策和监管要求,在数据源鉴别的过程中严格遵守《中华人民共和国数据安全法》中的规定,同时还需要相关人员具备良好的数据安全风险意识和数据安全应急响应能力,在数据源鉴别的过程中突发的任何数据安全问题,都能够准确快速的判断并进行应急处置,最后还需要相关人员熟悉组织机构的业务场景和数据特性,理解数据源鉴别标准并能够与实际的业务场景结合执行。
落地执行性确认
针对数据源鉴别及记录岗位的人员能力的实际落地执行性确认,可通过内部审计、外部审计等形式以调研访谈、问卷调查、流程观察、文件调阅、技术检测等多种方式实现。
制度流程
1)采集来源管理
采集来源管理的目的是确保采集数据的数据源是安全可信的,确保采集对象是可靠的,没有假冒对象。采集来源管理可通过数据源可信验证技术实现,包括可信认证(PKI数字证书体系,针对数据传输)以及身份认证技术(指纹等生物识别,针对关键业务数据修改操作)等。
❖ PKI数字证书
PKI(Public Key Infrastructure,即公钥基础设施),是通过使用公钥技术和数字证书来提供系统信息安全服务,并负责验证数字证书持有者身份的一种体系。PKI技术是信息安全技术的核心。PKI保证了通信数据的私密性、完整性、不可否认性和源认证性。
❖ 身份认证技术
身份认证是指在计算机及计算机网络系统中确认操作者身份的过程,从而确定该操作者是否具有对某种资源的访问和使用权限,进而使计算机和网络系统的访问策略能够可靠、有效地执行,防止攻击者假冒合法用户获得资源的访问权限,保证系统和数据的安全,以及授权访问者的合法利益。
目前身份认证的主要手段:
❖ 静态密码:用户的密码是由用户自己设定的。在网络登录时输入正确的密码,计算机就认为操作者就是合法用户。静态密码机制无论是使用还是部署都非常简单,但从安全性上讲,用户名/密码方式一种是不安全的身份认证方式。
❖ 智能卡:智能卡认证是通过智能卡硬件的不可复制来保证用户身份不会被仿冒。
❖ 短信密码:身份认证系统以短信形式发送随机的6位动态密码到用户的手机上。用户在登录或者交易认证时候输入此动态密码,从而确保系统身份认证的安全性。
❖ 动态口令:动态口令是应用最广的一种身份识别方式,一般是长度为5-8的字符串,由数字、字母、特殊字符、控制字符等组成。
❖ USB KEY:USBKey是一种USB接口的硬件设备。它内置单片机或智能卡芯片,有一定的存储空间,可以存储用户的私钥以及数字证书,利用USB Key内置的公钥算法实现对用户身份的认证。由于用户私钥保存在密码锁中,理论上使用任何方式都无法读取,因此保证了用户认证的安全性。
❖ 生物识别:生物特征识别技术是指通过计算机利用人类自身的生理或行为特征进行身份认定的一种技术。生物特征的特点是人各有异、终生(几乎)不变、随身携带,这些身体特征包括指纹、虹膜、掌纹、面相、声音、视网膜和DNA等人体的生理特征,以及签名的动作、行走的步态、击打键盘的力度等行为特征。指纹识别技术相对成熟,是一种较为理想的生物认证技术。
❖ 双因素:所谓双因素就是将两种认证方法结合起来,进一步加强认证的安全性。
2)数据溯源方法
目前数据溯源的主要方法有标注法和反向查询法,下文技术工具将进行介绍。
❖ 数据溯源记录
针对采集的数据在数据生命周期过程中进行数据溯源记录,把数据流路径上的每次变化情况保留日志记录,保证结果的可追溯,以及数据的恢复、重播、审计和评估等功能。
❖ 数据源鉴别及记录安全策略
组织开展数据源鉴别及记录活动的过程中应遵循如下基本要求,防止数据仿冒和伪造:
①设立负责数据源鉴别和记录的岗位和人员
②明确数据源管理制度,对采集的数据源进行鉴别和记录;
③采取技术手段对外部收集的数据和数据源进行识别和记录;
④对关键溯源数据进行备份,并采取技术手段对溯源数据进行安全保护;
⑤确保负责该项工作的人员理解数据源鉴别标准和组织内部的数据采集业务,并结合实际情况执行标准要求;
⑥制定数据源管理的制度规范,定义数据溯源安全策略和溯源数据格式等规范,明确提出对数据源进行鉴别和记录的要求;
⑦通过身份鉴别、数据源认证等安全机制确保数据来源的真实性。
技术工具简述
在数据安全能力成熟度模型,对于数据源鉴别及记录的描述是:对产生数据的数据源进行身份鉴别和记录,防止数据仿冒和数据伪造。这段描述的核心就是溯源,保证数据可以被安全地溯源。所以数据源鉴别和记录的技术工具需要有两方面的能力,一方面是数据溯源的能力,另一方面是安全的能力。安全能力要求保证数据溯源过程中的传输、执行、存储等方面的安全保护。
1)数据溯源技术
目前,数据溯源追踪的主要方法有标注法和反向查询法。
❖ 标注法是一种简单且有效的数据溯源方法,使用非常广泛。通过记录处理相关的信息来追溯数据的历史状态,即用标注的方式来记录原始数据的一些重要信息,如背景、作者、时间、出处等,并让标注和数据一起传播,通过查看目标数据的标注来获得数据的溯源。采用标注法来进行数据溯源虽然简单,但存储标注信息需要额外的存储空间。
❖ 由于标注法并不适合细粒度数据,特别是大数据集中的数据溯源,于是,逆置函数反向查询法就诞生了。此方法是通过逆向查询或构造逆向函数对查询求逆,或者说根据转换过程反向推导,由结果追溯到原数据的过程。这种方法是在需要时才计算所以又叫lazzy方法。反向查询法关键是要构造出逆向函数,逆向函数构造的好与坏直接影响查询的效果以及算法的性能,与标注法相比,它比较复杂,但需要的存储空间比标注法要小。这种模型由获取信息、信息存储、异构数据处理三个部分组成。
信息获取:信息获取的原理和过程可以以数据库中的层次结构为例。如下图所示,在每个数据库中都具有数据库所有者、数据库、数据表、数据表字段、数据这几层结构,如果想对一个数据库进行详细而完整的溯源,那就需要将这个数据库的所有者、所有库、所有库的表、所有表的字段的7W信息(who、when、where、how、which、what、why)进行记录,并将这些记录与数据库数据保存在数据库中以供查询。
信息存储:一种是基于RDBMS存储方案,此方案是基于关系型数据,通过扩充属性的方式来存储溯源信息,即将溯源信息直接存储在关系数据库的二维表中。另一种是基于树形文档存储方案,树形存储方案是将元组、树形、溯源信息作为树的节点来存储,对于带有标注的源数据需要在原树型结构中增加一个子结点用来表示信息的来源。并对每个带标注的源数据都需添加一个href属性,将其链接到源数据结点。要实现数据溯源,溯源信息的存储非常关键。因为溯源信息需要存储空间来存储,存储方式对数据溯源的性能起着关键性的作用。
异构数据处理:随着时间的推移和应用的需要,将产生各种各样的数据源,如mysql、oracle、sqlserver等。应用程序想要操作不同类型的数据库只需要调用数据库访问接口,如odbc、jdbc等支持的函数,动态链接到驱动程序上即可。再通过数据转换工具形成统一的目标数据库,数据溯源信息通过这种途径就能传递到目标数据库中。
下图为异构数据溯源模型图:
异构数据溯源模型
2)数据溯源安全技术
保护溯源信息的意义在于防止溯源信息被破坏、篡改等造成恶意后果的行为,一旦溯源依赖的关键数据被破坏或者篡改,那么数据溯源工作将无法进行,或者是得到一个错误的溯源结果。
为了防止信息被破坏之后无法恢复,需要采用自动备份工具自动定时对溯源关键信息进行全量备份,并且备份数据需要是多地、异地备份。另外溯源关键信息的备份应与原有数据的备份分开进行,互相独立。
除了备份之外,保证数据以及备份数据不被篡改也是数据溯源安全工作的另一大重点。防止数据被篡改的技术目前已经相对成熟。主要可通过加密、数字证书、数字签名等手段实现对数据的机密性、完整性的保护。在数据源鉴别和记录作业的过程中,应该是全过程加密的,并采用双向对端校验签名的机制保证作业过程中的数据未被破坏和篡改。在存储溯源关键信息也要进行加密。
在数据溯源模型中也有一种数据溯源安全模型,就是为了防止有人恶意篡改数据溯源中起源链的相关信息。利用密钥树再生成的方法并引入时间戳参数,有效地防止某人篡改溯源链中的溯源记录,对数据对象在生命周期内修改行为的记录按时间先后组成溯源链,用文档来记录数据的修改行为,当进行各种操作时,文档随着数据的演变而更新其内容,通过对文档添加一些无法修改的参数比如:时间戳、加密密钥、校验和等来限制操作权限,保护溯源链的安全。
受限于篇幅,此处技术工具不进行进一步展开,下图为数据源鉴别及记录的技术工具进行数据源鉴别及记录作业的基本流程图。
文章来源:杭州美创科技有限公司