文 / 江苏苏宁银行技术中心 黄进 陈菲琪 王巍 吴昊
研究背景
随着数字化技术和能力的普及,数据泄漏风险、数据共享风险、数据安全管理风险逐步凸显。如何保障数据安全,促进数据合法、安全、有效地流通,充分发挥数据提质增效作用,是金融行业面临的重要课题。江苏苏宁银行于2022年6月成立项目组研究《数据安全风险管控体系》课题,开展以元数据为基础的数据安全分类分级管控工作,依靠数据管控平台数据治理成果(元数据)、数据安全管理平台、数据脱敏工具,开展敏感数据识别、数据表/字段定级、数据字典安全标签制定工作,输出数据安全分类分级成果(数据安全标签能力),对我行数据仓库/数据湖建立数据安全风险管控体系,推动数据有序安全共享。研究内容包括以下三方面:
一是探索以元数据入手作为数据源的情况下,运用智能识别、语义猜解、名称经验值、描述关联联想等多维度的组合方式,创新性准确识别、自动化识别元数据所属安全级别的方法;
二是建立数据底座数据安全标签,构建不同场景、不同安全属性级别的数据服务能力,明确数据使用权限、适用范围、应用场景;
三是基于数据安全标签能力,建立数据安全风险管控体系,运用数据关联脱敏、数据加解密、数据追溯等技术,确保数据交互安全、使用合规、范围可控。
标识与管控体系实践
1.数据安全标识建设
开展以元数据为基础的数据安全分类分级管控,依靠元数据信息开展敏感数据识别、数据表/字段定级、数据字典安全标签制定,在此过程中,需要基于多维度视角建立准确的全流程、自动化数据安全标识技术,利用数据治理成果的数据字典作为数据源输入,获取数据结构、表名称、表描述、表类型、字段名称、字段长度、字段类型等属性,建立针对业务系统、业务类型维度的组合型识别算法,以系统+表+字段的方法论进行数据安全标识。
(1) 安全标签基准值设定
在数据安全标签的基准值设定过程中,涉及3个基准值:系统标识等级基准值、表标识等级基准值、字段标识等级基准值。
首先应探查银行内的所有业务系统,以业务系统名称为基准,基于业务系统的业务属性,以是否存储用户敏感信息、公司经营敏感信息为出发点,评价该业务系统的初始标识等级作为“系统标识等级基准值”。其次,基于该系统的表结构、表描述、表名称等属性,确定该系统内不同表的初始标识等级作为“表标识等级基准值”。最后,需要基于字段英文名称、字段中文名称、字段类型等属性确定不同字段的初始标识等级作为“字段标识等级基准值”。
其次,为提高安全标识基准值的准确性,减少安全等级标识过程中误报、漏报的可能性,为后续安全标签准确性调整提供良好的基准信息,需要设定一系列的辅助参考值来帮助我们进行安全标识基准值的确定,包括数据源、模式名、数据库标签、数据库备注、数据特征等,其中,数据源、模式名可辅助判断目标业务系统的业务属性,评价系统标识等级基准值,特别在业务系统名称不准确的场景下提高判断精度;数据库标签、数据库备注可辅助判断目标业务系统所使用的数据库是否为管理类型或者业务类型,帮助我们区分业务表、临时表、代码表、系统表或者衍生表,从而可影响表标识等级基准值的设定;数据特征在辅助识别字段标识等级基准值的过程中针对数据字典字段信息不准确的场景下可优化识别能力,确定字段所代表的中文释义,从而判断字段标识等级基准值。
图1 安全标签基准值设定
(2)安全标签准确性调整
在完成安全标签基准值设定后,需要将系统、表、字段的基准值定义方法运营到公司内的纳管应用系统中去,完成初始化的安全标签定义。在此过程中,将产生数据“多分级”情况,我们对数据多分级情况的准确化处理过程,称之为安全标签的准确性调整。准确性调整的过程是数据安全标签定义策略的优化过程,该过程是持续性的,基于业务系统、业务表的改变而不断变化的,在程序基于安全标签调整规则处理后,会存在少量的差错及误报,需要进行人工核准校验,人工核准后的数据安全标签级别为最终确定的数据安全标签,可输出至公司内其他系统作为数据分级策略参考使用。
(3)数据安全标识运营
数据安全标识持续化运营工作,依赖于数据治理工作成果,在各业务系统开发层面不产生新成本,对于新增与变更表与字段的识别持续化运营成本在“数据质量与数据治理”工作中同步完成,信息安全部的人工校验与差错处理也是数据安全运营的日常工作。
图2 数据安全标识建设路径
2.数据安全管控建设
数据安全共享是保障与促进数据流通的重要基础措施,同时数据安全共享也是建立在数据安全治理落地措施基础之上的重要成果。数据安全共享的实践路径在于合理有效的进行数据安全管控,数据安全管控建设核心点在于使用数据安全标识成果,制定细颗粒度、分场景化的数据安全管控策略,指导和约束不同敏感等级的字段在数据探查、导出、交换共享、对外输出等场景下的不同管控要求。
为达成这个目标,需要基于数据安全级别制定安全管控机制,如按照数据安全级别3级及以上的数据资产遵循安全优先原则,保证数据安全、合规共享使用,数据安全级别3级以下的数据资产遵循效率优先原则,开放共享。为实现分级别化的数据使用场景,就需要在数据存储即数据获取源上进行分类存储,区别对待原始数据和脱敏后的数据,在数据使用维度上建立原始数据池与脱敏数据池,对原始数据池的访问收缩用户数据访问权限,确保敏感数据使用权限和使用范围最小化;对脱敏数据池的访问开放用户数据访问权限,确保非敏感数据的查询分析在数据许可范围内充分进行,推动数据有序安全共享。
(1)数据安全管控思路
数据安全管控过程需要覆盖到数据的管入、管存、管出和管用。在管入建设方面,应具备数据分级维护能力,识别数据安全标签,对数据仓库/数据湖建立数据入向规则,确立分级的数据保护基线;在管存建设方面,应具备数据分级存储能力,对数据分级存储的不同进行存储分级保护,同时兼顾内部外合规保护;在管出建设方面,应具备数据导出授权机制,按需对数据进行切片授权,兼顾数据使用效率与数据使用体验;在管用建设方面,应具备数据加工授权机制与数据消费授权机制,按场景化进行数据使用分级。总结来说,数据安全管控建设思路如下:
● 对数据仓库/数据湖数据抽取机制进行改造,应用数据安全标签能力,确定4级敏感数据不入数据仓库/数据湖原则;
● 对3级敏感数据进行脱敏处理,建立数据脱敏处理规则,对2级及以下数据进行明文存储;
● 设立脱敏数据池,存储3级脱敏的敏感数据与2级及以下的明文数据,对脱敏数据池采用宽松型授权访问策略;
● 设立数据高防区,区别存储原始数据与分析使用数据,对原始数据采用紧缩型严格授权访问策略;
● 对数据加工及关联分析场景使用的成品数据,进行数据血缘追踪,关联数据安全标签等级至成品数据结构,即建立衍生表的数据安全管控。
图3 数据安全管控规则定义
(2)数据安全全链路管控
数据安全管控持续化运营工作,依赖于数据安全标识工作成果,为保证持续化的数据管控能力,需要在数据存储即数据获取源(数据湖/数据仓库)的数据标签、数据分级存储、数据脱敏管控模块的开发中做好能力抽象复用与通用性适配,以数据安全标签的上下游自动化传递,将数据安全标签的输入、标识、生成、输出、关联、更新自动化,将数据分级存储、数据脱敏、数据授权、数据访问控制流程化,以数据安全标签作为标识→管控媒介,串联数据的产生→使用生命周期,从而建立数据使用场景的全链路安全管控。
图4 全流程数据安全管控体系架构
在数据交换共享等数据流通场景中,利用明细敏感数据的转换化处理方式,规避大部分场景下的明细敏感数据关联查询带来的数据安全风险,是对企业使用数据过程安全的保障,也是对数据安全法律法规的落地执行。根据业务场景采用静态脱敏、动态脱敏、去标识化等技术措施,利用数据字段标识内容,对不同数据类型的数据字段制定精准化脱敏规则,通过转换具象的明细数据至模糊化,在满足业务需求的同时,保障数据安全使用。
图5 数据安全管控建设技术路径
结 语
数据流通和共享使用提升数据价值,对数据的利用贯穿数据的全生命周期,同一数据在数据利用过程中,可能被多次、反复甚至循环利用,同时,数据的使用加工衍生出新的数据,在传统模式下的“端点-网元”的安全治理模式,已经不能解决大数据时代的数据安全治理问题,需要在安全管理水平、数据使用效率、风险控制等层面进行数据安全管控体系化探索。
基于数据安全保护要求,通过建设场景化数据安全标识上下游全自动化链路,实现高效、准确、自动化的敏感数据识别与敏感数据标签加工工作,建立数据底座数据安全标签,构建不同场景、不同安全属性级别的数据服务能力。推行“核心资产安全优先、非核心资产效率优先”的数据安全准则落地,有助于帮助企业提升内部数据使用价值,形成数据采集-数据开放-数据共享-数据分析的数据资源使用新格局,助力企业建立以数据为核心的业务价值新导向。
声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。