文│ 全知科技CEO 方兴

在以往的普遍定义中,主要的生产要素包括劳动力、土地、资本等。但在 2020 年4 月中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》中,明确要进行市场化配置的要素主要有五种:土地、劳动力、资本、技术、数据。可见,数据作为生产要素,其在国民生产中的价值越来越重要。

一、数据作为生产要素的新风险

在这一时代背景下,如何认知作为生产要素的数据安全体系?和传统的信息作为数据载体的数据安全又有什么区别?

传统的数据安全是把信息当作一种具备所有权的资产。因此,传统的数据安全,基本延伸了信息安全的几个核心原则:信息的保密性、真实性、完整性(CIA 三要素)。但是,数据作为生产要素,还会产生新的、传统的数据安全体系难以覆盖的情形:

市场化机制下,会发生数据的所有权和使用开发权分离的情形,带来数据安全的严峻性。例如用户为了使用厂商的服务,只能授权厂商采集自己的数据。厂商使用这些数据还可以用于其他的各项可以获得利益的数据活动,甚至可以售卖用户的数据给其他组织与机构而获得收益,但作为数据的所有者用户,并不能分享这些收益,甚至可能因为这些数据活动导致个人的隐私权被侵犯。但由于这些损失并非采集了数据的数据控制方的利益损失,对这些数据实施保护,会成为数据控制方的成本,甚至影响数据控制方的利益,因此数据控制方自身并无积极动力去实施数据安全保护。所以,一方面需要法律做出明确的,对数据控制者需要负担的从其他数据主体采集和获取的数据的安全保护义务,同时又需要鼓励数据通过市场化进行资源配置发挥其价值,这需要法律界定好各类数据的权属与利益分配机制。

垄断了大量数据生产要素的企业或组织,可能会利用其数据带来的市场优势地位,对个体或小作坊为主的用户、员工、其他资源提供方进行不公平的市场活动,特别是平台型企业的大数据杀熟,强制要求商家进行二选一等垄断行为。新形势下,如何限制平台型巨头企业滥用数据,已成为国家治理的重要部分。

数据作为生产要素会广泛流通,但如果不加以控制,有可能导致数据被敌对势力获取。这些数据可能被敌对势力用于多种可能损坏我们国家安全利益的用途:如根据数据研发竞争的互联网产品、通过数据进行特定领域的情报挖掘、基因数据用于生物战研究、通过分析大量群体的个人偏好选择进行特定的内容投递来影响这些群体的政治偏好等,例如剑桥分析事件。必须考虑如何在促进生产力发展的同时,控制好数据出境的风险。

因此,政府相关部门一直在推动各种数据安全相关的立法活动。2021 年 4 月 26 日,全国人大第二次审议的个人信息保护法草案,站在数据主体的权利保护和隐私安全的角度,对数据控制者提出了相应的要求,而数据安全法草案则站在国家安全和社会安全角度,对数据的出境、数据活动的一系列安全保障措施如数据风险评估、数据风险监测、数据风险事件的应急响应,对数据控制者提出了相应的要求。

虽然法律上逐步在明确数据控制者的责任和义务,保护数据所有者的各项权益。但是数据在流转迁移过程中衍生出来的各种数据的复杂权属关系,目前在法律上还是很难界定。另外,即使是明确了权属的数据安全保护,在现实中需要保护和控制的环境或场景,都是发生在数据被开发利用、业务流通和共享交换的环节上。传统的数据安全体系,因为受限于以往数据安全是敏感信息在数据载体上的安全视角,大多是在数据载体这一层(数据存储层),围绕着数据库或终端提供数据安全解决方案。但随着数据应用的发展,很多的数据处理活动会在业务应用系统以及大数据平台上展开。因此,传统的数据安全方案,难以满足在这些数据活动中,实施相应的数据安全的动态保护;具体而言,就是按照数据安全法草案里提到的,除了对数据实施分类分级保护外,还需要建立起围绕着数据活动场景的数据风险的评估、监测体系。

二、新形势下数据安全的核心场景

因此,在数据作为生产要素的背景下,可以把新形势下的数据安全划分为五个核心场景:

1. 数据的采集安全。这是近年来国家 App 治理的重点。主要通过规范 App 厂商隐私政策,通过信息明示和主体授权,约束 App 厂商的滥采和承诺对个人数据的保护义务,保障数据主体的权益。

2. 数据在存储载体上的安全。即数据在非使用流转状态中的安全,其数据安全的风险重点是对数据的非授权访问。除了传统数据安全体系的数据加密、脱敏、对数据的访问控制,对数据载体的非法外发的控制外,还需要实施数据本体资产的分类分级,以数据分类分级实施访问控制策略,同时围绕合规要求和隐私政策进行增强性数据保护:如对数据的跨境存储、个人数据的保存时限、生物识别数据的保护上进行管理和技术上的加强。

3. 数据在业务过程中使用和流转的安全。一方面,数据被各种业务应用以及相关的业务参与方基于各类业务需求进行访问,很难通过严格的访问措施实施数据层面细粒度的保护策略,另一方面,由于业务变动较快,需要通过自动化的数据风险监测和测评手段,来实现对动态数据流转中的数据风险控制。首先,需要将数据本体的分类分级进一步映射到业务应用涉及的涉敏业务和系统、涉敏暴露面上,才能更好地发现保护缺失的地方和映射相应的数据安全保护策略。然后,结合具体业务活动使用的数据类型、敏感级别、量级、脆弱性风险、合规要求、网络环境、数据流向和数据访问行为,通过风险分析模型,自动化发现、评估和持续监测数据风险并做出进一步的响应。

4. 企业将来自自身各个业务系统甚至合作伙伴的大量数据打通汇集之后,可以依据这些数据本身作为业务,在大数据平台以及相关的终端上,展开数据分析、挖掘和建模活动。这一类数据活动的数据安全,除了传统的数据操作行为审计外,会产生几个新的数据安全场景:一是数据汇集与融合时,需要遵循各类合规性要求,如按照主体的授权进行数据相关处理的管控。二是对数据模型进行深度的审计,数据模型接触和使用的数据,是否符合模型相关的安全等级策略和主体授权要求。而在数据融合、衍生、分析建模中,共享导出和出境,如确需未授权的数据参与运算,应做到数据的匿名化。

5. 对个人主体数据进行归一化的处理。按照个人信息保护法草案,个人数据主体被法定了包括知情权、决定权、查询权、更正权、删除权等权益。采集了个人数据的机构,需要依法保障个人数据主体对自身数据的权益主张,机构需要设立相应的组织响应个人用户的权益要求,并按相关要求对其个人数据进行相应的处理。这要求相关组织能对个人主体数据进行归一化的处理,并明确了解这些数据的采集和授权情况、数据实际用途、数据共享给第三方的情况,才能满足机构个人信息保护的义务。

三、新形势下数据安全新的技术方向

围绕着以上的场景,数据安全新的技术方向有以下几种。

1. 数据自动化识别和分类分级技术

行业越来越认识到数据分类分级工作的迫切性,但是由于不同行业的业务差异性带来数据的差异性,目前数据识别主要还依赖于人工,基于 AI 的自动化学习面临较大的挑战。特别是数据库的结构化数据,由于业务逻辑和存储逻辑的分离,在数据库中缺乏背景信息数据,导致目前还没有通用的自动化数据识别技术。同时,每个行业对数据类别的安全级别,字段组合风险也有较大差异。如果没有自动化的数据识别和分类分级技术和产品,数据从分类分级开始做起的现实阻力就会比较大。

2. 数据主体归集和授权映射技术

目前数据安全法草案和个人信息保护法草案都强调了数据分类分级,其实数据分类分级是站在数据泄露风险视角的。但是数据权益保护,特别是个人数据主体权益保护,数据分类分级并非是其基础,而是数据主体归集。一个企业的数据来源多样,首先需要识别不同的数据主体,然后将各种来源的数据归集到每个数据主体之下,并映射各种来源的数据对应的用户授权信息,才能面向数据主体提供权益保护。针对这点,目前国内无论是技术还是创新产品都鲜有提及,但却是未来数据权益保护的基础。

3. 基于数据可用的数据匿名化技术

传统在数据本体上的保护技术是加密和脱敏,但是站在个人数据保护角度,更需要的是匿名化技术。匿名化技术目的是切断数据和数据主体关系,个人信息保护法草案里也明确匿名化后的数据可以不再视为个人数据。目前虽然个人信息保护法草案中提到了匿名化,但在个人信息安全规范里,只推进了去标识技术(标识是可以直接关联到个人的唯一识别数据,如身份证号、手机号等)。但是去标识技术并不能很好切断个人与数据的关系,因为还有很多与个人有关的属性数据,如身高、民族、年龄、肤色,如果透露出了足够多的属性数据,攻击者可以通过属性关联技术用一系列的属性锁定唯一的数据主体。匿名化技术不仅针对标识数据,还针对属性数据进行模糊化,如 k- 匿名 (k-anonymity)技术,通过对属性数据的处理,确保任何属性形成的组合查询,满足查询条件的返回记录不低于 k 个,来确保切断数据与数据主体的关联性。但是匿名化技术由于无差别地对属性数据进行处理,极大地降低了数据的可用性,需要进一步研究数据可用性更高的匿名化技术。

4. 融合和计算衍生数据血缘关系图谱

数据通过融合和计算后,会产生新的衍生数据,这些数据与原来数据的权属关系如何,既是一个法律问题,也是一个技术问题,需要研究能追溯不断衍生后的数据原始数据来源的技术。

5. 数据使用流转关系映射

数据不仅仅存在于数据库,也会被业务应用提供给业务人员和用户使用,与外部系统进行数据交换和提供基于数据的服务。站在数据分类分级管理视角,需要了解数据最后被使用和外发的应用暴露面,进行相应的数据安全管控。站在数据主体权益保护视角,则需要了解主体数据用于业务用途中与谁进行了数据交换与服务,当用户更新授权或提出异议是否能按数据主体要求进行数据流阻断和控制。

6. 数据关联资产识别与数据风险模型

按照数据安全法草案要求,需要建立数据风险评估、监测能力;需要在数据流动过程中,自动识别数据关联的资产,如涉敏数据暴露面,涉敏存储服务器与目录等,并结合敏感数据流动状态,数据流动场景环境,数据关联账号与数据访问行为,自动化识别数据风险。

综上所述,在数据日益成为生产要素的形势下,对数据安全的需求逐步从传统的载体层安全走到了数据在业务使用和流通共享过程中的安全,安全问题从机构自身上升到涉及数据主体权益、社会发展与稳定、国家安全层面。无论立法和监管,还是行业和机构,要充分认识到这一变化,并做出相应的措施,采取新的技术手段,满足新形势下的数据安全的要求,确保数据作为生产要素在社会生产中成为生产力的核心引擎的同时,合理控制其可能带来的各种重大安全风险。

(本文刊登于《中国信息安全》杂志2021年第5期)

声明:本文来自中国信息安全,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。