上海市善用隐私计算等前沿技术的立法建议 (2022-01-25)
《政府法制研究》2022年第1期(总第349期)
●隐私计算的各项技术在应用前端(代码编写)、中端(数据聚合)和后端(结果输出)均可能引致不同程度的系统性风险:一是隐私计算对生命权、健康权、公共安全等重大法益构成威胁;二是隐私计算打破数据处理惯例,使数据处理活动的责任主体虚化;三是现有隐私计算技术存在诸多漏洞,无法完全保证数据安全;四是隐私计算可能加剧数据处理过程中的转译偏差;五是隐私计算可能引致歧视的群体化风险。《上海市数据条例》在应对上述风险上存在不足。
●隐私计算的立法重点,是平衡个人信息保护的需求和技术效能的实现,因此,上海市在开展隐私计算立法时,有必要从六个方面切入,具体是:明确肯定隐私计算的正面价值;建立隐私计算的开发行为规范;完善风险控制的外部审查制度;引入以变应变的合法性基础框架;细化数据主体的法律权利保障;打造标准统一的健康技术生态。
上海市善用隐私计算等前沿技术的立法建议
课题负责人:唐林垚
课题组成员:王青兰 黄尹旭 韩亮 葛鑫 吴涛 牛喜堃 赵精武
在应急管理体系和能力的数字化转型语境下,前沿技术的使用尤其重要。隐私计算是指在保证数据提供方不泄露原始数据的前提下,保障数据在流通和融合过程中的“可用不可见”,实现数据价值合规有序释放的技术体系,主要包括多方安全计算、联邦学习、可信执行环境、同态加密和差分隐私等技术。隐私计算的兴起,为人们提供了在数据安全合规、融合应用过程中寻求发展和安全之间平衡点的技术路径和解决思路,其正成为未来数字治理的有效路径之一。作为下一轮人工智能革命的技术高地,隐私计算技术对“加快数字化发展、建设数字中国”意义重大,同《上海市全面推进城市数字化转型“十四五”规划》“分布式建设、协议互联、协同运营”的原则不谋而合。以隐私计算平台为代表的多方安全计算环境,有望成为数据合规流通基础设施的关键一环,在保证安全的前提下有效持续释放数据要素价值,促进数字经济高质量发展。
尽管如此,今天的隐私计算行业仍处于规模商用前期,还需要在性能、不同技术的融合、场景化、透明度和信任等方面实现进一步提升,同时在一些非技术因素上形成相关配套。隐私计算也可能带来决策失误、权益侵害、隐私泄露等风险,而我国相关立法却长期落后于欧美发达国家。在《上海市数据条例》适用之初,结合我国国情、厘清隐私计算的特殊风险,以地方立法方式率先补齐法律方面的短板,将对后续国家层面的规则制定起到引领和示范作用。
一、隐私计算回应了上海市数据流通的需求
在发展迅猛的数字经济时代,数据这一关键生产要素通过跨领域、跨行业、跨地域的机构间数据流通释放要素价值。但上海市目前数据要素市场化配置尚处起步阶段,规模小、成长慢、制约多,机构之间的数据流通仍存在诸多阻碍。一是上海市数据权属的界定仍不明确。在《上海市数据条例》“数据权益保障”一章中,第十二条提出“本市依法保护自然人对其个人信息享有的人格权益。本市依法保护自然人、法人和法人组织在使用、加工等数据处理活动中形成的法定或者约定的财产权益,以及在数字经济发展中有关数据创新活动取得的合法财产权益”,但具体到数据的权属而言并没有清晰界定。在我国相关立法和制度尚未健全的当下,实践中并未形成具有共识性的权属分割规则,产权争议、难以监管的风险令供需双方望而却步。二是上海市数据流通的风险高。上海作为我国的核心城市,其数据安全不仅关乎上海市稳定发展,更关乎国家安全。出于对国家安全、个人信息和商业秘密的保护,企业参与数据流通的主动性、积极性因此降低。三是如何确保流通过程安全合法较难把握。上海市现有的监管要求并未给出数据对外提供和处理的明确合法依据与参考指引,企业仍然困惑于数据可流通的对象、范围、方式等一系列问题。除此之外,数据流通在数据质量、数据定价等方面也面临诸多挑战。
“可用不可见”的隐私计算正是解决这些问题的突破口。“可用不可见”就是只释放数据可以产生的价值,数据对应的信息仍然控制在自己手里不公开。从应用目的讲,一方面隐私计算可以增强上海市数据流通过程中对个人标志、用户隐私和数据安全的保护;另一方面隐私计算也为数据的融合应用和价值释放提供了新思路。作为走在数字时代前沿的发达城市,上海市可以引入隐私计算来回应上海数据流通需求,将数据隐私技术及其规制等引入到《上海市数据条例》中。
二、上海市隐私计算的典型应用
目前,上海市隐私计算技术的典型应用主要聚焦在金融、医疗和电子政务等领域。在金融领域,隐私计算技术为跨机构、跨企业的数据安全共享和联合建模提供了有力的技术支撑,实现企业和机构间的智能风控、协同营销等应用,协助提升企业和机构的风控能力以及精准营销策略。上海市隐私计算具体应用场景并不完全以隐私计算作为单一的底层技术,还包括人工智能、区块链等辅助技术。
(一)上海市智能风控应用场景
智能风控主要是指结合上海市大数据和智能化技术对金融领域的贷前、贷中、贷后业务流程进行风险管控。由于平台的多元化,用户的借贷方式和消费模式也呈现了多样性。因此,上海市风控模型的构建需要涵盖多个平台的数据。
例如,在贷前的反欺诈场景,上海市金融企业可结合电商消费、互联网支付、金融业务属性以及历史行为轨迹等数据,进行多维度信息综合判断,精准地寻找潜在欺诈客户。此外,上海市金融企业还可以通过征信信息、社保信息、纳税情况等获取用户的信用分等资产指标信息,辅助进行贷前精准判断。在贷中交易阶段,相关机构可以先通过结合不同平台用户的个人基本信息、职业信息、收入信息等联合建模得到高性能的风险定价模型,然后放贷机构根据智能信用评分、风控定价模型以及申请贷款者的交易行为和设备使用行为等各方面关键信息进行交叉侦测,自动化识别和评估风险,提前发现风险,防范和控制欺诈交易等贷中风险威胁。贷后管理是信贷管理的最终环节,也是促进信贷业务健康发展的必要因素。上海市金融企业可以通过数据共享进行贷后管理,对借贷人的行动轨迹和消费情况等信息进行实时的监控。另外,上海市金融企业还可以通过多平台信息交互,根据预警规则和贷后行为评分卡解析借款人偏好倾向,有效维护优质客户和管理高风险客户,实现贷后管理差异化,减少成本消耗,提高资源配置效率。
上海市数据共享在智能风控的应用主要体现在保障数据隐私安全的前提下,利用上海市各机构和平台的数据进行联合构建风控模型,提升模型性能,有效降低由于数据缺失和偏差导致的风险事件发生概率,同时扩展业务覆盖人群、完善业务流程、促进风控管理差异化和信贷业务精细化。以上海市某银行个人消费贷款申请评分模型为例,该产品具有全线上、无抵押的特点,主要用于满足客户购车、旅游、留学等多方面的用款需求。在风控审批中,该银行可用的数据有客户在行内留存的个人信息以及查询客户的信用分数据,但如果客户为银行新户时,则没有足够的行内数据可以参考,亦或客户属于征信白户,很难对此类客户的信用水平进行准确评估。针对这类情况,银行可以引入外部公司数据通过隐私计算技术进行建模,利用运营商通话标签数据为客户增信,提升模型的预测能力。
(二)上海市智能营销应用场景
上海市数据共享在智能营销方面也能够起到弥足轻重的作用,主要通过构建更加完善的用户画像和产品画像实现用户和产品之间的个性化匹配,为企业带来最佳推荐转化。企业通过数据共享还可以发现产品的缺陷,进而制定合理的优化方案。
随着新冠肺炎疫情防控形势的严峻复杂,以及线上渠道获客的发展趋势,上海市实行“零接触”营销服务的重要性和必要性愈发突出。在此种营销模式下,通过刻画全面的用户画像和产品画像来实现高效定制化的营销策略将是企业赢得市场的重要手段。精准的用户画像和产品画像是智能营销的支撑,只有在此基础上,营销策略才能更好地发挥其作用,为用户选择合适产品,为企业带来利益。构建用户画像的数据包罗万象,包括信用属性、消费特征、社交属性、语言信息等,每一种或者多种信息都可以提取出用户的某些个性化特性。为了获取全面的数据、刻画精准的用户画像,企业需要利用数据安全共享手段得到用户的相关信息。
例如,可通过上海市数据共享从用户的收入、职业、所属行业、信用评分、资产情况、单位经济以及违约等信息中获取用户整体的收入和支付能力,进而根据用户的信用能力和购买力等信息确定推荐给用户相应价值范围的产品。另外,通过用户在不同平台的消费习惯和消费偏好,可依据客户消费特点定制化地推荐产品和服务。此外,根据用户在社区、论坛等社交网络的信息,可以分析出用户的近期消费倾向,作为产品推荐的阶段性参考因素,阶段性优化用户画像,提高转化率。除了用户画像,数据共享在产品画像上也可以发挥巨大价值。上海市数据共享在产品画像的应用主要是指联合分析金融产品在各平台的资产配置、购买和盈利情况,以及风险和收益评估等信息构建健全的产品画像,然后根据用户信息匹配相应的产品。
(三)上海市智慧医疗应用场景
上海市医学研究、临床诊断、医疗服务等对基于大数据的统计分析与应用挖掘有着强烈的需求,但其依赖的是上海市众多病患的个人健康数据,这些数据规模大、价值含量高,但共享流通却十分困难。一方面是跨机构的数据采集与整合难。相似疾病的不同病例、同一病患的不同病案等大量的诊疗数据往往分布在上海市不同的医疗机构,各机构数据开放共享的意愿本就有限,再加上各医疗机构间的数据标准、编码方式各不相同,跨机构间的联合研究与诊断就更加困难。另一方面是上海市跨机构的数据联合应用难。病患的个人医疗数据十分敏感,且复杂的诊疗数据在其使用过程中难以管控,面对个人隐私保护和数据安全要求,很多机构难免望而却步。
隐私计算为以上难点提供了解决思路。利用隐私计算,在建立分散存储的标准化数据库的基础上,可以实现分布式的联合统计分析,从而获得临床科研的研究成果。在抗击新冠肺炎疫情的过程中,隐私计算可以助力上海疫情数据共享,基于多方安全计算等技术实现了允许用户在不公布己方数据的前提下,联合其他科研人员协同进行病例样本基因组的联合分析并共享结果,可以实现对病毒流行病学情况的实时追踪和对未来毒株演化的预测,成为上海市抗击疫情的一把利剑。
(四)上海市电子政务应用场景
上海市电子政务数据的规模大、种类多、蕴含价值高,涉及公安、交通、税务、环境等各类人民生产生活和社会运行的数据,政务数据的流通与应用将释放巨大能量。近年来,上海市政府积极推进政务数据的开放共享,但不同部门之间的数据孤岛难以快速消除,且政务数据涉及社会民生,数据合规和安全管控要求更加严格。因此,上海市政务部门之间、政府与企业之间的数据共享应用十分困难。隐私计算为此提供了解决方案,在上海市跨机构之间的个人身份确认、企业经营监管、智慧城市建设等众多场景中均有广阔的应用前景。
三、《上海市数据条例》应对隐私计算之不足
数据乃新型生产要素,已为全球共识。隐私计算在破除行业壁垒、化解信息孤岛方面有着得天独厚的优势。但是,当前隐私计算各项技术面临通信开销大、性能效率低、传输复杂度高、与主流技术体系磨合不佳等瓶颈。隐私计算由三项核心技术组成,分别是:(1)安全多方计算,即非信任主体在数据相互保密的前提下进行高效融合计算的技术;(2)联邦学习,即在不共享本地数据前提下,实现机器学习模型多方协同训练的技术;(3)可信执行环境,即通过硬件形成隔离环境以兑现隐私保护承诺的技术。各项技术在应用前端(代码编写)、中端(数据聚合)和后端(结果输出)均可能引致不同程度的系统性风险。
(一)隐私计算对生命权、健康权、公共安全等重大法益构成威胁
隐私计算是嵌入数据处理环节的基础性技术,使用不当极有可能造成传统算法歧视的泛化和异化,导致自动化决策失误。《上海市数据条例》第82条“公共数据安全管理的特别规定”过于简单,未来应当针对公共部门、医疗领域等同公民基本权利、公共安全密切相关场景中的隐私计算应用,制定缜密严格的特殊管理规则。
(二)隐私计算打破数据处理惯例,使数据处理活动的责任主体虚化
隐私计算以隐私信息处理的全生命周期为优化对象,无论在讨论何种技术路径下的法律关系均会涉及三类法律主体,一是使用数据的客户(数据处理者),如上海市金融机构、政府部门、医疗机构等需要数据服务来优化和调整实体业务; 二是提供隐私计算服务的服务提供商,所有数据处理活动均在其架设的独立系统中进行;三是数据提供方,即持有海量数据的征信机构、保险协会、互联网企业等。现阶段上海市隐私计算技术尚未达到完全成熟的程度,服务提供商所能提供的系统平台同样未曾达到该项技术架构所预期的安全水平。实践中有为数众多的参与方横亘在数据处理者和数据主体之间,基于相对方的侵权责任被架空。数据处理的层层委托经常演化为“层层甩锅”,《上海市数据条例》仍然遵循“数据安全责任制”,但连带责任和分配责任等制度安排均无法实现实质正义。
(三)现有隐私计算技术存在诸多漏洞,无法完全保证数据安全
隐私计算的过程具有“半透明性”,恶意攻击者可以伪装成诚实参与方窃取运算结果、扭曲模型、破解可信环境或植入恶意低代码。目前隐私计算的安全研究尚处于起步阶段,防御体系的升级速度长期落后于数据量的指数级增长。研究表明,即便有所防范,训练集中只要包含3%的中毒数据,模型误差将从12%上升至23%。通过隐写术反汇编,恶意参与方可以将病毒和流氓软件悄无声息地传输至目标设备中,攻击成功的概率在九成以上。在《上海市数据条例》第83条、85条的“行业风险评估”之外,可辅以统一的技术安全流程。引导各参与方怀抱诚实和善意,在“你中有我,我中有你”的格局下做到“人人为我,我为人人”。
(四)隐私计算可能加剧数据处理过程中的转译偏差
弱人工智能阶段,算法逻辑直接映射自然人逻辑,开发者的价值观负载和内隐性偏见将导致自动化决策系统失误。例如,在代码编写环节,美国科罗拉多州公共福利系统的程序员曾将“无家可归”不恰当地转译为“行乞为生”,使得本该获得政府救济的流浪者们被算法拒之门外。隐私计算为算法自动化决策施加了诸多限制性条件,使得开发者在前端编写过程中不得不心怀更多顾虑,转译过程的精确性更加无法保证。具体而言,安全多方计算通常以降低数据清洗成本为起点,技术方有时会摒弃清洗成本较高的非结构化数据,采用生成对抗网络(GAN)生成的模拟数据;联邦学习中参与“集训”的初始模型必须具备相当程度的适应性品格,才能在多个数据源间“往返流转”。为此,开发者在建模时一般不对模型目的进行确定和统一;可信执行环境的硬件嵌套带来了兼容、衔接和协作方面的问题,也将加剧转译过程偏差和耗散。总之,程序员的内心偏见将阻挠正确、中立的意思在代码中的表达。《上海市数据条例》中除了规定“健全全流程数据安全管理制度和技术保护机制”等措施外,应强化对技术性较高环节的监管,降低转译偏差。
(五)隐私计算可能引致歧视的群体化风险
“个人信息具有共享属性,具有公共利益价值。”数据集偏差或数据缺陷可能导致算法歧视,在隐私计算中,不同来源数据间的强搭和错配可能对联合数据造成冲击与扰乱,造成歧视规模性放大。除了数据投毒等极端手段,某些参与方的数据输入因数据梯度同其他参与方相差过大,也可能间接导致模型被“污染”,输出歧视性结果。单次歧视的即时危害虽不易被察觉,却足以在更长时间维度和更长数据链条上产生积累式影响,联邦学习全局模型的不断轮回最容易导致群体歧视泛滥。例如,当不同学校的毕业生数据被用于训练招聘筛选系统、当男性占绝对多数的IT行业数据和其他行业数据被共同用于训练升职评价系统时,同身份紧密捆绑的群体歧视将从数据向模型蔓延。故在构建隐私计算规则时,《上海市数据条例》应设定条款规制因隐私计算可能引致的群体歧视。
四、围绕隐私计算的各国立法现状
为了减少隐私计算的风险、最大限度促进“技术向善”,世界各国在隐私计算领域的立法竞争,已经初现端倪。
(一)美国推崇隐私计算为“维持数字霸权”的关键核心技术
2019年2月,特朗普签署《维持美国人工智能领导地位的第13859号行政命令》,重点扶持“跨领域数据使用的安全技术”(§5a);2020年12月,特朗普签署《在联邦政府机构推行「可信赖人工智能」的行政命令》,阐明了隐私计算嵌入人工智能应用的必要性(§9c);拜登政府上台后,美国国会立刻通过了《促进数字隐私技术法案》,分门别类地细化了隐私计算的安全要求(§2(2))。
(二)欧盟视隐私计算为“跨境数据合规”的通用技术
2020年7月,欧盟法院在Scherems II案中判决欧盟—美国隐私盾无效,两大经济体数据互传曾一度陷入瘫痪,欧盟发布《补充传输工具以确保遵守欧盟数据保护水平措施的建议》,将隐私计算技术的使用作为跨国数据处理者主动合规的证据(Annex 2)。欧盟网络安全局于2021年1月颁布《数据隐私保护中网络安全措施技术分析》,指定多方安全计算和同态加密为复杂数据环境中的通用技术,并且有针对性地统一了隐私计算的安全流程(§3)。
(三)我国关于隐私计算的制度供给存在理念滞后和法律脱节等问题
早在2020年3月,《国民经济和社会发展第十四个五年规划和2035年远景目标纲要》就提出了“推进数据跨部门、跨层级、跨地区汇聚融合”的顶层设计,但此后《推进“上云用数赋智”行动培育新经济发展实施方案》《工业大数据发展的指导意见》《加快构建全国一体化大数据中心协同创新体系的指导意见》等文件,均只是在理念层面略微延伸和附和了加强数据资源整合和算力统筹调度的精神。直到2021年5月,国家发改委、网信办、工信部、能源局共同发布了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,抽象的政策呼吁才与具体的隐私计算技术相勾连。但弥补规则缺位的是大大小小以分块式立法样态散见于不同层级规范中的部门法,但法律和政策之间缺乏联动,尚无法有机串联成应对隐私计算的动态规范。
五、隐私计算既有规制手段之局限性
面对隐私计算风险,世界各国的立法者制定的一系列监测、识别、防范与救济的措施,主要包括信任维系、目标规范、集体诉讼、缺陷弥补和强制脱敏等机制,但这些机制尚未联结成足以应对隐私计算风险的动态规范。
(一)信任维系机制失焦
技术的信任维系机制,以技术优势方的信息披露为基础。一直以来,算法可解释性的合规要求,是世界各国人工智能法的核心要旨。在隐私计算嵌套进算法决策过程后,可解释性变得更加难以实现。隐私计算的各项技术构成了一系列法益依附的黑箱,由于受商业秘密的保护,监管者难以强制技术方公开披露技术细节。公共管理部门的隐私计算方案更是关涉公共安全,将内部技术细节置于公众审视之下容易遭受舆论非难,且必然削弱系统的防御力。除此之外,隐私计算中环环相扣的符码规则进一步打断了算法可解释性的链条;多重加密手段的运用,更是以减少不透明度作为隐私计算中的个人信息保护屏障。由此可见,算法可解释性在隐私计算中的匮乏,本就是保障隐私安全的策略和手段,如此一来,基于算法可解释性的信任维持机制在隐私计算中必将面临重塑。
(二)目的规范机制失调
知情同意框架是数据处理活动的基本保护范式,因知情而同意或不同意,共同勾勒出数据主体在数据处理活动中的能动性边界,使数据处理活动的目的被锚定在合理的区间之内。在数据处理活动中,用户同意的知情前提常因各种原因被削弱,导致目的规范机制无法发挥作用。由于很多意外情况在日后的数据处理活动中才可能发生,数据主体在对一系列关切自身重大利益的事项进行“一揽子同意”时,通常无法准确评估合同的每一条款可能使自身面临的风险,难谓表意自由。就隐私计算而论,数据主体可能无法想象,允许数据处理者与其他受托方或第三方共享用户数据,将带来巨大的数据保护空白;数据主体也可能无法预料,出于实现公共利益的善心,适当允许处理者扩大数据采集范围,反而将助长数据剩余权利滥用、隐私迫害等情况的滋生。数据处理者可以就隐私计算技术细节提供详实的用户协议,数据主体也对此表示同意,但不能因此完全认可此间法律关系的产生、变更或消灭的合理性,毕竟,数据主体根本无力深究长篇累牍用户协议中可能存在的“雷区”,更无法从技术层面知晓自己的数据何时被调取或使用;意思表示真实性和有效性大打折扣,“同意”与“事实上知情”存在断层。
(三)集体诉讼机制失效
隐私计算的涉众基数,远大于普通算法应用的受众基数。一般情况下,集体诉讼被认为是应对大规模侵权行为和群体性小额争议的“灵丹妙药”,受害人的维权成本在群体中分担,数名相同境况的人遭受“共同损害”的事实有助于建立技术使用和损害发生间的因果关系,例如,利用用户弱点的钓鱼营销对单个用户而言可能是无法察觉和举证的“隐形侵权行为”,但当海量用户都被钓鱼营销时,侵权行为便不再隐秘。但是,隐私计算“分布式学习”的技术样态在事实上降低甚至消灭了受害者的聚合可能。隐私计算的数据传输过程,本是通过层层加密手段、服务器分属不同区域的物理隔绝措施以及去标识化和匿名化等必要处理方式,实现个人数据的“可用不可见”;而受害人身份的群体互识,只有在加密方式被破解、服务器被攻陷以及去标识化和匿名化被逆转的情况下,才可能发生。易言之,隐私计算本是通过杜绝数据主体之间的相互识别达到提升安全性的效果,这种机制本身导致了隐私计算中数据主体将集体维权困难。
(四)缺陷弥补机制失衡
各国立法者从数据主体的“个人信息自决”(information-determination)入手,赋予了数据主体一系列权利救济途径。例如,欧盟《通用数据保护条例》(简称GDPR)第17条规定了“被遗忘权”:“数据主体有权要求数据控制者擦除关于其个人数据的权利。”实现被遗忘权的方式是“清除同个人数据相关的链接、备份或复制”,此举因实践成本极高且有悖信息自由而饱受诟病。美国《加州消费者隐私法案》(简称CCPA)第三章规定了“删除权”,“如果服务提供商收到消费者提出的删除其个人数据的可验证请求,则应从其系统中删除消费者个人数据,并指示任何‘从服务提供商’从其系统中相应删除消费者个人数据”,较之于被遗忘权更具可操作性。我国《信息安全技术个人信息安全规范》(简称《安全规范》)第8条第3款和《个人信息保护法》第47条借鉴了CCPA删除权的思路,但通过适当降低删除权实质内涵的方式进一步降低了技术方的合规成本:只要个人数据在日常业务功能所涉及的系统中不能被“检索或访问”,即满足《安全规范》第3条第10款对“删除”的定义。由于没有实质性删除个人数据或清除同个人数据相关的链接、备份或复制,《安全规范》为删除权设定的最低门槛在特定情况下仍然可以被技术性逆转,恢复“被检索或被访问”的状态。隐私计算本为链接数据库而生,此时,为降低企业合规成本而允许技术方采取“名义删除”的做法将不再有效。除此之外,被遗忘权、删除权的实用性在隐私计算中也大打折扣。由于过度依赖在数据集中添加混淆数据以提升安全性,“实质删除”的难度大大增加;具有不可篡改特性的区块链技术在隐私计算系统中的穿插应用,令不可逆转的删除难以实现。总之,隐私计算中的数据主体需要不同于被遗忘权或删除权的信息自决手段,才能真正实现对自身数据权利的保障和救济。
(五)强制脱敏机制失范
技术对个人隐私的侵蚀愈演愈烈,对个人信息进行脱敏化处理已经成为全球个人信息保护立法的共识,信息处理方有责任采取技术手段保证任何人或组织无法以倒推的方式,知晓信息主体的真实身份。《安全规范》规定了去标识化和匿名化两种脱敏方式,前者是指不借助额外信息便无法识别、关联或复原个人信息的技术处理方式,后者是让个人信息不能被识别、关联或复原的技术处理方式。问题在于,随着数据如滚雪球般积累,完全匿名化的状态将不可能保持。“数据最小化、匿名化等原则,在大数据反向识别和预测性挖掘等技术下失去了应有的保护作用。”诚然,隐私计算的数据加密和权限管理,在很大程度上阻断了多方大数据“实质合并”的可能,但机器学习模型在各参与方之间的多次往返流转也极有可能泄露出足以识别“去标识化”数据的线索。极端情况下,掌握了足够多的单向反馈和模型变动,完全碎片化的匿名数据也有可能被复原。总之,隐私计算中数据交流的爆炸式增长,将使得任何匿名化处理手段都难以有效消弭匿名数据的“剩余风险”。
六、上海市隐私计算技术立法的具体建议
《上海市全面推进城市数字化转型“十四五”规划》,是地方文件中为数不多意识到隐私计算在完善数字安全发展环境方面重要作用的指引性文件,足见上海在新兴技术立法领域的前瞻性。隐私计算的立法重点,是平衡个人信息保护的需求和技术效能的实现。为此,上海市的立法尝试,可以从以下六个方面切入。
(一)明确肯定隐私计算的正面价值
第一,隐私计算在无需转移数据物理存储服务器的情况下实现数据建模分析,从而减少数据协作过程中风险。联邦学习、安全多方计算等隐私计算技术秉承“数据可用不可见,数据不动模型动”的理念,不流通原始数据,只回传数据的计算模型,并以此实现数据价值出库。故理论上而言,在隐私计算技术的助力下,无需转移数据物理存储服务器的情况下,数据合作方之间即可实现基于双方或多方数据的建模分析,减少数据协作过程中的风险。第二,隐私计算可从技术层面满足数据最小化、完整性和机密性原则要求。数据最小化、完整性和机密性均是《通用数据保护条例》(GDPR)关于个人数据处理的重要原则,在我国《民法典》与《个人信息保护法》中也有所体现,是国际社会公认的个人信息收集处理的基本要求。传统的数据融合方式往往需要先将尽可能多的多源数据集中至一个数据中心,然后再训练模型,不仅存在数据过度采集的可能,且面临数据传输与储存阶段的双重安全风险。采用隐私计算技术和区块链等技术结合形成的整体解决方案,对数据真实性、准确性进行记录,能够有效防止数据被内外部无权限人员随意访问、修改、导出等,保障数据的完整性和机密性。第三,隐私计算可证明、记载企业是否履行数据安全保障义务。随着技术的成熟,隐私计算技术在保护数据安全方面的优势获得了行业的广泛认可,部分企业的隐私计算技术还顺利通过行业安全评估。
故虽然存在一定风险,但隐私计算在数据处理活动中的积极意义不可否认。上海市可以通过正面清单的方式,将多方安全计算、联邦学习、可信执行环境、同态加密和差分隐私技术列入上海市政府鼓励研发和使用的技术名录,引发行业关注。
(二)建立隐私计算的开发行为规范
促进技术向善最有效的手段,始终是通过法律将标准和原则植入技术应用的底层行动逻辑,因势利导出政策制定者期望的结果。就隐私计算而言,立法者可以将伦理先行原则、声誉评价机制等植入开发行为规范,为不同类型的技术应用创设差异化的社群规则。隐私计算的技术应用首先需要满足伦理先行原则,不得游走于现有法律体系的灰色地带进行监管套利。由于汇聚了海量大数据,技术方极易经不住诱惑,利用算法压榨个体、摄取不成比例的回报。由于同算法决策息息相关,隐私计算同样包含价值判断,立场抉择关涉多方利益。因此,技术方案选择不应是简单的效益至上或是性能择优。隐私计算的伦理先行体现在,各参与方的效益增长势必要同步拉动社会公共利益提升。
从数据主体的视角来看,隐私计算的技术红利应当雨露均沾,技术方必须要努力兑现在用户授权时对用户的承诺,否则数据主体有权主张隐私计算的合同自始无效。此外,技术方还应当主动引入声誉概念作为参与方信任度的衡量指标,净化隐私计算环境。从可以采取的技术手段来看,多权重的主观逻辑模型使基于声誉的可信赖客户端之间的“朝上竞争”成为可能,配合区块链技术的不可篡改特性可实现分布式信誉管理。上海市可将“伦理先行原则”“统一安全原则”“声誉评价机制”等固化进开发行为规范,为不同类型的技术应用创设差异化的社群规则。
(三)完善风险控制的外部审查制度
信息不对等必然诱发权力滥用,隐私计算的层层技术黑箱极大地削弱了算法可解释性的制约效力。由于技术具有嬗变性,多环节技术叠加还有可能造成脱离造物者预设程序但短期内难以被人察觉的情况。因此,“心怀善意”的技术方至多作出“自以为正确的解释”,其实错误乃至虚假的信息披露是隐私计算中的常态。故有必要引入外部审查机制、深入探查隐私计算的潜藏风险。隐私计算的执行方案,必须经过独立的第三方机构审查,参与审查的专家委员会由具备相关技术背景、同各参与方无利益往来的专家组成。“专家会诊”不宜简单地将安全凌驾于精准度、效率、公平和收益等价值之上,而需要通过最低限度的尽职调查,纵横交错的多元诉求,在保障基本安全的前提下尽可能促进数据效能的最大释放。
根据应用场景的不同,可以从审核强度、价值位阶和优先防御手段等多个维度共同确定隐私计算的“滑动审核标准”。除了上述标准之外,外部审核主体还应着重关注技术方在降低算法歧视方面是否尽力而为。例如检视隐私计算的数据聚合机制,尤其隐私计算参与方的自身禀赋、行业特点和地域限制,在何种程度上影响了数据样本的生成。无论如何清洗,来源于同一主体的数据通常会被打上难以察觉的烙印,具有隐性的身份化表征,在无形之中限定了隐私计算的格局。不同数据间集体身份在隐私计算中的相互排斥和博弈越明显,得出的运算结果或训练出的公共模型就越有可能产生歧视。既然歧视主要根源于数据,外部审核主体应当确保技术方在数据清洗过程中引入缺省数据筛选机制,去除冗余、不相关、不合格数据,降低通信成本、提升运算精度。
(四)引入以变应变的合法性基础框架
虽然知情同意框架存在缺陷,但至今仍然广泛地被各国立法者前置为信息处理全周期的“第一闸口”,主要是因为标准化的模式无论对于数据主体还是数据处理主体而言,均为最有效减少交易成本的解决方案。数据主体因知情而同意或不同意,共同勾勒出数据处理活动的能动性边界。在隐私计算作为算法应用基础设施的全新业态中,知情同意框架仍将发挥巨大的作用,但隐私计算的动态特征也决定了知情同意框架亟需进行相应改进。数据主体只有做到与时俱进的“知晓”,才能作出真正符合其意思表示的“同意”,否则无异于“刻舟求剑”。例如,因加密或传输方式的革新导致数据使用方式的改变、数据处理者对新模型训练请求的授权、新硬件模块在可信执行环境中的导入等,数据处理者均需通过正当程序,依次与数据主体之间达成合意。
从学理上看,隐私计算下的知情同意框架所对应的合同类型,不再是多次即时结清的静态合同,而是当事人各方处于“继续性合作伙伴关系”的动态合同。同传统的静态合同各方始终受初始条件的拘束不同,动态合同关系中各方的权利和义务将长期处于一种开放式的、不断修正的状态之中。由于用户协议的一揽子授权同意不能覆盖隐私计算的整个数据处理流程,数据主体的初始同意不应当视为对自身信息权益的永久授权。即使是去标识化、匿名化的个人数据参与隐私计算,数据处理主体也应当“逐次、分别、主动”请求用户授权。反复征询必然降低隐私计算效率,反过来又可能对数据主体隐私权中的安宁权造成损害,而且极有可能导致疲惫之下用户的一揽子授权或一揽子拒绝。为了避免这种情况的发生,应当为隐私计算中的个别情形设置授权豁免。
(五)细化数据主体的法律权利保障
在隐私计算中,宜将“统一增进社会福利”的帕累托标准作为隐私计算的理想目标。虽然为了社会效益的增长,个人数据权益的克减不可避免,但在有多个参与方的交易中,如果部分参与方的利益主要体现为财产利益,其余参与方的利益主要体现为人格权益,人格权益方应当被优先保护。无权利则无救济,“个人信息自决”观念下的知情权、获解释权、拒绝权、更正权、删除权、被遗忘权等,在隐私计算中仍然有适用的空间。隐私计算中的数据主体宜享有以自身利益为目的而行使的“自益权”,这种权利的行使应具有便捷性,且限制较少。例如CCPA中的“选择退出权(Opt-out)”即允许消费者限制企业同其他第三方分享个人数据。
除此之外,还应在《上海市数据条例》中引入人工干预权、脱离自动化决策权、免受算法支配权等新兴权利,确保数据主体面对隐私计算要约时,有为自身利益“讨价还价”的筹码。
(六)打造标准统一的健康技术生态
目前,隐私计算各项技术流派众多,数据采集和处理方式差别迥异。数字化转型现状下,金融、保险、医疗、销售、教育等行业业都向数据处理行业转型。2021年7月,中国支付清算协会发布《多方安全计算金融应用评估规范》,这是我国第一个有关隐私计算的金融规范。
上海市各行业主管部门可以更进一步,牵头本地行业主管部门,制定跨行业共同遵守的应用标准,构建新兴技术适用的安全漏洞知识库,做到数据编码、制式、口径、格式方面标准的统一。上海市各行业主管部门应将零散的概念、实例和规则整合成体系化的检索库,在地址、端口、服务、属性、协议五元组层面实现隐私计算的知识图谱化。作为庞大数据拥有者的政府部门应向各行各业定向开放“上海教育资源中心”“上海科技管理信息系统”“上海社会保险公共服务平台”等数据库,赋能各个产业的数字化转型,为上海市隐私计算的跨行业应用提供便利。
编后语:上海市目前数据要素市场化配置尚处起步阶段,规模小、成长慢、制约多,机构之间的数据流通仍存在诸多阻碍。“可用不可见”的隐私计算正是解决这些问题的突破口。因此,有必要将数据隐私技术及其规制等引入到《上海市数据条例》中,以此回应数据流通的需求。课题报告分析了上海市隐私计算的应用场景,探讨了《上海市数据条例》应对隐私计算风险的不足,在借鉴国外隐私计算立法的基础上,对上海市隐私计算立法提出了具体的建议。课题报告具有很强的针对性,对于加快数字政府的建设具有参考价值。
课题负责人简介:
唐林垚,男,北京大学深圳研究院、中国社会科学院法学研究所助理研究员,法学博士。
课题组成员简介:
王青兰,女,北京大学深圳研究院科研主管。
黄尹旭,男,中国人民大学法学院博士研究生。
韩亮,男,上海市宝山区人民法院二级法官。
葛鑫,女,中国信息通信研究院研究员。
吴涛,男,上海高级人民法院司法智库研究员。
牛喜堃,女,上海证券交易所研究员。
赵精武,男,北京航空航天大学法学院助理教授。
(责任编辑:邓海娟 核稿:陈书笋)