什么是隐私计算,它是怎样保护我们的隐私安全?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是隐私计算,它是怎样保护我们的隐私安全?相关的知识,希望对你有一定的参考价值。


 目录

​​隐私计算简单理解​​

​​一、隐私安全保护面临的挑战​​

​​二、隐私计算技术概念及技术路线​​

​​1、安全多方计算(MPC)​​

​​2、联邦学习(FL)​​

​​联邦学习和多方安全计算的区别​​

​​3、可信任执行环境(TEE)​​

​​三、隐私计算底层应用的密码学算法​​

​​1、同态加密(HE)​​

​​2、差分隐私(DP)​​

​​3、不经意传输(OT)​​

​​四、华为云在隐私计算领域的产品与实践​​


隐私计算简单理解

你知道什么是隐私计算吗?隐私计算是指,在保护数据本身不对外泄露的前提下,实现数据分析计算的技术集合,达到对数据“可用、不可见”的目的;在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放。隐私计算涵盖了众多学科技术,是一种包含了安全多方计算、同态加密、差分隐私、零知识证明、联邦学习以及可信执行环境等,主流技术子项的相关技术合集及产品方案。
你明白了吗?

一、隐私安全保护面临的挑战

数据在为人们的生活带来了种种便利的同时,也使得大家对个人数据隐私和安全产生了担忧,这俨然已经成为世界性的问题。

如何才能在遵循法规的要求下,既充分发挥数据的价值,同时又不会影响到用户的数据隐私和安全?尤其是对于依赖外部数据的企业来说,如何能够合理利用合作伙伴的数据价值,又不会见到原始数据以至于造成数据泄露?这就对企业利用数据开展业务提出了一个挑战。

近年来隐私计算技术发展迅速,它作为赋能数据利用流程的核心技术之一,将成为数据流通服务的底层基础设施,为数据流通创造条件并守护数据隐私和安全。

什么是隐私计算,它是怎样保护我们的隐私安全?_数据

什么是隐私计算,它是怎样保护我们的隐私安全?_差分_02

二、隐私计算技术概念及技术路线

隐私计算是涵盖了众多学科的交叉融合技术,是一种包含了安全多方计算、同态加密、差分隐私、零知识证明、联邦学习以及可信执行环境等主流技术子项的相关技术合集及产品方案。

因为隐私计算技术和方案的种类较多,为了便于理解和分类,业界通常将上述技术分为三大路径:以安全多方计算为代表的密码学路径、以可信任执行环境为代表的硬件路径和以联邦学习为代表的人工智能路径。下面简单介绍一下这3个路线的区别和联系。

1、安全多方计算(MPC)

安全多方计算(Secure Multi-party Computation, MPC)是一种密码学领域的隐私保护分布式计算技术。安全多方计算能够使多方在互相不知晓对方内容的情况下,参与协同计算,最终产生有价值的分析内容。

实现原理上,安全多方计算并非依赖单一的安全算法, 而是多种密码学基础工具的综合应用,包括同态加密、差分隐私、不经意传输、秘密分享等,通过各种算法的组合,让密文数据实现跨域的流动和安全计算。

下面是安全多方计算的其中一种简单实现方案示意图:

什么是隐私计算,它是怎样保护我们的隐私安全?_差分_03

什么是隐私计算,它是怎样保护我们的隐私安全?_数据_04

2、联邦学习(FL)

联邦学习(Federated Learning, FL)又名联邦机器学习、联合学习。相比于使用中心化方式的传统机器学习,联邦学习实现了在本地原始数据不出库的情况下,通过对中间加密数据的流通和处理,来完成多方联合的学习训练。

它一般会利用分布式数据来进行本地化的模型训练,并通过一定的安全设计和隐私算法(例如同态加密、差分隐私等), 将所得到的模型结果通过安全可信的传输通道,汇总至可信的中心节点,进行二次训练后得到最终的训练模型。

由于密码学算法的保障,中心节点无法看到原始数据,而只能得到模型结果,因此有效地保证了过程的隐私。

联邦学习和多方安全计算的区别

联邦学习的实现主要“面向模型”, 其核心理念是“数据不动模型动”,

多方安全计算则是“面向数据”,其核心理念是“数据(加密)可用不可见”。

3、可信任执行环境(TEE)

可信任执行环境(Trusted Execution Environment, TEE)指的是一个隔离的安全执行环境,在该环境内的程序和数据,能够得到比操作系统层面(OS)更高级别的安全保护。

其实现原理在于通过软硬件方法, 在中央处理器中,构建出一个安全区域,计算过程执行代码TA(Trust Applition)。

仅在安全区域分界中执行,外部者无法通过常规手段获取和影响安全区的执行代码和逻辑。

同时计算数据通过相关密码学算法加密,来保证数据只能在可信区中进行计算,其简单实现示意图如下所示:

什么是隐私计算,它是怎样保护我们的隐私安全?_差分_05

什么是隐私计算,它是怎样保护我们的隐私安全?_差分_06

可信执行环境和前文提到的两种技术路线的区别, 在于不需要依赖过多复杂的密码学算法,因此计算效率高,且能够实现的计算逻辑更加丰富。

上述三者的详细区别和联系参见下表:

什么是隐私计算,它是怎样保护我们的隐私安全?_执行环境_07

什么是隐私计算,它是怎样保护我们的隐私安全?_执行环境_08

三、隐私计算底层应用的密码学算法

隐私计算三大技术路径中,除了可信任执行环境代表的硬件路径外,其他两个技术路径均用到了多个复杂的密码学算法,各算法在使用目的和手段上均有不同。这里简单介绍3种常用的密码学算法,方便大家初步认识这些算法是如何保护数据和隐私安全的。

1、同态加密(HE)

同态加密(Homomorphic Encryption, HE)指的是能够直接使用密文进行特定运算的加密技术,并保证得到的结果与明文计算结果一致。 数据进行加减、汇聚时不会发生明文数据的暴露,因此能够大大提高计算方的可靠性。

同态加密的优势在于通信量少,不需要多轮通信轮数,且在结果方密钥不泄露的情况下,计算过程是安全的,因此在多方安全计算、联邦学习等场景中得到了应用。

2、差分隐私(DP)

差分隐私(Differential Privacy, DP)是通过添加额外的随机数据“噪音”使真实信息淹没于其中,从而保护隐私的一种技术手段。当恶意用户试图通过差分攻击的手段反推原始数据时,由于噪音的存在,无法确认数据的真假,因此无法顺利还原原始数据。

其优势在于无须加解密时的巨大算力消耗,技术相对成熟,因此在各种涉及个人隐私的统计类场景中得到广泛应用。

差分隐私如何应用在安全计算中,可阅读​​《多方计算时,每次结果竟然都存在着巨大隐患,此文告诉你可以这样解决》​​进行更深入理解。

什么是隐私计算,它是怎样保护我们的隐私安全?_执行环境_09

什么是隐私计算,它是怎样保护我们的隐私安全?_执行环境_10

3、不经意传输(OT)

不经意传输(Oblivious Transfer, OT)由Rabin于1981年首次提出,也叫做茫然传输协议。

其作用是当数据发送方有多份数据时,可通过OT算法,来让数据接收方从中仅选取需要的数据,但无法获取其他的数据,同时数据发送方也无法得知接收方从中获取了哪些数据。因此该算法常用于隐私计算集合求交、联邦学习样本对齐、隐私信息检索等场景。

四、华为云在隐私计算领域的产品与实践

华为云在2021年9月正式商用发布隐私计算产品可信智能计算服务TICS。该产品面向政务、金融、消费和医疗等行业,旨在打破组织内部、行业内部、跨行业之间的数据孤岛,基于鲲鹏TEE可信执行环境、全同态加密、安全多方计算、差分隐私、区块链等技术,实现在数据隐私保护下的多方数据联合SQL分析、横向联邦学习、纵向联邦学习,协同伙伴和客户,推动数据要素的可信流通和开发利用。

什么是隐私计算,它是怎样保护我们的隐私安全?_数据_11

什么是隐私计算,它是怎样保护我们的隐私安全?_数据_12

华为云可信智能计算服务TICS并不是一项单一的技术,而是一套理论框架和技术体系,是大数据、密码学、人工智能、区块链、可信硬件、安全容器等领域的交叉和融合。

在多方数据库联合查询场景中,平台既要做到保护敏感明细数据,又要实现多方数据库的联邦统计分析。在多方样本或特征的联合建模场景中,平台既要对敏感ID和特征进行保护,又要把多方样本或特征联合起来训练出更好的模型。这个过程中华为云可信智能计算服务TICS会为各参与方提供全生命周期的监控和管理,TICS和华为云区块链服务紧密配合,进行数据管理和计算过程的确权和存证,做到整个计算过程可追踪可审计。



差分隐私?联邦学习?安全多方计算?它们之间是什么关系?

写在前面的话

本文纯属个人笔记,仅供参考。

隐私计算

什么是隐私计算?

隐私计算(Privacy-preserving computation)是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”。

简单来说就是一个技术体系,其目的是实现数据可用不可见。下面是隐私计算流程图。

数据方:提供数据的组织或个人。
计算方:提供算力的组织或个人。
结果方:接收计算结果的组织或个人。

隐私保护计算的目标是在完成计算任务的基础上,实现数据计算过程和数据计算结果的隐私保护。数据计算过程的隐私保护指参与方在整个计算过程中难以得到除计算结果以外的额外信息,数据计算结果的隐私保护指参与方难以基于计算结果逆推原始输入数据和隐私信息。

隐私计算发展趋势

1、多方安全计算:基于密码学的隐私计算技术;
2、联邦学习:人工智能与隐私保护技术融合衍生的技术;
3、可信执行技术(TEE):代表的基于可信硬件的隐私计算技术。

隐私计算的技术

混淆电路、秘密分享、不经意传输等作为底层密码学技术,同态加密、零知识证明、差分隐私等作为辅助技术的相对成熟的技术体系。

隐私计算体系结构

底层硬件角度:
1、多方安全计算与联邦学习通常从软件层面设计安全框架,以通用硬件作为底层基础架构。
2、可信执行环境则是以可信硬件为底层技术实现的隐私计算方案。
算法构造角度:
1、多方安全计算技术基于各类基础密码学工具设计不同的安全协议。
2、联邦学习除可将多方安全计算协议作为其隐私保护的技术支撑外,基于噪声扰动的差分隐私技术也广泛应用于联邦学习框架中
3、可信执行环境通常与一些密码学算法、安全协议相结合为多方数据提供保护隐私的安全计算。
算法应用角度:
1、联邦学习技术方案主要应用于联合建模和预测场景中。
2、多方安全计算和可信执行环境则可作为更加通用的技术方案,可设计用于联合统计、联合查询、联合建模及联合预测等诸多场景。

安全多方计算

注:安全多方计算可以去看看《阿里巴巴集团安全总监洪澄:安全多方计算技术及其在阿里巴巴的应用》有助于理解安全多方计算。
优点:
1、基于密码学安全,其安全性有严格密码理论证明。
2、同时计算准确度高。
3、支持可编程通用计算。

缺点:
1、密码学操作产生计算性能问题,运算时延以及参与方数量增加也会导致应用无法落地等相关问题。
2、传统安全问题无法解决,如访问控制、传输安全等。
3、不同技术间的加密数据不能互通造成的新的数据孤岛问题。

联邦学习

优点:
1、解决训练阶段数据特征单一的问题,从而获得一个性能更好的、优于利用自己本身数据集所训练出的模型
2、算力成本压力小。

缺点:
1、安全问题,当神经网络的模型较大时不会从头开始编码,而是用开源的基础模型,存在病毒植入的安全问题。以及传输的梯度和权重可能被逆推泄露信息。参与方不一定可行。
2、通信效率问题。分布式参与节点计算能力不一致、网络连接状态不稳定、数据通信非独立分布等现实因素。

可行执行环境

优点:
1、通用和高效的优势(支持通用计算框架和应用,计算性能高)。
2、可单独用于隐私计算,也可以与其他技术结合在一起来保护隐私(对于安全可信云计算、大规模数据保密协作、隐私保护的深度学习等涉及大数据、高性能、通用隐私计算的场景,是重要的技术手段)。

缺点:
1、TEE 信任链跟CPU 厂商绑定,目前硬件技术被掌握在英特尔、高通、ARM等少数外国核心供应商中,从而影响到机密计算技术的可信度。
2、实现在理论上存在侧信道攻击的可能性,因为TEE与其它非可信执行环境空间共享了大量的系统资源。

差分隐私

优点:
1、严格的数据理论,能够实现数据资源的最大利用
2、在多方安全计算中,采用可计算的差分隐私能大大降低多方安全计算的计算复杂度和通讯量。

缺点:
1、噪声回对模型可用性和准确性造成一定程度影响(对于准确度要求较高的场景如人脸识别、金融风险计量,目前无法大规模应用该项技术)。
2、差分隐私保护目标是计算结果而不是计算过程(以机器学习建模为例,差分隐私可以在建模结果上加入噪声,保证攻击者难以从建模结果反推出样本信息,但差分隐私依然需要计算方显式的访问训练数据,因此没有保护建模过程,因此与前面三种方案有根本不同)。

比较



应用场景

联合营销:跨行业数据融合重构用户画像

联合风控:引入外部数据优化金融风控模型

智慧医疗:数据互通发挥医学数据价值

电子政务:促进政务数据安全共享开放

发展趋势

国外
从隐私计算本身的发展历程来看,国外企业布局隐私计算较早。早在2008年第一家专攻多方安全计算解决方案的技术厂商Partisia就已在丹麦成立,为商务合同、加密拍卖等场景提供安全方案科技巨头中,微软从2011年开始深入研究多方安全计算、谷歌在全球率先提出联邦学习的概念、Intel打造SGX成为绝大部分可信执行环境实现方案的底座,均已成为各条技术路线主要的领路人。其他如IBM致力于将同态加密与云服务结合,帮助用户数据安全上云;Facebook则是专攻基于隐私计算的机器学习。创业公司中,Sharemind、Privitar致力于搭建自研的多方安全计算平台;Duality基于密码学开发的SecurePlus平台在新冠疫情中支撑了医学机构进行病毒基因分析。此外,AI公司Zama、区块链公司Enigma等均在推进多方安全计算、同态加密等方向的技术研发。但从总体的应用场景来看,目前国外隐私计算项目中的很大一部分都是面向区块链和加密虚拟货币的场景。如美国的Unbound Tech和丹麦的Sepior均集中于将多方安全计算应用于分布式密钥管理领域。
国内
跟国外相比,我国企业开始布局隐私计算的时间要更晚,大致在2016年之后才开始出现独立的隐私计算商业项目,但国内产业化发展的速度较快。伴随着各行业企业对合规数据流通的需求日益强烈,越来越多的行业客户开始愿意进行尝试,整体行业从概念验证到全面实施趋势明显。根据调研,目前超过81%的隐私计算产品进入了试点部署或实施阶段。
1)从技术路线上看,多方安全计算的复杂度高、开发难度大,龙头企业多致力于此,力图打造以多方安全计算为底座的数据流通基础设施,26%的企业布局了这类技术方案
2)可信执行环境对于硬件的局限及国外芯片的强依赖,使得其在国内的产品选型相对较少,提供此类方案的企业占比约为21%,较集中于互联网大厂和部分初创企业,但目前已出现一些技术企业与芯片企业在国产化硬件研发上的合作探索;
3)对于联邦学习,由于机器学习类应用需求的突出,且有较成熟的开源社区为基础,开发难度相对轻松,因而,运营商、金融科技公司等自营业务需求方大多专注在基于联邦学习的隐私计算产品化中,提供联邦学习方案的企业数量占比约为52%。此外,由于各类技术方案各有优势,面对用户的不同应用需求,21%的企业提供多种技术方案供用户选择。——《隐私计算白皮书》

发展展望

可用性提升:
1、算法优化(算法加速,减低子模块耦合度,流程重新编排,减少节点通信次数实现通信加速,底层语言实现代码加速)。
2、硬件加速。

多元技术融合:
1、联邦学习与多方安全计算融合能够满足对等网络无可信第三方的联合建模应用需求。
2、联邦学习与差分隐私融合能够增强对梯度参数的保护程度,进一步防止中间梯度信息泄露。
3、联邦学习与可信执行环境融合能够提升隐私数据或模型的安全等级等。
4、隐私计算与区块链等其他领域技术的融合拓展应用边界。

应用落地:
1、完善的隐私计算相关标准有助于产品规范。
2、成熟的检测和验证手段有助于产品落地应用。

多方生态融合:
1、法规体系需加速完善。
2、应用体系需进一步加强。
3、开源协同加速隐私计算技术迭代,技术开源。

总结

回到本博客的标题,差分隐私与其他隐私计算的联系是什么?
1、差分隐私是隐私计算中技术的一种,与同态加密,数据脱敏,混淆电路等算法同级别。每种技术侧重点不同,前面也提到了,差分隐私更关注结果,对于隐私计算的过程没有保护。
2、安全多方计算,联邦学习都可以用差分隐私,它们相当于是隐私计算的一个子集,差分隐私是这个子集中的一个元素,或者说是子集的子集。
3、安全多方计算在我看来更像是一个协议,可被用于联邦学习中。联邦学习更像是一个隐私计算的框架,可用其他技术,包括TEE。在隐私计算体系结构中我感觉算法应用基本都是描述联邦学习的。

补充

差分隐私来自于密码学的安全语义:

即对于任意等长的消息m,只要这个m属于消息空间(就是说用这个加密算法可以加密m),那么用加密密钥k加密后,加密结果“看起来都一样”,没法看出来这是从m,还是从其他什么消息加密得来的。
差分隐私用随机化的方法实现了这个安全语义,更直白的说是用了加噪的方法。不管是随机响应还是拉普拉斯机制都对原始结果进行扰动,可以理解为密码学中的加密。只是差分隐私没有解密的方法,或者说是没有解密成明文的方法,但是可以通过概率估计的方法满足需求。

以上是关于什么是隐私计算,它是怎样保护我们的隐私安全?的主要内容,如果未能解决你的问题,请参考以下文章

多方安全计算:隐私保护集合求交技术

多方安全计算:隐私保护集合求交技术

企业数据安全的「取胜之匙」:区块链隐私保护计算

保护用户隐私 十大Android安全使用技巧

互联网数据泛滥下,你的隐私数据要如何保护?

如何防止手机隐私不被泄露,这3个功能早就该关了,放心安全