离散去噪扩散模型(DDMs) — 数据隐私探析(深度学习)

介绍

离散去噪扩散模型(Discrete Denoising Diffusion Models, DDMs)是一种用于生成合成数据深度学习模型,近年来因其在隐私保护方面的潜力而受到关注。随着对数据隐私的日益重视,研究人员开始探索这些模型在生成合成数据时的隐私保护能力。在生成合成数据的过程中,传统的隐私保护方法往往无法有效应对数据泄露的风险。离散去噪扩散模型通过逐步引入噪声并在后续步骤中去噪,生成与原始数据分布相似的合成数据。尽管已有实证研究评估了这些模型的性能,但对其隐私保护能力的数学表征仍存在较大缺口。

离散去噪扩散模型在隐私保护方面的研究为合成数据生成提供了新的视角。通过理论分析和实证验证,研究者们不仅揭示了这些模型的隐私泄露机制,还为未来的隐私保护技术提供了理论基础。这一研究方向将有助于在数据生成和使用中更好地平衡隐私保护与数据实用性之间的关系。

模型

“On the Inherent Privacy Properties of Discrete Denoising Diffusion Models”,这篇论文主要介绍了,隐私问题导致合成数据集创建的激增,而扩散模型则成为一种很有前途的技术手段。尽管先前的研究已经对这些模型进行了实际的评估,但在提供其隐私保护能力的数学表征方面仍存在差距。为了解决这个问题,作者提出了用于离散数据集生成的离散去噪扩散模型(DDMs)固有的隐私属性的开创性理论探索。作者的框架专注于每个实例的差异隐私(pDP),阐明了给定训练数据集中每个数据点的潜在隐私泄露,并深入了解了每个点的隐私损失如何与数据集的分布相关联。结果表明,使用s-sized的数据点进行训练会导致(DDMs)从纯噪声阶段过渡到合成清洗数据阶段时从的隐私泄漏激增,而扩散系数的更快衰减会增强隐私保证。最后,作者在合成数据集和真实数据集上进行了理论验证。

具有分类属性的离散表格或图形数据集在许多隐私敏感领域中很普遍,包括金融、电商和医学。例如,医学研究人员经常以离散表格形式收集患者数据,例如种族、性别和就医状况。然而,在这些领域使用和共享数据存在泄露个人信息的风险。为了解决这类问题,有人提出生成具有隐私保护的合成数据集,作为保护敏感信息和降低隐私泄露风险的一种方式。

在论文中,作者分析了固定训练数据集的DDM隐私保护。利用了数据相关的隐私框架,称为每个实例差异隐私(pDP),该框架是根据固定训练数据集中的实例定义的。pDP的分析允许对训练集中每个数据点的潜在隐私泄露进行细粒度的表征。这让数据管理员能够更好地了解训练数据的敏感性。作者的分析考虑了一个在s个样本上训练的DDM并生成m个样本,跟踪每个生成步骤中的隐私泄漏。实验证明,随着数据生成步骤从t = T(噪声状态)过渡到t = 0(无噪声状态),隐私泄漏从增加到,其中数据相关项隐藏在符号中。因此,最后几个生成步骤主导了DDM中的主要隐私泄漏。此外,分析表明,当m = 1时,隐私边界很紧,并强调了DDM固有的弱隐私保护。此外,扩散系数衰减越快,隐私保护效果越好。对于数据部分,作者开发了一种算法,根据pDP边界估计真实数据集中每个数据点的隐私泄漏。通过从数据集中删除最敏感的数据点(根据数据相关隐私参数)来训练DDM,然后评估基于DDM生成的合成数据集训练的ML模型,从而评估数据部分。有趣的是,作者观察到,在删除部分数据后获得的ML模型甚至超过没有删除此类数据的其他模型。作者将其归因于这样一个事实,即删除的数据点可能是异常值,这可能实际上不利于ML模型学习。

为了避免混淆,作者提供了几个重要的解释。最坏情况并与数据集无关的DPWang,2019)相比,针对训练集量身定制的pDP为数据管理员提供了对每个数据点潜在隐私泄漏的更准确、更细粒度的估计。然而,重要的是要理解pDP。直接为数据添加噪声是不允许的,因为添加的噪声可能会因其数据依赖性而泄露隐私信息。可以使用其他方法,例如平滑灵敏度Nissim等人,2007)和提议测试发布Dwork & Lei,2009)。作者的分析旨在深入了解 DDM所提供的固有隐私,并指导数据管理员评估与数据集不同部分的隐私泄露风险。这里并非以开发一种匹配特定隐私评估的算法为目标。鉴于此目的,pDP是比DP更合适。在实践中,pDP评估应该保密,并由数据管理员了解数据集并使用 DDM生成合成数据集时的潜在隐私泄露。

首先介绍一下用于分析的符号和概念。假设表示为一个n维的离散空间,每个维度有个类别,即,其中,假设训练数据集位于中,意味着样本是个元素的矢量值数据,每个元素属于个类别之一。假设每个列的类别一致,但分析可以使用最大类别计数来解释具有不同类别计数的数据集。

基于实例的差分隐私DP量化隐私泄露的事实标准。作者针对特定的相邻数据集调整了DP定义,引入了基于实例的DP:让作为一个训练数据集,为不动点并且为随机机制。定义相邻数据集。如果对于所有测试集,则称满足关于

需要强调的是,pDP是针对特定数据集-数据点对唯一的定义。

离散扩散模型(DDMs):是可以生成分类数据的扩散模型。让表示时间时的数据随机变量。前向处理过程涉及使用噪声马尔可夫链逐渐破坏数据,记录,其中。另一方面,反向处理过程,,从先前的数据集开始重建新的数据集。去噪神经网络通过优化ELBO学习,其中包括了三个损失项:重建项()、前项()和去噪项(),如下等式表示为:

具体来说,前向处理过程由一批转换核来描述,其中任何元素表示在时间时,第个元素从类别跳转到类别概率。对于每个实体,类别数目是相同的,我们可以在所有的维度上使用相同的转换核并且用替代,让表示从时间1到时间累积转换矩阵,我们用一个均匀先验分布。双随机矩阵由一批扩散系数()的参数所决定,这些参数控制从原始分布到均匀测度的转化率。具体而言,定义𝟙𝟙,然后𝟙𝟙,其中。在反向处理过程中,利用去噪网络预测,期望逼近,在实践中,去噪网络不是直接预测,而是通过噪声网络学习预测以噪声作为输入在时间0时的干净数据,为了训练去噪网络,需要从噪声点处采样并且将他们输入到去噪网络,得到,具体来说,我们采用:

这个损失作为我们后边充分训练的一个基础,在训练的过程中,我需要桥接的连接。实际取决于维度无关方面的条件。

其他符号,给定两个样本,让表示不同实体的计数。并且,定义并且具有固定值匀速的数据点集。我们用作为KL散度和总变化。让表示分别在时间对于相同和不同状态下的一步转换概率是累积的转换概率。转换概率比定义为,表示在扩散过程中,比率越大保持相同特征类别的可能性越高,定义

主要结果

DDMs的固有隐私保护

首先,定义下面的分析机制。让表示为机制,作为一个输入数据集,它使用DDM的生成过程在时间时输出个样本。具体来说,在论文中表示DDM最终生成的数据集。下面是一些假设的概述:

  • 假设一:给定数据集,让表示时间0处的预测随机变量,让表示在数据集上训练的去噪神经网络(NNs)。如果存在小的常量使得,则假设一是成立的。
  • 假设二(前向和反向扩散路径之间的间隙): 给定数据集,让表示前向和反向处理过程在时间处的中间分布采样的随机变量。如果存在的正常数,则假设二成立。

假设一指出,当使用第一个公式中的损失函数训练去噪网络时,它可以有效地从中间噪声数据分布中推断出干净的数据。给定一个好的模型,估计会很小。假设二的扩散和生成路径很接近,这是一个合理的假设。然而,不能使用第三个公式直接推导隐私界限,因为变化中的接近性并没有隐含DP。基于上述假设,作者研究了隐私泄露沿产生过程的流动情况。作者的分析主要围绕在特定训练下的固有隐私保护由DDM生成的样本,表示为

  • 定理一(DDMs固有的pDP保护):给定数据集,大小为和要保护的数据点,表示,正如。假设在上训练的去噪网络满足于假设一和假设二。给定一个具体的时间步,机制相对于,给定满足

其中是由决定的数据相关量(通常用于统计学和数据分析中,指的是依赖于特定数据集的量度统计指标)。定义相似性度量。则如下:

并且满足,则是最小的。其中表示内部和外部之间点数的比例。

定理一量化了训练集中特定点的隐私泄露。隐私界限包括一个主要隐私项,它代表DDMs固有的pDP保护,突出了界限的数据依赖性,以及一个去噪网络训练和路径差异的误差项。这些数据相关量很复杂,无法对数据集-数据点对进行严格的测量。接下来,将进一步解释这些量。首先,由于生成过程形成马尔可夫链,其中转移概率是从训练中学习的,因此每个生成步骤都会从训练数据集中泄露一些信息。可以证明,大多数情况泄漏如下:

其中表示扩散模型在数据集训练时,生成过程在时间处产生数据的随机变量。,其中,它表征了通过学习扩散模型表征的两个条件分布之间的对称距离。本质上,这三个数据相关量约束了第十个公式。

  • 的数量:如下图所示,量化了,其中最大值在被移除的点。通过仔细检查发现依赖于。根据的定义,让的剩余点进行对齐。
  • 的变化:在生成阶段,减少到增长到。随着数据生成过程从噪声演变成无噪声状态,潜在的隐私泄露风险会升级。

  • :很明显,生成的中间度量偏离了最敏感点()的狄拉克测度。因此,以为特征的实际隐私泄露对度量值取均值远小于其最大值。为了提供此类的严格表征,引入两个量来定义以脆弱点为中心的局部区域。其中,隐私泄露可以被限制在之和的范围内。
DDM系数和数据集分布对隐私界限的影响
  • 扩散系数的影响:隐私项在很大程度上受之间邻近性的影响。随着时间的推移,这种相似性由转换比率决定,扩散系数趋于零的速度越快,该比率就越高,从而提高了隐私保护。
  • 数据集分布的影响:作者发现对隐私边界有很大影响。受附加点中其余点的相似性影响,如果变小(大),相应项变大(小),这表明的保护较弱。特别低的点可能是数据中的敏感点。
在简单分布下表征数据依赖量

作者考虑从某些特定分布中抽样的训练数据集,进一步说明数据相关的量化。考虑一个分布,其中每一列以概率独立取值,而任何其他个类别以概率在所有列上取非多数类别()(称为非多数点,因此往往具有更高的隐私泄露),并且中的其余点是从分布中采样的。我们有以下特征:

具有足够大的(),则有更高的概率,,其中,在噪声区域,。对于偏度较大的分布,即较大,较小,较大。下图与上述结论完全吻合。对于足够大的(),满足公式的充分条件。

在无噪声状态下,而在有噪声状态下。从无噪声状态到有噪声状态,增加,此外,随着分布的偏度的增加,R.H.S单调增加,导致的值更大。下图(中间)与上述结论相符。

在给定数据集上评估以下公式中隐私界限的算法

在实际情况下,当数据策展人发布合成数据时,评估在特定数据集上训练隐私保护措施至关重要。确保合成数据隐私和训练数据敏感信息的私密性。为此,我们引入了算法1(与算法2配对),以计算隐私界限,从而能够针对给定特定训练集的DDM生成的数据集计算每个实例的隐私泄漏。


结论

作者分析了DDM生成的合成数据集的数据相关隐私约束,结果显示DDM的隐私保护能力较弱。为了满足实际需求,可能需要结合其他隐私保护技术,例如DP-SGDAbadi等人,2016年)和PATEPapernot等人,2016年)。作者对合成数据集和真实数据集的观察结果非常吻合。