2.3.2 差分隐私的性质

差分隐私使用严格的数学定义对“隐私”的概念进行了量化,这使得差分隐私备受欢迎。同时,严格的数学定义也赋予了差分隐私一些性质,使其在实际业务场景中,即使面对需要多个差分隐私保护算法同时使用的复杂问题,也能让业务方准确地把握整体的隐私保护的程度。接下来,我们介绍差分隐私的几个性质[55]

性质1.序列组合性

设算法Dn个差分隐私保护算法{D1D2,…,Dn}组成,隐私预算分别为{ε1ε2,…,εn},则在数据集X上,DX)={D1X),D2X),…,DnX)}也满足差分隐私的要求,隐私预算为

也就是说,在同一个数据集上,一系列算法的组合算法会降低隐私保护的程度,其隐私预算为全部预算之和。

性质2.并行组合性

设算法Dn个差分隐私保护算法{D1D2,…,Dn}组成,隐私预算分别为{ε1ε2,…,εn},则对于不相交的数据集,DX1X2,…,Xn)={D1X1),D2X2),…,DnXn)}也满足差分隐私的要求,隐私预算为maxεii=1,2,…,n)。

也就是说,在不相交数据集上,一系列算法的组合算法的隐私保护程度取决于隐私保护最弱的算法,即其隐私预算为组合算法中的最大者。这与木桶效应类似,隐私保护最弱的算法相当于最短的木板。

性质3.变换不变性

设算法D1满足ε-差分隐私,那么对于任意算法D2来说,即使算法D2不满足差分隐私,二者的复合算法DX)=D2D1X))也是满足ε-差分隐私的。

也就是说,差分隐私是对后处理的算法具有免疫效果的,无论对满足差分隐私的算法输出结果进行何种变换,都不会使其差分隐私的程度降低。

性质4.中凸性

设算法D1D2均满足ε-差分隐私;算法DX)以任意概率p输出D1X),以概率1-p输出D2X),那么算法D也满足ε-差分隐私。

也就是说,如果两个不同的算法均满足既定的差分隐私要求,那么对两种方法的任意选择进行输出,其结果也满足既定的差分隐私要求。当然,中凸性是指对不同的数据选择任意算法执行输出,如果将同一个数据集多次作为算法输入数据,那么必然会降低差分隐私保护的程度,这也是序列组合性的结论。

以上4个性质保证了差分隐私保护算法可以灵活地进行组合,从而应对各种复杂的业务场景,为差分隐私的落地应用提供了良好的理论支撑。