2.3.2 差分隐私的性质
差分隐私使用严格的数学定义对“隐私”的概念进行了量化,这使得差分隐私备受欢迎。同时,严格的数学定义也赋予了差分隐私一些性质,使其在实际业务场景中,即使面对需要多个差分隐私保护算法同时使用的复杂问题,也能让业务方准确地把握整体的隐私保护的程度。接下来,我们介绍差分隐私的几个性质[55]。
性质1.序列组合性
设算法D由n个差分隐私保护算法{D1,D2,…,Dn}组成,隐私预算分别为{ε1,ε2,…,εn},则在数据集X上,D(X)={D1(X),D2(X),…,Dn(X)}也满足差分隐私的要求,隐私预算为。
也就是说,在同一个数据集上,一系列算法的组合算法会降低隐私保护的程度,其隐私预算为全部预算之和。
性质2.并行组合性
设算法D由n个差分隐私保护算法{D1,D2,…,Dn}组成,隐私预算分别为{ε1,ε2,…,εn},则对于不相交的数据集,D(X1,X2,…,Xn)={D1(X1),D2(X2),…,Dn(Xn)}也满足差分隐私的要求,隐私预算为maxεi(i=1,2,…,n)。
也就是说,在不相交数据集上,一系列算法的组合算法的隐私保护程度取决于隐私保护最弱的算法,即其隐私预算为组合算法中的最大者。这与木桶效应类似,隐私保护最弱的算法相当于最短的木板。
性质3.变换不变性
设算法D1满足ε-差分隐私,那么对于任意算法D2来说,即使算法D2不满足差分隐私,二者的复合算法D(X)=D2(D1(X))也是满足ε-差分隐私的。
也就是说,差分隐私是对后处理的算法具有免疫效果的,无论对满足差分隐私的算法输出结果进行何种变换,都不会使其差分隐私的程度降低。
性质4.中凸性
设算法D1和D2均满足ε-差分隐私;算法D(X)以任意概率p输出D1(X),以概率1-p输出D2(X),那么算法D也满足ε-差分隐私。
也就是说,如果两个不同的算法均满足既定的差分隐私要求,那么对两种方法的任意选择进行输出,其结果也满足既定的差分隐私要求。当然,中凸性是指对不同的数据选择任意算法执行输出,如果将同一个数据集多次作为算法输入数据,那么必然会降低差分隐私保护的程度,这也是序列组合性的结论。
以上4个性质保证了差分隐私保护算法可以灵活地进行组合,从而应对各种复杂的业务场景,为差分隐私的落地应用提供了良好的理论支撑。