2.4 同态加密
差分隐私因其理论背景清晰和算法简单等优点,在隐私保护中备受欢迎。不过,差分隐私主要抵抗推理过程中的模型推理攻击,防止模型结果在某个用户的数据上出现过拟合的现象,从而避免该用户数据被恶意敌手进行分析,但在传输过程中使用的数据还是明文状态的数据,尽管增加了扰动,但数据还是对多方可见的。如果仅仅使用差分隐私对训练数据或者训练过程中的梯度进行处理后直接进行传输,那么极有可能对数据隐私造成影响,这有可能带来合规性风险。回顾2.3节的内容,这也是差分隐私仅仅在横向联邦学习中广泛使用的原因,因为横向联邦学习只传输模型训练的结果,从训练结果中窥探训练数据的模型推理攻击方式则可以通过差分隐私避免,而纵向联邦学习会传输每次迭代的梯度,通过在明文状态下的梯度可以计算出训练数据的某些准确值(如标签)。所以,差分隐私在某些场景(如纵向联邦学习)中的使用非常受限,如果想对数据隐私进行保护,那么需要使用密码学方法。
密码学作为一门古老的学科,已经有数百年的发展。在最早期,古典密码只是一种用于私密消息传输的简单手段。随着人们对隐私保护的需求增加,密码学逐渐发展成了一门系统的科学,并在金融和军事等多个方面影响着社会的发展和人类的生活。
1976年,Diffie提出了公钥密码学的概念,将密码学的研究和应用带入了一个新阶段[59]。公钥密码学为加密通信提供了众多的功能,比如数字签名技术、密钥交换技术以及与云计算场景契合的同态加密等。其中,同态加密在多方协同训练的机器学习中得到了广泛应用,尤其是半同态加密,已经在多种场景的实际应用中表现出了实用性。本节会主要介绍在联邦学习中使用的半同态加密。由于全同态加密的落地应用较少,本节只对其进行简单介绍。