
6.1 引言
我们以一个具体的示例来说明纵向划分数据。现在有一家数字金融公司、一家电子商务公司和一家银行,分别持有同一个人的不同信息:数字金融公司持有网上消费、贷款和还款信息;电子商务公司持有网上购物信息;银行则持有客户信息,如平均月存款、账户的结余和账单。如果这个人想要从数字金融公司获得一笔贷款,该公司就可以协同利用存储在这三个机构的信息来评估这笔金融贷款的信用风险,流程如图6-1所示。

图6-1 纵向划分数据示意图。每个样本可以看作一个人。每个样本的不同特征维度表示每家机构所拥有的这个人的不同信息。虚线框表示多家机构拥有的同一客户的信息,并由此构建出纵向划分数据。因为我们的场景设定是数字金融公司,所以标签数量与数字金融公司样本数量相同。标签可以为二值的,即(+1,−1),对应二分类问题;也可以为连续值,对应回归问题。在实际应用中,二分类问题居多,所给的标签+1表示发放贷款,−1表示未发放贷款
然而,随着政府的政策和公司商业机密的要求,直接从其他参与方访问数据是不现实的。具体来说,为了回应用户对个人隐私数据日益增长的关切,欧盟发布了《通用数据保护条例》(General Data Protection Regulation,GDPR)。对于公司来说,一方面,用户的数据是一种有价值的资产,公司有责任来保护它。另一方面,真实的用户数据对于训练一个很好的商业学习模型(比如推荐系统)来说是很有用的。因此,在对纵向划分数据进行联邦学习的时候不泄露隐私是很重要的。
当前,研究者们在多个领域提出了众多纵向联邦学习算法,比如说线性回归,K-Means聚类、逻辑回归、随机森林、支持向量机、协同相关分析和关联规则挖掘。从优化的角度来看,Wan等人在2007年提出了针对纵向划分数据的隐私保护梯度下降算法。Zhang等人在2018年提出了针对高维线性分类的特征分布SVRG(Stochastic Variance Reducing Gradient)算法。
然而,现有的联邦学习算法都是基于“学习模型是隐式线性可分的”这个假设来训练的,即f(x)=·h(x),其中
是任一可微分函数,h(x)是一个具有
形式的线性可分函数,{g1,g2,···,gm}是一个特征划分。实际上,我们知道非线性模型常常会获得较线性模型更优的结果。因此,几乎我们提到的上述所有方法都受限于这个线性可分假设,从而具有有限的性能。核方法是非线性方法中的一个重要分支。核方法有如下不满足线性可分假设的形式:
,其中k(·,·)是一个核函数。据我们所知,yu等人在2006年提出的PP-SVMV(Privacy-preserving SVM Vertically)方法是唯一一个针对纵向划分数据的隐私保护非线性核方法。然而,PP-SVMV方法必须从不同的节点收集局部的核矩阵,然后将它们相加为一个全局核矩阵,这将导致高额的通信开销。因此,如何通过核方法对纵向划分数据进行高效、可扩展的训练,同时又不泄露隐私,仍具挑战性。
为了解决这个问题,我们提出一个全新的纵向划分联邦学习核方法VFKL以在纵向划分数据上进行训练。具体地讲,我们首先通过随机傅里叶特征(RFF)方法对核函数进行近似,然后通过特殊设计的双随机梯度联邦式地更新预测函数,同时在数据和模型端不泄露隐私。理论上,VFKL方法可以提供次线性收敛速度(接近(1/t)),并可在常用的半诚实假设中保证数据的安全性。