Hi!请登陆

在推荐系统中,我还有隐私吗?联邦学习:你可以有

2020-11-19 26 11/19


原标题:在推荐系统中,我还有隐私吗联邦学习:你可以有
机器之心分析师网络
作者:仵冀颖
编辑:H4O

在推荐系统无所不在的网络环境中,用户越来越强烈地意识到自己的数据是需要保密的。因此,能够实现隐私保护的推荐系统的研究与发展越来越重要。联邦学习框架的引入为这一问题提供了解决方案。

一、由推荐系统谈起
随着互联网覆盖范围的扩大,越来越多的用户习惯于在网上消费各种形式的内容,推荐系统应运而生。推荐系统在我们的日常生活中无处不在,它们非常有用,既可以节省时间,又可以帮助我们发现与我们的兴趣相关的东西。目前,推荐系统是消费领域最常见的机器学习算法之一[1]。以网络新闻为例,由于每天都有大量的新闻文章发布在网上,在线新闻服务的用户面临着严重的信息过载。不同的用户通常喜欢不同的新闻信息。因此,个性化新闻推荐技术被广泛应用于用户的个性化新闻展示和服务中。关于新闻的推荐算法/模型研究已经引起了学术界和产业界的广泛关注。
经典的推荐算法大致分为三类:内容过滤Coeileig、协同过滤Collaboaieileig,CF和混合过滤Hybidileig。
内容过滤:这类算法侧重于通过将用户、iem划分为特定的信息特征来绘制用户肖像,从而直接建立对用户兴趣的理解。初期的推荐系统中多采用的是内容过滤的方法。例如,我在某宝上浏览了几件黑色女式羽绒服,系统根据内容过滤算法直接提取黑色、羽绒服、女式等iem特征,在这个应用场景下,iem具体为物品。通过对物品进行多次关联性分析,发现我多次在某宝中的点击之间的关联性,从而生成推荐结果,将女式羽绒服推荐到我的某宝首页中。这种内容过滤的方法具有以下特点:一是,方法原理简单、易于实现,直接根据用户点击的数据进行分析,因此不存在稀疏性和冷启动的问题。二是,直接基于iem进行特征构建和推荐,推荐准确度过高,且不受其它用户热门推荐的影响。三是,所依赖的iem、特征等直接影响了推荐效果,必须保证特征准确且在具体的应用场景中是真实有效的。四是,推荐结果存在重复性问题。以新闻推荐类应用为例,你浏览了一篇关于2021年考研的权威发布新闻,系统可能再次向你推送的是同一条新闻。
协同过滤:这些算法在没有用户或iem的先验信息的情况下工作,并且只根据用户的交互数据建立对用户兴趣的理解。这种方法也是目前应用最广泛的推荐算法。协同过滤的基本考虑是物以类聚,人以群分。协同过滤主要有两类方法:基于用户(Ue-baed)的推荐和基于iem(Iem-baed)的推荐。协同过滤一般与评分系统结合使用,通过分数去刻画用户对于iem的喜好程度。协同过滤的方法具有以下特点:一是,无需建模,且领域无关,具有很好的普适性。二是,便于借鉴他人经验,能够使用其它评分结果辅助发现用户的潜在兴趣偏好。三是,基于历史数据进行评分和评估,因此对于系统中的新用户和新iem存在冷启动问题,且受历史数据的数据规模、稀疏程度等影响较大。四是,对用户的新爱好转变或特殊爱好的需求支持度较差,这些新爱好或特殊爱好一般也是缺少历史数据支持的情况。
混合过滤:这些算法是上述两种算法的结合。它通过利用上面两种方法中的技术优势来构建更好的推荐系统。
然而,在推荐系统无所不在的网络环境中,用户越来越强烈的意识到自己的数据是需要保密的。此外,从政府层面看,随着GDPR在欧洲的启动和美国类似法律的出台,越来越多的国家将效仿这一做法,进一步导致传统的推荐系统所依赖的训练数据越来越匮乏。在这样的背景下,能够实现隐私保护的推荐系统的研究与发展越来越重要。从另外一个角度分析,在推荐/搜索中引入隐私也有一定的好处。我们可以利用用户不共享的更好的元数据进行推荐系统的训练,例如手机上的应用程序信息、位置等。我们还可以在较新的领域中如医疗保健、金融服务更好地采用机器学习模型,用户不再需要犹豫是否将数据共享给其他人。
联邦学习将模型的学习过程分发给各个客户端即用户的设备,使得从特定于用户的本地模型中训练出全局模型成为可能,确保用户的私有数据永远不会离开客户端设备,从而实现了对用户隐私性的保护。将联邦学习框架引入到推荐系统问题中,能够实现隐私保护的推荐系统。
二、联邦协同过滤
来自华为FiladR&DCee的研究人员首次提出了联邦协同过滤方法FedeaedCollaboaieFile,FCF[2],该方法聚合用户特定的梯度更新模型权重来更新全局模型。具体地说,作者提出了一种联邦学习框架下的用于隐式反馈数据集的CF方法。同时,这种方法是可推广的,可以扩展到各种推荐系统应用场景中。FCF的完整框架如图1。在中央服务器上更新主模型Yiem因子矩阵,然后将其分发到各个客户端中。每个特定于用户的模型X用户因子矩阵保留在本地客户端中,并使用本地用户数据和来自中央服务器的Y在客户端上更新。在每个客户端上计算通过计算Y的梯度得到更新并将更新传输到中央服务器中,在那里将这些更新聚合以进一步更新全局模型Y。

图1.联邦学习模式下的协同过滤
2.1联邦用户因子更新
首先,经典CF模型是由低维潜在因子矩阵X和Y的线性组合表示的:

1
其中,其中_ui表示用户u和iemi之间的交互。_ui通常表示显式反馈,例如用户直接给出的评级结果_ui。_ui也可以表示隐式反馈,例如用户观看了视频,或者从网上商店购买了一件商品,或者任何类似的行为。本文主要考虑隐式反馈的情况,对于_ui的预测可以表示为:

2
在隐式反馈场景中引入一组二进制变量p_ui,以表征用户u对iemi的偏好,其中:

3
在隐式反馈情况下,值_ui=0可以有多种解释,例如用户u对iemi不感兴趣,或者用户u可能不知道iemi的存在等等。为了解决这种不确定性,本文引入一个置信参数如下:

4
其中,α>0。基于的本人引入置信参数c_ui,对所有的用户u和iemi进行优化的代价函数如下所示:

5
其中,λ为正则化参数。代价函数的第一项为预测结果与置信参数的偏差,第二项为正则化处理项。J相对于x_u和y_i的微分由下式得出:

6
则x_u的最优解为:

7
在用户因子的每次更新迭代中,中央服务器将最新的iem因子向量y_i发送到每个客户端。用户基于自己的本地数据_ui分别用公式3和公式4计算p(u)和C^u。然后,在每个客户端使用公式7更新x_u得到(x_u)*。可以针对每个用户u独立地更新,而不需要参考任何其他用户的数据。
2.2联邦iem因子更新
优化公式5中的代价函数,可以得到y_i的最优估计:

8

9
由公式9,为了得到(y_i)*,需要知道用户因子向量x_i和用户与iem交互的相关信息C^u、p(u)值。因此,iem因子y_i的更新不能在客户端上完成,必须在中央服务器中进行。然而,从用户隐私保护的角度出发,用户-iem交互信息应当仅保留在客户端设备中,因此,不能直接使用公式9计算y_i。为了解决这一问题,本文提出了一种随机梯度下降方法,允许在中央服务器中更新y_i,同时保护用户的隐私。具体的,使用下式在中央服务器更新y_i:

10
其中,使用公式8确定增益参数γ和∂J/∂(y_i)。然而,公式8包含一个分量,它是所有用户u的总和。因此,将(u,i)定义为:

11
其中(u,i)是在每个客户端u上独立于所有其他客户端计算的。然后,所有客户端向中央服务器发送梯度值(u,i)。将公式8重写为客户端梯度的聚合,并在中央服务器进行如下计算:

12
最后,利用公式12中的特定于iem的梯度进行更新,然后使用公式10在中央服务器上更新y_i。当使用梯度下降法更新Y时,需要多次迭代梯度下降更新以达到Y的最优值。因此,FCF的一次epoch包括更新到CF中的X,然后用几次梯度下降步骤来更新Y。
2.3隐私设计解决方案
本文的隐私保护联邦学习方案不需要在中央服务器上知道用户的身份。这主要是因为每个用户只需向中央服务器发送(u,i)的更新,利用公式12聚合这些更新,在此过程中无需参考用户的身份。
完成的FCF流程见如下算法1:

2.4实验结果
作者评估了CF和FCF的推荐性能,分别计算前10个推荐结果的标准评估指标headadealuaiomeic、精度Peciio,召回率Recall,F1,平均平均精度MAP和均方根误差RMSE。此外,还计算了FCF和CF的性能指标之间的di%如下:

表1给出了两个真实数据集和模拟数据集在10轮模型重建实验中用户平均的测试集性能指标。其中,真实数据集分别为TheMoieLeaigdaae和I-houePoducioDaae。模拟数据集是通过随机模拟用户、电影和浏览活动生成的。具体来说,创建一个由0和1组成的用户-iem交互矩阵。其中80%的数据是稀疏的,附加的约束条件是每个用户至少有8个浏览活动,并且每个iem至少被观察一次。在表1实验的模型构建过程中,每个用户的数据被随机分为60%的训练、20%的验证和20%的测试集。使用验证集和训练集来寻找最优的超参数和学习模型参数,测试集则是用来预测推荐和评估在未知用户数据上的性能分数。结果表明,FCF和CF模型的结果在测试集推荐性能指标方面非常相似。平均而言,五个指标中任何一个指标的di%CF和FCF小于0.5%。标准差d也很小,表明多次运行后能够收敛到稳定和可接受的解决方案中。

表1.使用所有用户的平均值比较协同过滤器CF和联邦协同过滤器FCF之间的测试集性能指标。这些值表示10个不同模型构建的平均标准差。di%指CF和FCF平均值之间的百分比差。
本文是使用联邦学习框架实现隐私保护推荐系统的第一次尝试,是基于CF的推荐系统实现的。在这篇文章中,作者表示将会继续探索基于模拟器的对真实世界场景的分析,以持续异步的方式在线学习从客户端收集更新。此外,对通信有效载荷和通信效率的分析有助于评估此类系统在实际场景中的应用效果。最后作者计划进一步通过结合安全联邦学习方法来研究攻击和威胁对推荐系统的影响。
三、解决联邦协同过滤中存在的问题-新闻推荐
由第二节中的介绍可知,FCF实现了联邦学习框架下的推荐系统,解决了推荐系统中的用户隐私保护问题,同时FCF与经典CF的推荐性能相差不大。但是,FCF也存在一些问题,FCF要求所有用户都参与到联邦学习的过程中来训练他们的向量,这在现实世界的推荐场景中是不实际的,一些用户受限于设备、网络性能等,无法进行模型训练。此外,FCF使用iem的ID来表示iem,这就要求预先对需要处理的iem进行编号,而没有进行编号的新iem就无法处理了。但是我们知道,在真正的推荐系统应用场景中,大量的新iem、新知识都是实时刷新推送的,这种强制预知的方式在实际问题中是不适用的。
在论文Piacy-PeeigNewRecommedaioModelLeaig[3]中,来自清华和微软研究院的研究人员针对新闻推荐问题对FCF进行了改进,具体提出了一种隐私保护方法Fed-NewRec,利用海量用户的行为数据,训练出准确的新闻推荐模型。此外,提出应用局部差分隐私来保护用户客户端设备和中央服务器之间通信的局部梯度中的私有信息。Fed-NewRec的完整结果见图2。在Fed-NewRec框架中,新闻平台网站或应用程序上的用户行为存储在用户的本地设备中,而不需要上传到服务器中。另外,提供新闻服务的服务器不记录也不收集用户的行为,这可以减轻用户的隐私顾虑和减少数据泄露的风险。

图2.隐私保护新闻推荐方法的框架
2.1新闻模型NewModel
在Fed-NewRec中,沿用经典新闻推荐模型中的新闻模型。新闻模型的目的是学习新闻表征,从而对新闻内容进行建模,其结构如图3。新闻模型从下到上一共四层。第一层是词嵌入,它将新闻标题中的词序转换成语义嵌入向量序列。第二层是一个CNN网络,它通过捕捉本地上下文来学习单词表示。第三层是一个多头自注意力网络,它可以通过模拟不同单词之间的长期关系来学习上下文单词的表示。第四层是注意力网络,它通过选择信息词,从多头自注意力网络的输出中构建新闻表征向量。

图3.新闻模型结构
2.2用户模型UeModel
用户模型用于学习用户表示以模拟他们的个人兴趣。其结构如图4所示。

图4.用户模型结构
具体的,用户模型从用户点击的新闻文章中学习用户表现,同时考虑用户的长期和短期兴趣。通过一个多头自注意力网络和一个注意力池网络相结合来学习用户所有的历史行为,以得到长期兴趣建模。用户模型将GRU网络应用于用户最近的行为,以得到短期用户兴趣建模。最后,将长期兴趣和短期兴趣结合成一个统一的用户注意力网络嵌入向量u。
2.3基于用户行为的模型训练
用户在新闻网站和App上的行为可以为新闻推荐模型的训练提供有用的监督信息。例如,如果一个用户u点击了一篇由模型预测的低得分排名的新闻文章,那么我们可以立即调整模型,从而为这个用户-新闻信息对提供更高的排名分数。本文提出了一种基于点击和非点击行为的新闻推荐模型。
对于用户u点击的每一条新闻,随机抽取一个曾经也显示过但用户并未点击的样本新闻H。假设该用户共有B_u次点击行为,则参数为Θ的新闻推荐模型的损失函数定义为:

13
其中L^i的定义为:

14
其中,(u,)表示用户u对新闻的排名得分,可以使用嵌入向量的点积来表示,例如(u,)=u^T。(_i)^c和(_i)^c分别表示用户点击和未点击的新闻文章。由于准确的新闻推荐模型能够有效地改善用户的新闻阅读体验,而单个用户的行为数据远远不足以训练出一个准确无偏的模型,因此在FedNew-Rec框架中,作者提出引入大量的用户设备来共同训练新闻推荐模型。参与模型训练的每个用户设备称为客户端。每个客户端都有一个由服务器维护的当前新闻推荐模型Θ的副本。假设用户u的客户端在新闻平台上积累了一组行为,用B_u表示,然后根据行为B_u和公式13中定义的损失函数计算模型的局部梯度g_u。虽然局部模型梯度g_u是由一组行为而不是单个行为来计算的,但是它仍然可能包含一些用户行为的隐私信息。因此,为了更好地保护隐私,作者将局部差分隐私LocalDieeialPiacy,LDP技术应用于局部模型梯度。将应用于g_u的随机算法表示为M,定义为:

15

16
其中,是拉普拉斯噪声,均值为0。
在Fed-NewRec框架中,使用一个中央服务器来维护新闻推荐模型,并通过来自大量用户的模型梯度对其进行更新。在每一轮更新中,中央服务器随机选择用户客户端的一小部分如10%,并将当前的新闻推荐模型发送给他们。然后,它从选定的用户客户端收集并聚合本地模型梯度,如下所示:

17
其中,U是本轮学习过程中选择的用户集,B_u是用于局部模型梯度计算的用户U的行为集。然后使用聚合梯度更新中央服务器中维护的全局新闻推荐模型:

18
然后将更新的全局模型分发到用户设备以更新其本地模型。重复这个过程,直到模型训练收敛。
2.4实验结果
本文实验是在一个来自挪威新闻网站的公共新闻推荐数据集Adea和另一个从微软新闻中收集得到的真实数据集MSN-New上进行的。假设不同用户的行为日志以分散的方式存储,以模拟隐私保护新闻推荐模型训练的实际应用。使用用户上周产生的行为数据进行测试,剩下的行为数据用于训练。另外,由于在实际应用中并不是所有的用户都能参与模型的训练,所以随机选取一半的用户进行训练,并对所有用户进行测试。
作者将Fed-NewRec与多个已有方法进行对比,具体包括:1因子分解机Facoizaiomachie,FM,经典的推荐方法;2深度融合模型Deepuiomodel,DFM,专门的新闻推荐模型;3EBNR,使用GRU进行用户建模;4DKN,利用具有知识意识的CNN网络进行新闻推荐;5DAN,使用CNN从新闻标题和实体中学习新闻表示,使用LSTM学习用户表示;6NAML,多视角关注学习新闻表征;7NPA,利用个性化注意力网络学习新闻和用户表征;8NRMS,通过多头自注意力网络学习新闻和用户的表征;9FCF,联邦协同过滤推荐方法,即我们第二章中介绍的方法;10Ce-NewRec,它与Fed-NewRec具有相同的新闻推荐模型,但是它是根据集中的用户行为数据进行训练的。

表2.不同方法的新闻推荐结果
实验结果见表2。
首先,通过比较Fed-NewRec和目前主流的新闻推荐方法,如NRMS、NPA和EBNR,验证了Fed-NewRec在个性化新闻推荐模型学习中的有效性。而且,与现有方法基于集中存储的用户行为数据训练的方式不同,Fed-NewRec中的用户行为数据分散存储在本地用户设备上,从不上传。因此,Fed-NewRec可以在训练出准确的新闻推荐模型的同时,更好地保护用户隐私。
其次,Fed-NewRec比现有的基于联邦学习的推荐方法FCF的性能更好。FCF在新闻推荐中的表现并不理想,这是因为FCF要求每个用户和每个iem都参与到训练过程中来学习它们的嵌入,且用户和iem为预先已知的。然而,在实际应用中,由于各种原因,并不是所有的用户都能参加训练。此外,网络新闻平台上的新闻文章很快就会过期,新的新闻文章不断涌现。因此,许多推荐新闻iem在训练阶段都是未知的,而FCF无法处理这些iem。Fed-NewRec从新闻内容中学习新闻表示,并使用神经网络模型从用户行为中学习用户表示。因此,Fed-NewRec能够处理新用户和新iem的问题,更适合新闻推荐场景。
最后,Fed-NewRec的性能比Ce-NewRec差,后者与Fed-NewRec有相同的新闻推荐模型,但训练的是集中的用户行为数据。集中存储的数据比分散的数据更有利于模型训练,因此Ce-NewRec优于Fed-NewRec是很好理解的。此外,在Fed-NewRec中,采用局部差分隐私技术和Laplace噪声来保护模型梯度中的隐私信息,这进一步导致了聚合梯度模型更新的准确性不高。
四、进一步解决联邦协同过滤中存在问题的普适方法
在第三节中,Fed-NewRec解决了FCF中的要求所有用户都参与到联邦学习的过程中来训练他们的向量的问题,但是它只适合于新闻推荐应用场景,无法应用到其它场景中,不具备普适性。本节中我们介绍一个通用的基于内容的联邦多视图推荐框架FL-MV-DSSMFedeaedLeaig-MuliView-DeepSucuedSemaicModel[4]。该框架通过利用来自不同APP的信息训练一个共享的用户子模型,从而具有更好的iem推荐性能。
首先,通过将一个通用的深度学习模型Deep-SucuedSemaicModel,DSSM转换为一个联邦学习环境,FL-MV-DSSM可以将用户和iem映射到共享的语义空间,以便进一步实现基于内容的推荐,FL-MV-DSSM能够处理现有FedRec的冷启动问题ColdSa。然后,本文设计了一种新的FL-MV-DSSM方法,从多个数据源学习联邦模型以获取更丰富的用户级特征,从而大大提高了FL-MV-DSSM的推荐性能。此外,FL-MV-DSSM提供了一种新的联邦多视图设置,例如可以使用来自不同手机APP的数据共同学习一个联邦模型。

图5.FL-MV-DSSM框架
4.1FL-MV-DSSM框架分析
DSSM最初是为web搜索而设计的,它通过多层神经网络从用户的查询词和候选文档中提取语义向量,然后利用余弦相似度来度量查询与文档在语义空间中的相关性。在本文通用联邦多视图推荐设置中,采用DSSM作为推荐方法的基本模型,如图5(a)所示。
假设每个FL客户端有N个用户级特性的视图每个App考虑对应一种视图,记为第i个视图的特征U_i,第i个视图App只能访问U_i对应的数据集。从推荐提供程序中下载iem数据集Iiemdaae。所有视图都可以访问共享数据集I。对于联邦学习推荐系统任务,假设老用户有一些可以生成行为数据y,而新用户没有任何行为数据。FL-MV-DSSM建立在传统的FedAg算法基础上,需要FL中央服务器提供初始模型,如图5(c)所示。
如下Algoihm1给出了FL-MV-DSSM的训练算法,假设在FL-MV-DSSM的训练阶段,所有的FL客户端都是具有基于iem数据集I生成行为数据y的老用户。在每个视图i中,根据第i个视图的私有用户数据U_i和本地共享iem数据I计算用户子模型ueub-model和iem子模型iemub-model的梯度。虽然FL-MV-DSSM是一种基于内容的联邦学习推荐系统任务,但与仅使用用户子模型的聚合梯度相比,iem子模型的聚合梯度具有更好的推荐性能。
因此,在FL-MV-DSSM中,iem子模型的梯度将以FL方式聚合,而用户梯度的聚合可通过Algoihm1中第9行的aggegae_ue_ubmodel标志配置,这可以生成FL-MV-DSSM的一个变体,即SEMI-FL-MV-DSSM。每轮FL训练结束后,根据FL中央服务器发布的新的全局梯度,以FedAg方式更新用户和iem子模型。用户和iem子模型的梯度都包含了需要保护的视图中特定的信息,因此FL-MV-DSSM提供了两个安全聚合原语:local_ecue_aggegae和emoe_ecue_aggegae,以保护本地和远程梯度聚合。

Algoihm2给出了FL-MV-DSSM的预测算法。对于每个iemx_Ij,无论是旧iem还是新iem,iem子模型都输出其结果y_Ij。同时,用y_Ij的多个用户视图进行局部相似度比较,以确定用户的安全性。根据相似度比较结果,FL-MV-DSSM将为用户输出op-Kiem,无论是旧iem还是新iem。

4.2安全问题分析
除了传统FL的安全要求外,FL-MV-DSSM还需要额外的安全保证。在联邦多视图设置中,虽然所有视图都协同训练一个模型,但是视图之间不应该有原始数据交互,因为每个数据集U_i中都包含了需要被保护的私有视图特定信息。此外,每个视图对iem子模型的贡献从共享的本地数据集I中学习也应受到保护,因为恶意视图可以通过监视其对共享局部iem子模型的更改,从梯度中推断出正常视图的原始数据。
在本文联邦多视图设置中,考虑以下威胁模型:

传统FL:违背FL协议的FL客户端和/或FL中央服务器本身就是潜在的恶意攻击者Adeaie,例如向诚实用户发送错误和/或任意选择的消息、中止、省略消息、彼此共享其对协议的全部视图,以及如果中央服务器是主动对手也与中央服务器共享其对协议的完整视图。
联邦多视图:某个视图可能是完全恶意的,这意味着作为一个APP它会做出各种不安全动作,例如,监视网络接口以观察正常视图的网络流量,对共享的本地iem子模型进行空更新以推断得到正常视图的更新,监视iem子模型的变化等等,从而推断出正常视图中的数据信息。

对此,本文作者进行了如下假设:
视图级别隔离View-LeelIolaio:每个视图的数据集U_i和模型W_Ui仅可访问第i个视图。隔离可以通过加密或可信执行环境Tuedexecuioeiome,TEE来实现。TEE是一种在多环境共存的条件下,建立策略以保护每个环境的代码和数据的方法。TEE在连接设备中提供一个安全区域,确保敏感数据在隔离、可信的环境中存储、处理和保护。
为了抵抗这些安全问题,FL-MV-DSSM采用了两种安全原语:local_ecue_aggegae和emoe_ecue_aggegae,用于Algoihm1和2中。local_ecue_aggegae和emoe_ecue_aggegae的目的都是在本地或远程安全聚合N个向量,并返回聚合结果,而不会将每个参与者的原始数据暴露给其他参与者本地FL-MV-DSSM框架或远程FL中央服务器。
4.3FL-MV-DSSM的变体
最后,作者还介绍了一些FL-MV-DSSM的方法变体。

FL-DSSM。基于前面介绍的FL-MV-DSSM算法,通过将视图数N设置为1,可以简单回归为FL-DSSM训练和预测算法。关于FL-DSSM的详细结构可见图5(b)。与图5(c)中的FL-MV-DSSM不同,图5(b)中FL-DSSM向中央服务器发送的仅为一个视图的{[ue],iem}gadie,而不再是多个视图对应的{[ue1],[ue2],[iem]}gadie。
SEMI-FL-MV-DSSM。通过将Algoihm1中的aggegae_ue_ub-model标志设置为ale,可以得到SEMI-FL-MV-DSSM。SEMI-FL-MV-DSSM只对iem子模型的梯度进行安全聚合,而不聚合用户子模型的梯度。关于SEMI-FL-MV-DSSM的详细结构可见图5(d)。与图5(c)中的FL-MV-DSSM不同,图5(d)中SEMI-FL-MV-DSSM向中央服务器发送的仅为{iem}gadie,而不再是{[ue1],[ue2],iem}gadie。

4.4实验结果
FL-MV-DSSM及其它方法在MoieLe数据集上的性能见表3。从结果可以看出,FL-MV-DSSM比FL-DSSM具有更好的性能,因为FL-MV-DSSM可以从多个视图如多个用户APP合并更多的用户特征,共同训练出更好的模型。一个有趣的结果是,作者发现SEMI-FL-MV-DSSM只聚合共享iem子模型而不聚合用户子模型,但其性能优于FCF和FED-MVMF,经过60轮FL训练后,其结果甚至优于经典的集中式DSSM的结果。作者认为,这是可以理解的,对于所有的联邦推荐系统算法,其性能数据都是通过联合评估来收集的,如果不将其它FL参与者的贡献聚合起来,那么用户子模型的性能将很快适应用户本地数据。

表3.FL-MV-DSSM在MoieLe数据集上的推荐性能及其变体方法、已有联邦推荐算法的性能对比
此外,本文作者为了评估FL-MV-DSSM的冷启动性能,构建了三个冷启动实验场景:冷启动用户CS-Ue、冷启动iemCS-Iem和冷启动用户iemCS-Ue-Iem。对于冷启动用户,在模型训练过程中完全排除了10%的用户及其交互数据,并用剩余90%的用户及其交互数据学习模型参数。对于冷启动iem,在模型训练期间,忽略10%iem的随机子集,剩下90%的iem学习模型参数。对于冷启动用户iem,从模型训练中排除10%的用户和iem的随机子集,并与其他用户、交互数据和iem一起学习模型参数。
表4给出了三次冷启动的实验结果。结果表明,FL-MV-DSSM在保持通用性的前提下,可以可靠地用于冷起动推荐系统。此外,FL-MV-DSSM对新用户具有良好的冷启动预测性能,这对于隐私保护的推荐服务具有重要的意义。然而,冷启动iem和用户iem的性能低于冷启动用户。作者认为,其原因可能是,在本文使用的实验数据集中,用户之间考虑年龄、性别、职业等的差异小于iem电影标题、流派等的差异,FL-MV-DSSM可以正确地了解这种差异并以更高的精度推荐。

表4.FL-MV-DSSM在MoieLe数据集上的冷启动推荐性能
本文提出了第一个通用的基于内容的联邦多视图框架FL-MV-DSSM,它可以同时解决冷启动问题和推荐质量问题。此外,本文还将传统的联邦设置扩展到了一个新的联邦多视图环境中,这可能会在推荐场景中启用新的FL模型,并带来新的安全挑战。针对这些安全挑战,本文还提出了一种新的解决方案来满足安全需求。
五、本文小结
我们在这个联邦学习推荐系统的专题中具体讨论了联邦学习框架系列中的推荐系统问题。我们从第一个基于协作过滤CF的联邦推荐系统谈起,具体分析了其在推荐问题中的有效性。从作者原文给出的实验结果可以看出,FCF具有与CF相当的推荐性能,也就是说联邦学习的架构并未对推荐模型本身造成太多的影响。
但是,FCF也存在一些问题,例如要求用户和iem信息都是已知的,要求每个用户和每个iem都参与到训练过程中来学习它们的嵌入等等。这些问题阻碍了FCF在实用场景中的推广。接下来,我们具体分析了在新闻学习中的联邦推荐系统Fed-NewRec,它能够很好地解决FCF的上述问题,利用海量用户的行为数据训练出准确的新闻推荐模型。
Fed-NewRec是专门为新闻推荐构建的方法,其中使用的新闻模型、用户模型都仅限于该领域。在第四节中,我们进一步分析了一个普适的基于内容的联邦多视图推荐框架FL-MV-DSSM。该方法可以将用户和iem映射到共享的语义空间,以便进一步实现基于内容的推荐。此外,该方法也是基于多视图进行模型训练的,能够进一步提升推荐系统的性能。
当然,除了我们上述介绍的文章,还有很多基于矩阵分解MaixFacoizaio、元学习Mea-Leaig的联邦推荐系统也都在不同的实验、应用场景中获得了较好的效果。联邦推荐系统具有很好的、巨大的应用前景,我们将会在联邦学习系列专题中继续关注和报道相关的研究进展。
机器之心联邦学习系列文章:
本文参考引用的文献
[1]hp://blog.opemied.og/edeaed-leaig-ecommedaio-pa1/
[2]MuhammadAmmad-ud-di,EleaIaikoa,SuleimaA.Kha,WeeOyomo,QiagFu,KuaEeikTa,adAdiaFlaaga.Fedeaedcollaboaieileigopiacy-peeigpeoalizedecommedaioyem.CoRR,ab/1901.09888,2019,hp://axi.og/pd/1901.09888.pd
[3]TaoQi,FagzhaoWu,ChuhaWu,YogegHuag,adXigXie.Fedec:Piacy-peeigewecommedaiowihedeaedleaig.aXipepiaXi:2003.09592,2020,hp://axi.og/pd/2003.09592.pd
[4]AFedeaedMuli-ViewDeepLeaigFamewokoPiacy-PeeigRecommedaio
hp://axi.og/pd/2008.10808.pd
分析师介绍:
仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。
关于机器之心全球分析师网络SycedGlobalAalyNewok
机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络。在过去的四年里,已有数百名来自全球各地的AI领域专业学生学者、工程专家、业务专家,利用自己的学业工作之余的闲暇时间,通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球AI社区共享自己的研究思路、工程经验及行业洞察等专业知识,并从中获得了自身的能力成长、经验积累及职业发展。
转载请联系本公众号获得授权

相关推荐