联邦学习(Federated Learning)是一种满足隐私保护的分布式机器学习训练方案,它允许多个客户端(例如多个移动设备,多个数据供应商)能够在某个中央服务器的调度下协作训练模型,并从模型的联合训练中受益,同时保持训练数据的去中心化存储,尊重各方数据隐私。IBM Research 在联邦学习方面做出了广泛的努力,包括新颖的方法、模型和范式,并提供了一个可用于非商业的企业级联邦学习平台:IBM联邦学习社区版。此外,在2021年的ICML大会上,IBM Research发起了一个名为 Enterprise-Strength Federated Learning: New Algorithms, New Paradigms, and a Participant-Interactive Demonstration Session 的tutorial,该tutorial通过7场简短演讲概述联邦学习的前沿成果,涵盖以下五个话题:
人类具有从经验中不断复用拓展知识的能力,即我们不仅可以将先前学到的知识和技能应用到新的环境中,还可以将它们作为以后学习的基础。这种持续学习,泛化知识的能力是强人工智能的重要特征,而以深度学习为代表的人工智能则难以具备。人工智能的重要研究目标是构建具备持续学习能力的智能体,该智能体可以根据自身经验构建对世界的复杂理解,从而利用更复杂的知识进行自主的渐进式的训练与改进。实验证明,已训练好的 AI 模型在新数据上训练或在新环境部署时会受到很大影响(如灾难性遗忘),即使新数据与它们的训练环境十分相似。此外,深度学习模型的学习过程通常是局部或孤立任务中的固定数据集,这令模型难以产生更复杂和自主的智能行为。持续学习(Continual Learning),也称终身学习(Life-long learning)是解决此类问题的研究方向,它的目标是扩展模型适应能力,令模型能够在不同时刻学习不同任务的知识,同时不会遗忘先前任务的特征。在ICML2021上,加拿大蒙特利尔大学的Irina Rish研究员对深度学习中的持续学习(Continual Learning)做了一个Tutorial,我们对此进行解读。
在之前关于差分隐私的Tutorial中,我们简单介绍了欧盟隐私保护条例,即个人对数据具有知情权,拒绝权,修正与遗忘权,以及对于自动决策过程的选择权。差分隐私对于数据分析过程提出了严格的隐私保护定义,即对于数据库数据的任何分析,以及根据分析结果与其他信息进行的进一步的合并加工,都不会泄露个人隐私。通俗而言,就是对于任何数据分析员,要求分析员在对数据库进行分析后,对数据库中每一个个体的了解不会超过其在分析开始之前的了解。差分隐私的基本原理是控制单个数据对于整个分析结果的影响,对于简单的数据处理过程(如计算平均工资,统计性别比例),通过在数据分析结果中增加高斯噪声,可以令数据分析的机制满足差分隐私的约束。但是,对于需要多轮训练的复杂深度学习系统,构建差分隐私保护则更为困难。本文主要介绍基于高斯机制的差分隐私深度学习系统:通过在训练过程中施加高斯噪声,构建满足差分隐私要求的深度学习训练系统,并对所得深度模型计算隐私开销。此外,我们也将以Opacus这一基于pytorch的差分隐私训练库为例进行代码讲解。
我们在B站上对ICML的工作:KD3A——满足隐私保护的去中心化无监督域适应范式进行了分享,链接如下。此处我们提供PPT资源。
今天为大家介绍一篇已被ICML 2021接收的论文,论文作者来自浙江大学CAD&CG国家重点实验室,论文研究隐私保护政策下的无监督域适应问题,提出了一种高迁移精度,低通信成本,并具有负迁移鲁棒性的去中心化域适应范式。
数据是人工智能的燃料,优秀的深度学习模型需要依靠大量高质量数据集进行训练。然而,随着模型精度的不断提升,对于个人隐私的泄露现象也变得越发严重。此外,随着互联网企业的扩展,用户数据开始担任重要生产资料的角色,成为各大垄断企业的护城河。欧盟,作为反对互联网垄断的桥头堡,同时也作为隐私保护的急先锋,在2018年正式施行法案《通用数据保护条例》(General Data protection Regulation, GDPR)。GDPR主张个人对数据的四项权利,请求权,拒绝权,修正权和删除、遗忘权。请求权,即个人有权了解其个人数据是否被处理,哪些个人数据以怎样的方式被处理以及进行了哪些数据处理操作;拒绝权,即个人有令人信服的合法理由,可禁止进行某些数据处理操作,比如个人可拒绝以营销为目的的个人数据处理。遗忘权,即个人有权寻求删除其个人数据的影响,比如用个人的微博,抖音数据训练的推荐算法,能够把个人的影响给忘掉。此外,GDPR还对数据的传输有明确的要求,比如欧盟境内的数据不得在境外被使用。
Mixup [1]是ICLR2017年提出的针对计算机视觉的一项简单的数据增广策略。通过对输入数据进行简单的线性变换(即\(\tilde{X}=\lambda*X_0+(1-\lambda)*X_1\)),可以增加模型的泛化能力,并且能够提高模型对于对抗攻击(Adversarial Attack)的鲁棒性。笔者同时发现,采用Mixup 技术在各种半监督与类半监督任务上(如半监督学习,无监督域迁移等)都能极大提高模型的泛化能力,在某些任务上甚至达到了State-of-the-Art的结果。然而,对于Mixup为什么能够提高泛化能力,以及为什么能够有对对抗攻击的鲁棒性,现有研究仍然没有给出好的解释。在本篇Blog中,我将搜集现有对Mixup进行理论解释的文章,并对这些方法进行综述式叙述。此外,我也将对现有的Mixup策略进行综述。
在分布式的深度学习训练场景下,训练数据与测试数据可能来自不同的分布,同时训练数据来自多个数据源,数据源之间也存在分布偏移。由于深度学习模型本身具有对训练集的过拟合特性,对于不同分布数据的微调也会导致深度学习模型的”灾难性遗忘”,因此这种域偏移会严重影响模型的泛化能力。
在A Brief Introduction to Domain Adaptation一文中,我们讨论了Domain Adaptation
的数学基础和基本公式,即数据在目标域上的误差,可以由数据在源域上的经验误差,源域与目标域在特征空间上的经验距离估计,以及一个与数据量以及模型容量有关的参数来给定:
在所有机器学习与深度学习的模型落地中,域偏移(Domain Shift),即训练数据与真实数据来自于不同的分布,是一个很常见的问题,而这个问题在很多落地场景中都是很致命的。如在医学深度学习模型中,用A医院的数据(Source Domain)训练的模型往往在B医院(Target Domain)预测不准。在摄像头行人重识别(Re-ID)问题中,多个摄像头捕捉的场景分布完全不一致,导致单个行人在多个摄像头中的”重识别”变得较为困难。在联邦学习问题中,我们会单独获得多个数据源的数据,而只有部分数据有标签,这使得我们利用某些数据源的标签对其他数据进行建模的过程中也会出现偏移。有很多学者对这个问题做了不同的诠释,提供了不同的解决办法。有些流派将该问题解释为 “covariate shift”, 认为解决该方法需要对每一个样本进行赋权操作。还有的流派将解决该问题的办法称作迁移学习(Transfer Learning), 通过先后训练与特征微调来bridge the gap. 以上流派着眼于方法论,其思想与文章写作都偏向实用主义。我比较喜欢的流派是以域适应(Domain Adaptation)作为解决办法的流派,该流派的基础思想是,在保持源域任务精度的前提下,缩小模型所习得的表示空间上源域与目标域的特征距离。本文主要介绍该流派自洽的数学表达,同时介绍现在较为实用的算法,包括对抗域迁移学习,以及联邦对抗域迁移学习。