admin管理员组文章数量:1612097
{% note info %}
论文线上阅读
{% endnote %}
Questions
heuristic | fundamental |
---|---|
数据少,指的是样本少; 数据的质量低,我觉得并不是数据不可信,而是数据的特征空间小,包含的信息少,建模后并不能得到有效的结论。 早期有一种观点是直接在这种数据少且质量低的情况下训练模型,并致力于提高该模型的精确度。我觉得这不可行,至少使用机器学习的方法不能做到。机器学习研究的是统计问题,归根到底是数学方法,它并不关心数据特征的具体含义,而敏感于数据的分布。我们借助机器学习,最终得到的是期望/可能性,是关于概率的。因此自然是样本越多越好,精确度就越高了。 数据的持有者结成联盟共同训练模型,是另一种观点。我觉得联邦学习走在正确的路上。 |
1. 如何清洗数据? |
理想的方法是直接将所有参与方的数据聚集在一起,不顾虑法律、技术和成本的约束。 而即使这样,因为不同机构所持有的数据或多或少都是异构的,在聚集时就必须将数据对齐,这也意味着非交集数据的损失。 既然如此,为何不先完成对齐,再将数据聚合呢?并且加密需聚合的数据。这一方面,于最终训练效果而言,并没有太大影响;另一方面,又满足了公众对数据隐私的诉求。 |
2. 什么是数据中毒(data poisoning)? |
水平联邦学习增大了样本空间,能够提高模型的精确度; 垂直联邦学期拓宽了特征空间,使得分析结果能够涵盖更多领域,产生1+1>2的效果 |
|
联邦迁移学习到底是什么? | |
联邦学习中,参与者越多越好吗? |
Abstract
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
strengthening | n. 加强 | propose | vt. 提出,建议 |
beyond | prep. 晚于,迟于 | secure federated learning | 安全联邦学习 |
federated transfer learing | 联邦迁移学习 | mechanism | n. 机制,原理 |
compromise | vt. 泄漏,使陷入危险,妥协 | CCS | abbr. Council of Communication Societies 通信学会理事会 |
methodology | n. 方法论 | phrase | n. 短语 |
GDPR | General Data Protection Regulation 通用数据保护协议 |
{% endhideToggle %}
目前AI领域面临着两个重要的挑战:
- 在大部分行业中,数据以孤岛的形式存在
- 加强数据隐私和安全
安全联邦学习(secure federated learning)中包含的三个方面:
- 水平联邦学习(horizontal federated learning)
- 垂直联邦学习(vertical federated learning)
- 联邦迁移学习(federated transfer learning)
论文介绍了联邦学习框架中的一些定义、架构和应用,并全面调查了联邦学习方面已有的工作。此外,论文中还提出了如何在不同的组织之间基于联邦机制来构建数据网络,作为一个解决方案使得能在不泄漏用户隐私的情况下分享知识(knowledge)。
Introduction
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
Go | n. 围棋 | defeat | vt. 击败 |
cutting-edge | adj. 最新的,先进的 | medical care | 医疗护理 |
walks of life | 各行各业 | inevitable | adj. 不可避免的 |
availability | n. 可获得性 | permission | n. 许可 |
hard copy | 复印件 | grant | vt. 授予 |
commercial | adj. 商业的,营利的 | citation | n. 引用 |
fuse | vt. 融合 | if not impossible | 如果有可能的话 |
recommendation | n. 推荐 | complicated administrative procedure | 复杂的管理程序 |
integration | n. 集成 | resistance | n. 阻力,反抗 |
institution | n. 公共机构 | issue | n. 问题 |
cause great concern | 引起巨大的影响 | data breach | 数据外泄 |
protest | n. 抗议,反抗 | enforce | vt. 实施 |
protect | vt. 保护,防卫 | plain | adj. 简单的 |
stiff fine | 硬性罚款,严厉处罚 | violate | vt. 违反 |
bill | n. 法案 | act | n. 法令 |
enact | vt. 颁布 | Cyber Security Law | 网络安全法 |
General Principles of Civil Law | 民法通则 | tamper | vi. 做手脚,破坏 |
tamper with | 篡改 | conduct | vt. 实施,进行 |
obligation | n. 义务,责任 | pose | vt. 造成,形成 |
dilemma | n. 困境,进退两难 | data fragmentation | 数据碎片 |
to be more specific | 具体而言,准确来说 | be responsible for | 对…负责 |
promote | vt. 促进 | complaint | adj. 服从的,顺从的 |
{% endhideToggle %}
由于市场资金的注入和大数据的支持,AI自2016年便迎来了空前的繁荣。
在大部分领域,数据有限或者数据的质量低,这使得AI技术的实现超乎想象的困难。一种可能的方法就是将不同机构的数据运输到同一个地方融合在一起。但是由于行业竞争、隐私安全和复杂管理程序方面的原因,即使是同一公司内不同部门之间的数据集成也会遇到很大的阻力。
facebook 的隐私外泄引起了广泛的抗议,世界各国开始加强数据安全和隐私方面的法律法规。这也给如今在AI领域普遍使用的数据事务程序带来了新的挑战。
GDPR:
- 禁止自主的建模和决定
- 解释模型的决定
- 授予用户遗忘数据的能力,允许用户删除或者撤销其个人数据
- 在设计层上就考虑数据隐私
- 使用清晰简单的语言说明数据使用的用户许可授权
AI 领域中传统的数据处理(data processing)模型涉及了一些简单的数据事务(data transactions)模型,其中一方收集和传输数据到负责清洗并融合数据的另一方,最终一个第三方会得到集成好的数据并构建其他方也可以使用的模型。构建好的模型通常也是最终的产品,作为一项服务销售。传统的处理程序面对着来自新法规的挑战,而用户也可能因不清楚模型在未来的使用从而触犯法律。因此,我们处在这样一个困境中:数据处于一种孤岛的形式,而我们在很多情境中被禁止去收集、融合来自不同地点的数据用以AI处理。
为了促进联邦学习的发展,论文作者希望能将AI发展的焦点从提高模型的表现切换到探索符合数据隐私安全法的数据集成方法上,前者是当前大部分AI领域都在做的事情。
An Overview of Federated Learning
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
effort | n. 努力 | personalizable | adj. 个性化的 |
optimization | n. 最佳化 | massive | adj. 大量的 |
partition | vt. 分割,区分 | decentralized | adj. 分散管理的 |
preliminary | adj. 初步的,开始的 | foundation | n. 基金会 |
multiagent theory | 可替换主体理论 | data mining | 数据挖掘 |
workflow | n. 工作流程 | consolidate | vt. 联合,巩固 |
respective | adj. 各自的,分别的 | conventional | adj. 常见的,惯例的 |
guarantee | n. 保证 | identify | vt. 鉴别,识别 |
simulation | n. 模拟,仿真 | proof | n. 验证 |
complete | adj. 完全的,彻底的 | desirable | adj. 可取的,令人向往的 |
partial | adj. 局部的 | disclosure | adj. 披露 |
semi-honest | adj. 半诚实的 | verification | n. 核查,验证 |
reveal | vt. 显示,泄漏 | collude | vi. 勾结,串通 |
well-defined | adj. 定义明确的,界限清楚的 | desire | vt. 要求 |
line of work | 行业 | anonymity | n. 匿名性,匿名者 |
diversification | n. 多样化,分化 | obscure | vt. 使…模糊不清,隐藏 |
restore | vt. 恢复,重建 | approach to | 约等于,通往…的方法 |
transmit | vt. 传输,传播 | homomorphic encryption | 同态加密 |
adopt | vt. 采用,采纳 | additively | adv. 附加地,叠加地 |
polynomial approximation | 多项式逼近 | intermediate | adj. 中间的,过渡的 |
constrain | vt. 驱使 n. 约束 |
scale | n. 规模 |
poisoning | n. 中毒 | loophole | n. 漏洞 |
variant | n. 变体,转变 | constant fraction | 恒比 |
blockchain | n. 区块链 | facilitate | vt. 促进,帮助 |
leverage | vt. 利用 | scalability | n. 可拓展性 |
robustness | n. 健壮性 | categorize | vt. 分类 |
identical | adj. 完全相同的 | regional | adj. 地区的,局部的 |
scheme | n. 计划,方案,模式 | intersection | n. 交集 |
address | vt. 设法解决 | straggler | n. 掉队者 |
partition | vt. 分割,区分 | compression | n. 压缩 |
bandwidth | n. 带宽 | preserving | n. 保护,保存 |
regression | n. 回归 | linear | adj. 线性的 |
entity | n. 实体 | applicable | adj. 可应用的,合适的 |
commerce | n. 贸易,商务 | revenue | n. 收益 |
expenditure | n. 支出,花费 | retain | vt. 保持,记住 |
corrupted | adj. 毁坏的 | geographical | adj. 地理的 |
restriction | n. 限制 | portion | n. 部分 |
exceeding | vt. 超越 | decrypt | vt. 解码 |
converge | vi. 聚集,收敛 | subject | adj. 容易遭受…的 |
Generative Adervasarial Network | GAN 生成对抗性网络 | entity | n. 实体 |
alignment | n. 对齐 | lossless | adj. 无损的 |
gather | vt. 收集 | scale | vi. 改变大小 |
parallel | adj. 平行的 | randomness | n. 随机性 |
secrecy | n. 机密性 | inability | n. 无能力 |
terminate | vt. 使结束 | oblivious | adj. 遗忘的 |
overall | adj. 全部的 | commercialize | vt. 商业化 |
incentive | n. 激励,动机 | manifest | vt. 表明,证明 |
permanent | adj. 永久的,永恒的 | better off | 达到某数量的,富裕的,渐入佳境 |
consensus | n. 一致 |
{% endhideToggle %}
联邦学习中最优化问题的几个重要因素:
- 在大量分布地间进行交流的成本
- 数据分布的不平衡
- 设备的可靠性
Definition of Federated Learning
假定有 N N N 个数据拥有者 { F 1 , ⋯ , F N } \{ \mathcal{F}_1,\cdots,\mathcal{F}_N \} { F1,⋯,FN} 希望通过联合他们各自的数据 { D 1 , ⋯ , D N } \{ \mathcal{D}_1,\cdots,\mathcal{D}_N \} { D1,⋯,DN} 来训练一个机器学习的模型。一种常见的方法就是把数据放在一起,即有 D = D 1 ∪ ⋯ D N \mathcal{D}=\mathcal{D}_1\cup\cdots\mathcal{D}_N D=D1
版权声明:本文标题:联合机器学习中的概念及应用 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1728631311a1167117.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论