【论文阅读】（DoppelGANger那篇）Using GANs for Sharing Networked Time Series Data...

编程入门行业动态更新时间:2024-10-26 12:25:12

【论文阅读】（DoppelGANger<a href=https://www.elefans.com/category/jswz/34/126474.html style= 那篇）Using GANs for Sharing Networked Time Series Data..."/>

【论文阅读】（DoppelGANger那篇）Using GANs for Sharing Networked Time Series Data...

CCF B

Lin Z , Jain A , Wang C , et al. Using GANs for Sharing Networked Time Series Data: Challenges, Initial Promise, and Open Questions[C]// IMC '20: ACM Internet Measurement Conference. ACM, 2020.

使用GANs共享网络时间序列数据：挑战、初始承诺和开放式问题

作者讲解视频 =zC3_kM9Qwo0&list=LL&index=2&t=1451s

文章目录

- 代码
- 概述
- 本文贡献
- 使用GAN进行时间序列生成
- 方法
- - 捕获long-term effects
  - 处理模式崩溃
  - 捕获元数据与生成值关系
- 评估
- - 数据集
  - Baselines
  - 指标与评估方法

代码

fjxmlzn/DoppelGANger IMC 2020 (Best Paper Finalist)

ratschlab/RGAN：用于生成实值时间序列数据的递归（条件）生成对抗网络

概述

共享数据稀缺阻塞研究进展

现有GAN此类工作的保真度（长期依赖、复杂的多维关系、模式崩溃）和隐私保护方面做得不够好。GAN可能会“记忆”原始训练数据，泄露信息。

本文设计了一个名为DoppelGANger(DG)的定制工作流程，同时实验证明证明在不同的真实世界数据集（如带宽测量、集群请求、网络会话）和用例（如结构特征、预测建模、算法比较）中，DG实现了比基线模型高43%的保真度。

虽然没有解决隐私问题，但是确定了经典的隐私概念和最近改善GANs隐私属性的进展所面临的基本挑战，并提出了解决这些挑战的潜在路线图。

本文贡献

主要贡献是设计了一个名为DoppelGANger（DG）的实用工作流程

首先，元数据的生成与时间序列解耦，并在每个时间步骤将元数据反馈给时间序列生成器，还为元数据生成引入了一个辅助判别器。以模拟测量结果与其元数据（如ISP名称或位置）之间的相关性

第二，为了解决模式崩溃问题，我们的GAN架构分别生成随机的最大和最小限制以及归一化的时间序列，然后可以将其重新缩放到现实范围。

第三，为了捕捉时间上的相关性，DG输出成批的样本，而不是单子。

次要贡献是探索GANs的隐私权衡

我们从经验上证实，对隐私的一类重要的成员推理攻击可以通过在更大的数据集上训练DG来缓解

我们强调DG工作流程的解耦生成架构可以使数据持有者隐藏某些感兴趣的属性（例如，一些特定的元数据可能是专有的）。

使用GAN进行时间序列生成

与本文最相关的两篇论文是RCGAN[35]和TimeGAN[117]。

RCGAN是与我们最相似的设计；与DG一样，它使用递归神经网络（RNN）来生成时间序列，并能以元数据为条件进行生成。然而，RCGAN本身并不生成元数据，而且几乎没有对跨时间序列和元数据与测量之间的相关性的评估。我们发现它在我们的数据集上的保真度很差；

相反，我们使用了一个不同的判别器架构、损失函数和测量生成PipeLine（第4节）。

TimeGAN是目前最先进的，超过了RCGAN[117]。

与RCGAN一样，它使用RNNs作为生成器和鉴别器。与RCGAN不同的是，它训练了一个额外的神经网络，将时间序列映射到矢量嵌入，并且生成器输出嵌入序列而不是样本。

学习生成转换或嵌入的时间序列是很常见的，无论是依靠GANs的方法[76, 117]，还是依靠不同类别的生成模型，称为变分自动编码器（VAE）[17]。我们的实验表明，这种方法对长时间序列的建模效果很差（§5）。

方法

捕获long-term effects

当长度超过几百个时代时，RNN生成器仍然难以捕获时间相关性。

先前的工作以三种方式应对这一问题。

第一种是只生成短序列[82, 117, 118]；长数据集在几十个样本的块上进行评估[116, 117]。

第二种方法是在小数据集上进行训练，初级设计可能能够有效地记忆长期效应（例如，未发表的工作[28]从大约100个时间序列的数据集中生成长度为1,000的时间序列）。这种方法导致了记忆[7]，这违背了训练模型的目的。

第三种方法是在生成阶段假设一个辅助的原始数据时间序列作为额外的输入，以帮助生成长时间序列[119]。这又违背了合成数据生成的目的。

本文的方法。

为了减少RNN的传递次数，我们建议使用一个简单而有效的想法，即批量生成。在RNN的每一次传递中，它不是生成一条记录（例如，一天的页面浏览量），而是生成S条记录（例如，连续S天的页面浏览量）

我们发现S=5对许多数据集来说效果很好

对于时间戳

如果原始时间戳不重要，我们可以假设它们是等距的

如果时间属性很关键，我们可以把样本的开始时间作为一个额外的元数据（即），生成间隔时间。

处理模式崩溃

假设我们训练包含三种不同的信号，对应于不同类别的用户。模式崩溃的GAN可能只学习生成其中一种流量类型。

本文使用了自定义归一化方法来处理模式崩溃。

对每个样本单独进行归一化，而不是对整个数据集进行归一化

将每个时间序列的最大值和最小值作为一个需要**学习（和生成）**的随机变量。

捕获元数据与生成值关系

元数据可以影响生成的测量值。

如何建立二者之间的强关联性？

已有工作：

CGAN - 它学习产生以用户提供的输入标签为条件的数据

TimeGAN - 声称可以共同生成元数据和测量值，但是它并没有在论文中包含元数据的任何数据集上进行评估，发布的代码也没有处理元数据

本文将任务解耦

生成元数据Ai
生成以元数据为条件的测量值P(Ai，Ri)=P(Ai)·P(Ri|Ai)

使用标准的MLP生成元数据，因为MLP擅长建模非时间序列数据

使用下图的体系结构

生成的元数据Ai在每一步都被添加为RNN的输入

我们首先把最大/最小元数据的生成分为三个步骤。

(1）使用MLP生成器生成 "真实 "元数据（第4.3节）；

（2）以生成的元数据为输入，使用另一个MLP生成两个 “虚假”（最大/最小）元数据；

（3）以生成的真实和虚假元数据为输入，使用第4.1节的架构生成测量结果（见图7）。

当测量的平均长度较长时(例如，在WWT数据集中，每个样本由550个连续的每日页面视图组成)，生成的数据——特别是元数据的保真度很差。

因为当样本的总维数（测量+元数据）较大时，判别器很难判断样本的保真度。

于是我们引入了一个只对元数据进行判别的辅助判别器，

m i n G m a x D 1 , D 2 L 1 ( G , D 1 ) + α L 2 ( G , D 2 ) min_G max_{D1,D2} L_1(G,D_1)+αL_2(G,D_2) minGmaxD1,D2L1(G,D1)+αL2(G,D2)

其中 L i L_i Li, i∈{1, 2}分别是原始和辅助判别器的Wasserstein Loss

添加辅助判别器后，生成的分布的保真度明显提高，尤其是在真实分布的结束部分。

评估

数据集

Wikipedia Web Traffic (WWT)

Measuring Broadband America (MBA)

Google Cluster Usage Traces (GCUT)

Baselines

Hidden Markov models (HMM)

Nonlinear auto-regressive (AR)

Recurrent neural networks (RNN)

Naive GAN

TimeGAN

RCGAN

Market Simulator：我们还与设计用于生成合成金融市场数据的基于VAE的方法[17]进行了比较，因为它的代码是公开可用的。

指标与评估方法

评估GAN保真度是困难的[72,114]；

最被广泛接受的指标是为图像数据[55,92]设计的，不能应用于我们的数据集。

数字指标并不总是能够反映生成模型的定性问题。

我们的微观基准评估生成的数据的统计量与真实数据的匹配程度。例如，统计数据可以是属性分布或自相关，而相似性可以通过定性或计算适当的距离指标（如均方误差、Jensen-Shannon散度）来评估。

我们的下游任务使用合成数据来推理真实数据，例如，属性预测或算法比较。根据[72]的建议，这些任务可以用定量的、特定任务的指标来评估，比如预测准确率。每一个指标都会有更详细的解释。

5.2 Results 后面就没看了 -。-

更多推荐

【论文阅读】（DoppelGANger那篇）Using GANs for Sharing Networked Time Series Data...

本文发布于:2024-03-09 08:49:50，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1724519.html

那篇论文 GANs Sharing DoppelGANger

上一篇： Prometheus 实践操作
下一篇： Promise详解大全：介绍、九个方法使用和区别、返回值详解

发布评论取消回复

评论列表（有 0 条评论）

【论文阅读】（DoppelGANger那篇）Using GANs for Sharing Networked Time Series Data...