2017 Oncotarget

编程入门行业动态更新时间:2024-10-09 03:31:47

2017 Oncotarget

2017 Oncotarget | The cornucopia of meaningful leads: Applying deep adversarial autoencoders for new molecule development in oncology

Paper:
Code:

有意义的线索的聚宝盆：将深度对抗性自动编码器应用于肿瘤学中的新分子开发

本文介绍了生成对抗自动编码器 (AAE) 的首次应用，用于生成具有一组定义参数的新型分子指纹。并开发了一个 7 层 AAE 架构，其中潜在的中间层用作鉴别器。作为输入和输出，AAE 使用二进制指纹向量和对数浓度。在潜伏层中，引入了一个负责生长抑制百分比的神经元，当它为负值时，表示治疗后肿瘤细胞数量的减少。为了训练 AAE，作者使用了在 MCF-7 细胞系上分析的 6252 种化合物的 NCI-60 细胞系测定数据。AAE 的输出用于筛选 PubChem 中的 7200 万种化合物，并选择具有潜在抗癌特性的候选分子。

结构

作为输入，AAE使用二元指纹向量和分子的对数浓度(LCONC)。AAE输出浓度和一个向量，由分配给指纹每个比特的概率组成。在潜伏层中，引入了一个负责生长抑制百分比(GI)的神经元，负值表示药物治疗后肿瘤细胞数量的减少。

编码器分别由两个随之而来的L1和L2层组成，分别为128和64个神经元。反过来，解码器由L’1和L’2层组成，其中包括64和128个神经元。潜在层由5个神经元组成，其中一个是生长抑制百分比（GI），其他4个由正态分布进行区分。

利用MCF-7细胞系6252个化合物的指纹图谱、LCONC和GI数据进行AAE训练。之后，从潜层先验分布中采样640个向量，其中640个GI值来自正态分布N(5,1)。基于这些数据，使用解码器生成640个概率向量，并给出相应的LCONC值。然后提取LCONC < -5.0 m的概率向量集，总共得到32个向量。

Pubchem化合物用绿色表示，训练集用蓝色表示，预测图用红色表示。

GAN的设计和训练

本研究中使用的GAN结构受到了该领域近期工作的启发。根据原来的研究，对抗网络和自编码器与SGD在每个小批量上进行重建阶段和正则化阶段两个阶段的联合训练。在重构阶段，自动编码器更新编码器和解码器，以最小化输入的重构误差。在正则化阶段，对抗网络首先更新其判别网络，以区分真实样本(使用先验生成)和生成的样本(由自动编码器计算出的隐藏代码)。然后，对抗性网络更新它的生成器(也是自编码器的编码器)来迷惑鉴别网络。一旦训练过程完成，自动编码器的解码器将定义一个生成模型，将先验 p ( z ) p(z) p(z)映射到数据分布。

对AAE进行了训练，不仅可以编码和重建分子指纹，还可以重建实验浓度。编码器分别由两个随之而来的L1和L2层组成，分别为128和64个神经元。解码器由L’1和L’2组成，分别包括64和128个神经元。潜伏层由5个神经元组成，其中1个为GI，其余4个为正态分布。由于训练编码器网络来预测潜在层单个神经元的抗癌效率，将潜在向量分为GI和表示两部分。所以在编码器目标函数中加入了回归项。通过使不同浓度的相似指纹表示之间的余弦相似度最大化来实现损失的训练网络。

5 步训练迭代：