admin管理员组

文章数量:1652183

论文标题

A deep variational approach to clustering survival data

论文作者、链接

作者:

Manduchi, Laura and Marcinkevi{\v{c}}s, Ri{\v{c}}ards and Massi, Michela C and Weikert, Thomas and Sauter, Alexander and Gotta, Verena and M{\"u}ller, Timothy and Vasella, Flavio and Neidert, Marian C and Pfister, Marc and others

链接:https://arxiv/abs/2106.05763


Introduction逻辑(论文动机&现有工作存在的问题) 

生存分析(Survival analysis),在很多医疗场景下有广泛的应用,用来推断解释变量(explanatory variables )和潜在的检查结果(censored survival outcome)之间的关系——后者表示某一事件发生的时间,如死亡或癌症复发,并在只知道部分相关情况时可以审查出来——用机器学习来学习这些数据的非线性关系

聚类——不适用于生存结果(the survival outcomes)——无法保证聚类结果中的子簇是与患者的信息相关——本文专注于聚类survival data的半监督学习方法,该方法联合考虑解释变量和审查结果作为患者状态的指标

图1描述了这个聚类问题:整个患者群体由三个group组成,其特征是协变量和survival之间的不同关联,导致不同的临床情况

对于survival data的聚类——现有方法的局限:在高纬度的容量有限,无结构的数据以及专注于发现纯结果驱动的聚类——当仅凭survival distribution不足以对人群进行分层时,后者可能无法应用——相似survival outcome的患者可能需求不同的治疗手段

论文核心创新点

提出一个survival聚类方法,联合建模解释变量和censored survival outcomes


相关工作

针对survival data的聚类


论文方法

 预备知识

对于每一个患者有个三元组的数据集。代表特征的可解释变量。是检查指示变量,如果第个患者的survival time被审查了,值为0,否则值为1。是潜在的检查survival time。在survival analysis上用一个最大似然方法,来建模一个survival distribution,即。

对于survival analysis的两个主要的挑战,(i)survival times 的检查(ii)之间的复杂非线性关系。当对survival data进行聚类的时候,我们额外的考虑了一个在训练过程中观测到的潜在聚类分配变量,是簇的总数目。于是目标问题变成了:(i)推测未观测到的聚类分布(ii)在给定的情况下对survival distribution进行建模

生成模型

 假设数据是由下列步骤随机生成的。

1,从分类分布中采样簇分布

2,从高斯分布生成一个连续的潜在嵌入,这个嵌入的均值和方差依赖于采样的簇:

3,解释变量是从在上的条件分布生成的,,其中对于二值特征有,对于实值特征有。

至此,由生成,为一个解码器神经网络,参数为。

4,survival time 依赖于聚类分布,潜在变量和检查指示变量,即

Survival Model

参考于具体的簇的survival model。假设给定,依据韦伯分布的未审查的survival time由给定,其中,是形状参数,是具体的簇的survival参数。 为了简洁省略偏置项。观察项,对应的是韦伯分布的尺度参数。带有尺度参数以及形状的韦伯分布,有一个概率稠密函数,在的情况下,有。于是,从下列分布对right-censoring区域做出调整:

 其中,并且是surviva函数。至此,使用作为的缩写。本文中只考虑right-censoring的情况

联合概率分布

的联合概率分布写成。值得注意的是是与给定的所独立的。我们重写联合概率分布,参考似然函数,有:

置信下界 

 根据之前数据生成的假设,目标是推理参数。由于方程2中的似然函数是难以处理的,我们将数据的对数边际概率的下界最大化:

 我们给出了具有变化分布的观测值z和c的近似概率。其中第一项是由神经网络参数化的编码器。第二项等于真实概率:

 因此,证据下界(ELBO)可表示为:

 缺失的Survival Time

硬聚类分配可由式4的分布计算。然而,在测试时可能无法观察到存活时间;
而我们对分布的推导依赖于。因此,当个体的生存时间未知时,我们使用贝叶斯规则计算,即:


一句话总结

说实话没看懂

论文好句摘抄(个人向)

(1)Clustering, on the other hand, serves as a valuable tool in data-driven discovery and subtyping of diseases

本文标签: 论文VariationalDeepApproachData