admin管理员组文章数量:1652183
论文标题
A deep variational approach to clustering survival data
论文作者、链接
作者:
Manduchi, Laura and Marcinkevi{\v{c}}s, Ri{\v{c}}ards and Massi, Michela C and Weikert, Thomas and Sauter, Alexander and Gotta, Verena and M{\"u}ller, Timothy and Vasella, Flavio and Neidert, Marian C and Pfister, Marc and others
链接:https://arxiv/abs/2106.05763
Introduction逻辑(论文动机&现有工作存在的问题)
生存分析(Survival analysis),在很多医疗场景下有广泛的应用,用来推断解释变量(explanatory variables )和潜在的检查结果(censored survival outcome)之间的关系——后者表示某一事件发生的时间,如死亡或癌症复发,并在只知道部分相关情况时可以审查出来——用机器学习来学习这些数据的非线性关系
聚类——不适用于生存结果(the survival outcomes)——无法保证聚类结果中的子簇是与患者的信息相关——本文专注于聚类survival data的半监督学习方法,该方法联合考虑解释变量和审查结果作为患者状态的指标
图1描述了这个聚类问题:整个患者群体由三个group组成,其特征是协变量和survival之间的不同关联,导致不同的临床情况
对于survival data的聚类——现有方法的局限:在高纬度的容量有限,无结构的数据以及专注于发现纯结果驱动的聚类——当仅凭survival distribution不足以对人群进行分层时,后者可能无法应用——相似survival outcome的患者可能需求不同的治疗手段
论文核心创新点
提出一个survival聚类方法,联合建模解释变量和censored survival outcomes
相关工作
针对survival data的聚类
论文方法
预备知识
对于每一个患者有个三元组的数据集。代表特征的可解释变量。是检查指示变量,如果第个患者的survival time被审查了,值为0,否则值为1。是潜在的检查survival time。在survival analysis上用一个最大似然方法,来建模一个survival distribution,即。
对于survival analysis的两个主要的挑战,(i)survival times 的检查(ii)之间的复杂非线性关系。当对survival data进行聚类的时候,我们额外的考虑了一个在训练过程中观测到的潜在聚类分配变量,是簇的总数目。于是目标问题变成了:(i)推测未观测到的聚类分布(ii)在给定的情况下对survival distribution进行建模
生成模型
假设数据是由下列步骤随机生成的。
1,从分类分布中采样簇分布
2,从高斯分布生成一个连续的潜在嵌入,这个嵌入的均值和方差依赖于采样的簇:
3,解释变量是从在上的条件分布生成的,,其中对于二值特征有,对于实值特征有。
至此,由生成,为一个解码器神经网络,参数为。
4,survival time 依赖于聚类分布,潜在变量和检查指示变量,即
Survival Model
参考于具体的簇的survival model。假设给定,依据韦伯分布的未审查的survival time由给定,其中,是形状参数,是具体的簇的survival参数。 为了简洁省略偏置项。观察项,对应的是韦伯分布的尺度参数。带有尺度参数以及形状的韦伯分布,有一个概率稠密函数,在的情况下,有。于是,从下列分布对right-censoring区域做出调整:
其中,并且是surviva函数。至此,使用作为的缩写。本文中只考虑right-censoring的情况
联合概率分布
的联合概率分布写成。值得注意的是是与给定的所独立的。我们重写联合概率分布,参考似然函数,有:
置信下界
根据之前数据生成的假设,目标是推理参数。由于方程2中的似然函数是难以处理的,我们将数据的对数边际概率的下界最大化:
我们给出了具有变化分布的观测值z和c的近似概率。其中第一项是由神经网络参数化的编码器。第二项等于真实概率:
因此,证据下界(ELBO)可表示为:
缺失的Survival Time
硬聚类分配可由式4的分布计算。然而,在测试时可能无法观察到存活时间;
而我们对分布的推导依赖于。因此,当个体的生存时间未知时,我们使用贝叶斯规则计算,即:
一句话总结
说实话没看懂
论文好句摘抄(个人向)
(1)Clustering, on the other hand, serves as a valuable tool in data-driven discovery and subtyping of diseases
本文标签: 论文VariationalDeepApproachData
版权声明:本文标题:论文阅读”A deep variational approach to clustering survival data“(ICLR2022) 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1729578849a1207356.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论