1. 引言
复杂样本的基因组数据测量的是其含有的多种细胞类型信号的加权平均值,而不是混合物中不同细胞类型的独立测量值,因此,包含差异分析在内的复杂样本的多种相关分析工作会由于细胞混合而导致分析结果出现偏差甚至是错误[1]。此外,有研究表明细胞组成与疾病进展和治疗反应密切相关[2]。例如,神经元细胞死亡是阿尔茨海默病(ad)的显著病理特征[3],而免疫浸润在多种癌症类型中与肿瘤进展显著相关[4]。因此,准确估计细胞组成对分析复杂样本具有重要的意义。
传统上,许多实验方法,如荧光激活细胞分选(facs)、免疫组织化学(ihc)和单细胞rna测序(single cell rna-seq)能够提供细胞组成信息[5]。然而,这些方法由于通量有限、成本过高、操作繁琐等原因,在大规模临床应用中受限。作为替代方案,有许多被称为“反卷积”的计算方法被开发出来。目前,这些方法大致可分为两类:基于参考基矩阵的方法[6]-[9]和不依赖于参考基矩阵的方法[10]-[12]。基于参考基矩阵的方法需要将从纯化组织中获得的参考面板数据作为输入,并通过如约束线性回归或支持向量回归等方法来估计细胞类型的组成[6]。研究表明,基于参考基矩阵的方法通常比不依赖于参考基矩阵的方法得到的结果更准确[6] [7]。然而,目前的参考数据仅针对少数几种组织类型(如血液、乳腺和大脑),且仅来自少数个体,因此基于参考基矩阵的方法应用范围受到极大限制。此外,当复杂样本与参考数据在临床条件和表型特征上存在显著差异时,基于参考基矩阵的方法可能会导致细胞组成估算不准确[13]。对于没有适当参考信息的组织,不依赖于参考基矩阵的方法提供了更好的凯发国际一触即发的解决方案[14]。该类方法基于某种类型的因子分析(如非负矩阵分解),纯细胞类型的特征谱和细胞组成被同时进行估算[15]。然而,由于不依赖于参考基矩阵的方法中需要估计的参数众多,因此其面临着准确度较低的问题。因此,开发一种能够改进不依赖于参考基矩阵的反卷积新算法是一个值得研究的重要问题。
本文中,我们开发了一种基于跨细胞类型差异分析来筛选细胞类型特异性的特征并进行细胞组成估计。该算法通过整合一种细胞类型和其他细胞类型之间的跨细胞类型差异分析,以及两种细胞类型与其他细胞类型之间的跨细胞类型差异分析,迭代地搜索细胞类型特异性的最优特征,并进行细胞组成估计。广泛的模拟研究和两个真实数据集上的实证分析证明了我们方法的优越性。
2. 模型构建
给定一个
的矩阵y,其表示m个特征在n个复杂样本上高通量实验生成的数据。我们假设这些复杂样本是k种细胞类型的混合物,w为
的矩阵,表示m个细胞类型特异性特征在k种细胞类型上的表达谱,h为
的矩阵,表示细胞组成比例矩阵,h的各元素要求非负,并且每列元素之和为1。假设观测数据y为细胞类型特异性特征谱的线性组合,组合系数为细胞组成比例,即
其中
是
的误差矩阵。将我们的算法命名为decd,我们算法的目标是仅利用观测数据y来估算细胞组成比例矩阵h。
figure 1. workflow of the proposed algorithm decd
图1. 算法decd的流程图
图1展示了decd的工作流程,该流程由两个主要步骤组成:步骤(a)从原始数据y中选取变异系数最大的前1000个特征(m0),在矩阵y中取m0个特征,得到矩阵
,对
利用deconf进行无参考反卷积,得到比例矩阵h。步骤(b)利用步骤(a)估算的细胞比例矩阵h和原始数据矩阵y进行跨细胞类型差异分析,将一种细胞类型和其他细胞类型之间的跨细胞类型差异分析,以及两种细胞类型与其他细胞类型之间的跨细胞类型差异分析所得到的差异基因整合起来,将其作为新的m0,并在新一轮迭代中用于步骤(a),该算法迭代多次后停止。根据我们的经验,对于包含四种细胞类型和100个样本的基因表达数据,30次迭代就得到满意的结果。对于样本量较小(例如少于50个)或细胞类型较多(例如6种或更多)的研究,则需要更多的迭代次数。在我们的软件中,用户可以指定总迭代次数。在每次迭代中,decd会计算重构观测值
与真实观测值y之间的均方根误差(rmse),并选择对应于最小rmse的迭代结果所对应的细胞组成比例矩阵h作为最终估计结果。
decd中跨细胞类型差异分析的统计模型如下:
设所有观测数据为
,
表示细胞类型k的表达谱。假设所有样本的细胞类型比例已知,并将样本s的细胞组成比例表示为
。因此,观测数据y可描述为一个线性模型:
,其中
,
我们关注两个假设检验:
(1) 细胞类型k与其他细胞类型之间的差异表达分析:
;
(2) 检验细胞类型
与其他细胞类型之间的差异表达分析:
。
第一个假设检验执行的是任一种细胞类型与其余细胞类型之间的差异分析,第二个假设检验执行的是任两个细胞类型与其余细胞类型之间的差异分析。decd分别从这两个假设检验中选择差异最显著的500个特征,并且确保这两部分特征之间的重叠为0,然后将这两部分特征结合在一起,在下一轮的反卷积中使用。
本文通过两个指标评估decd的性能:(1) 估计比例矩阵
与真实比例矩阵h在四种细胞类型上的平均皮尔逊相关系数mc;(2) 估计比例矩阵
与真实比例矩阵h在四种细胞类型上的平均绝对误差mae。更高的mc值和更低的mae值表明算法具有更优的性能。
3. 模拟分析及真实数据分析
模拟数据y基于两个随机生成的矩阵来构造:细胞类型特异性参考矩阵w和细胞组成比例矩阵h。比例矩阵h根据dirichlet分布进行模拟,y由四种细胞类型组成时比例矩阵h的参数设置为(0.968, 4.706, 0.496, 0.347)。参考矩阵w根据基因表达综合数据库(geo)中登录号为gse11058的免疫数据集来生成。该数据集包含四种类型免疫细胞(jurkat, lm-9, raji, thp-1)的基因表达谱,并且每个数据集具有来自三个样本的测量值。我们对这三个样本的基因表达值做对数变换,计算对数变换后的每一个基因在三个样本上的均值和方差,并用估计的均值和方差根据正态分布生成了w。最后,矩阵y为这两个矩阵w和h的乘积,且加上小高斯噪声。图2的展示结果来自于100个蒙特卡罗实验结果的总结。
图2(a)展示的是模拟结果。由于在模拟时真实的比例矩阵是生成的,因此是已知的。我们可以计算真实比例矩阵和估计比例矩阵之间的mc和mae。更高的mc值和更低的mae值表明算法具有更优的性能。图2(a)展示了在迭代次数为0时估计比例与真实比例之间的皮尔逊相关系数(此时的估算比例是使用观测数据中变异系数最高的前1000个特征作为反卷积的输入)和使用decd方法进行6次、13次和20次迭代后估计比例与真实比例在四种细胞类型上的皮尔逊相关系数。图2(b)、图2(c)分别显示了四种细胞类型中估计比例与真实比例之间的平均皮尔逊相关系数和平均绝对误差。“before”时的估计细胞类型比例矩阵实际上就是迭代次数为0时的估计比例矩阵,而decd的估计比例矩阵是基于30次迭代中rmse最小的迭代对应的估计比例矩阵。显然,在所有四种细胞类型上,随着迭代次数的增加,估计比例与真实比例之间的相关性总体上不断提高。与“before”(迭代次数为0)相比,细胞类型比例估算精度的提升非常显著。四种细胞类型上的平均相关性显著增加(p值为3.16e−34),平均绝对误差显著减少(p值为2.89e−34)。
figure 2. performance of decd on synthetic mixtures. (a) boxplots of pearson correlations between estimated and true proportions for four cell types by number of iterations; (b) boxplots of mean pearson correlations between estimated and true proportions across four cell types from “before” and decd; (c) boxplots of mean absolute errors between estimated and true proportions across four cell types from “before” and decd
图2. decd在合成混合物上的性能表现。(a) 不同迭代次数下,四种细胞类型上估计比例与真实比例之间的皮尔逊相关系数的箱线图;(b) decd和“before”方法在四种细胞类型上的平均皮尔逊相关系数箱线图。(c) decd和“before”方法在四种细胞类型上的平均绝对误差箱线图
我们从基因表达综合数据库(geo)上下载了2个基因表达数据集:mouse-mix数据和immune数据,这两个数据具有实验算出的真实比例矩阵h。mouse-mix数据由3种细胞类型组成,immune数据有4种细胞类型组成,每一个细胞类型在每个样本上所占比例都是已知的,即真实比例矩阵h是已知的。
首先,我们利用deconf函数分别计算出mouse-mix和immune数据的估计比例矩阵,即图3中“before”对应的每一个细胞类型在每一个样本上的估计比例。然后,利用decd计算出这两个数据集上的估计比例矩阵。图3(a)和图3(b)显示了mouse-mix和immune数据集上每种细胞类型在初始点(before,即迭代次数为0)和应用decd后的估算比例与真实比例在每一个样本上的散点图,并计算了各细胞类型的平均皮尔逊相关系数。显然,应用decd后细胞比例矩阵估计的准确性显著提升,平均相关系数(mc)在mouse-mix数据集上从0.75增加到0.995,在immune数据集上从0.451增加到0.963。
figure 3. scatter plots of estimated and true proportions of mouse-mix and immune data for each cell type at initial point and after applying decd
图3. mouse-mix和immune数据集中上每种细胞类型在初始点和应用decd后的估计比例与真实比例的散点图
4. 结论
本文开发了一种基于最优特征选择的无参考反卷积算法decd,该算法通过跨细胞类型的差异分析,迭代搜索细胞类型特异性的特征,将一种细胞类型与其他细胞类型之间的差异分析和两种细胞类型与其他细胞类型之间的差异分析相结合筛选特征,进而估算细胞组成。decd完全依赖数据驱动,不需要任何关于细胞类型或其比例的先验知识,并且不局限于特定的无参考反卷积方法。目前,大多数现有的不依赖参考基矩阵的反卷积算法都可以与该过程结合使用。模拟研究和两个真实数据集上的实证分析证明了decd的优越性。
基金项目
研究得到了江西省自然科学基金(20212bab202001)的支持。
notes
*通讯作者。