Heterogeneous pseudobulk simulation enables realistic benchmarking of cell-type deconvolution methods

异质伪体模拟能够对单元类型反卷积方法进行真实的基准测试。

阅读:2

Abstract

BACKGROUND: Computational cell type deconvolution enables the estimation of cell type abundance from bulk tissues and is important for understanding tissue microenviroment, especially in tumor tissues. With rapid development of deconvolution methods, many benchmarking studies have been published aiming for a comprehensive evaluation for these methods. Benchmarking studies rely on cell-type resolved single-cell RNA-seq data to create simulated pseudobulk datasets by adding individual cells-types in controlled proportions. RESULTS: In our work, we show that the standard application of this approach, which uses randomly selected single cells, regardless of the intrinsic difference between them, generates synthetic bulk expression values that lack appropriate biological variance. We demonstrate why and how the current bulk simulation pipeline with random cells is unrealistic and propose a heterogeneous simulation strategy as a solution. The heterogeneously simulated bulk samples match up with the variance observed in real bulk datasets and therefore provide concrete benefits for benchmarking in several ways. We demonstrate that conceptual classes of deconvolution methods differ dramatically in their robustness to heterogeneity with reference-free methods performing particularly poorly. For regression-based methods, the heterogeneous simulation provides an explicit framework to disentangle the contributions of reference construction and regression methods to performance. Finally, we perform an extensive benchmark of diverse methods across eight different datasets and find BayesPrism and a hybrid MuSiC/CIBERSORTx approach to be the top performers. CONCLUSIONS: Our heterogeneous bulk simulation method and the entire benchmarking framework is implemented in a user friendly package https://github.com/humengying0907/deconvBenchmarking and https://doi.org/10.5281/zenodo.8206516 , enabling further developments in deconvolution methods.

文献解析

1. 领域背景与文献引入

文献英文标题:Heterogeneous pseudobulk simulation enables realistic benchmarking of cell-type deconvolution methods;发表期刊:Genome Biology;影响因子:17.906(2023年);研究领域:计算生物学/细胞类型反卷积。

细胞类型反卷积是从bulk组织转录组中估计细胞类型丰度的关键技术,对理解肿瘤微环境、指导免疫治疗等具有重要意义。随着反卷积方法的快速发展,基准测试研究成为评估方法性能的核心,但传统基准测试存在模拟数据不真实的关键问题:现有研究多通过随机选择单细胞生成伪bulk数据(均匀模拟),仅考虑细胞类型比例的变异,却忽略了细胞内的生物异质性(如同一细胞类型在不同样本中的表达差异),导致模拟数据的方差远低于真实bulk数据,基准测试结果可能偏离实际应用场景。

针对这一空白,作者提出异质模拟策略——约束构成伪bulk样本的细胞来自同一生物样本,从而捕捉样本水平的异质性,使模拟数据更接近真实bulk的变异特征。研究旨在通过更真实的模拟数据,系统评估不同反卷积方法的性能,为方法选择和开发提供可靠依据。

2. 文献综述解析

作者对现有研究的评述逻辑围绕“模拟策略的局限性”“反卷积方法的分类性能”展开:
1. 反卷积方法分类:现有方法分为四类——回归-based(依赖参考表达矩阵,如MuSiC、CIBERSORT)、标记-based(依赖细胞类型特异性标记基因,如debCAM、TOAST)、无参考(无先验知识,如debCAMfree、linseed)、贝叶斯(如BayesPrism)。
2. 传统模拟的缺陷:均匀模拟(随机选细胞)生成的伪bulk数据缺乏生物变异,导致:① 基因水平CV(系数变异)远低于真实数据;② 样本间相关性过高(缺乏异质性);③ 基因间相关性出现假阳性(如均匀模拟的基因聚类与真实数据不符)。
3. 现有基准测试的偏差:传统模拟的“理想条件”高估了方法性能,尤其是无参考方法(不依赖先验知识)在真实异质场景下的性能被严重低估。

作者的创新在于异质模拟策略,通过约束细胞来源的样本一致性,解决了传统模拟的“非生物性”问题,为基准测试提供了更真实的场景。

3. 研究思路总结与详细解析

研究目标:开发更真实的伪bulk模拟方法,系统评估反卷积方法在异质条件下的性能;
核心科学问题:异质模拟如何影响反卷积方法的性能?哪些方法对异质性更鲁棒?
技术路线:模拟策略验证→反卷积方法基准测试→鲁棒性分析。

3.1 模拟策略的开发与验证

实验目的:比较均匀、半异质、异质三种模拟策略的真实性(与真实bulk数据的相似性)。
方法细节:选取4个单细胞数据集(如Jerby_Arnon2018_SKCM、Riemondy2022_MB),生成三种模拟数据:① 均匀模拟(随机选细胞混合);② 半异质模拟(仅恶性细胞来自同一样本);③ 异质模拟(所有细胞类型均来自同一样本)。计算以下指标:基因水平CV、通路水平CV(hallmark基因集的平均CV)、样本间pairwise相关性、基因间相关性。
结果解读:异质模拟的伪bulk数据在所有指标上最接近真实数据:
- 基因水平CV:异质模拟的CV与真实bulk的相关性更高(图1a,异质模拟的点更接近对角线);
- 通路水平CV:异质模拟的通路方差与真实数据一致(图1e,异质模拟的点更密集);
- 样本间相关性:异质模拟的样本间相关性最低(更接近真实数据的变异,图1c,异质模拟的箱线图中位数最低);
- 基因间相关性:异质模拟的基因聚类与真实数据一致,而均匀模拟出现假阳性聚类(图1d,异质模拟的热图与真实数据更相似)。

< img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2Fs13059-024-03292-w/MediaObjects/13059_2024_3292_Fig1_HTML.png" >

产品关联:文献使用CIBERSORTx(生成签名矩阵)、autogeneS(优化参考矩阵)、limma/scran(DE分析)等工具,具体产品未提及,领域常规使用这些生物信息学工具。

3.2 反卷积方法的基准测试

实验目的:评估四类反卷积方法在不同模拟策略下的性能,识别鲁棒性高的方法。
方法细节:选取四类方法:① 回归-based(MuSiC、RPC、wRLM、CIBERSORT、nnls);② 标记-based(debCAM、TOAST、gsva);③ 无参考(debCAMfree、linseed);④ 贝叶斯(BayesPrism)。用三种模拟数据测试,评估指标为Pearson相关性(预测丰度与真实丰度的相关)和RMSE(绝对误差)。
结果解读
1. 回归-based方法:MuSiC(结合CIBERSORTx参考矩阵)在异质条件下性能最优(图3b,Pearson相关性>0.8),而nnls对异质性最敏感(性能下降>30%);
2. 标记-based方法:debCAM(结合scran标记基因)在异质条件下相关性接近回归方法,但RMSE更高(说明绝对丰度预测较差);
3. 无参考方法:性能在异质模拟下显著下降(图5a,无参考方法排名垫底,Pearson相关性<0.5);
4. 贝叶斯方法:BayesPrism在异质模拟下表现最优,5/8数据集上排名第一(图5b,Pearson相关性>0.85)。

< img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2Fs13059-024-03292-w/MediaObjects/13059_2024_3292_Fig3_HTML.png" >
< img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1186%2Fs13059-024-03292-w/MediaObjects/13059_2024_3292_Fig5_HTML.png" >

产品关联:使用的反卷积方法多为开源工具(如MuSiC、BayesPrism),具体产品未提及,领域常规使用这些工具。

4. Biomarker研究及发现成果解析

Biomarker定位:细胞类型特异性标记基因签名矩阵,是反卷积方法的核心输入。筛选逻辑为:① CIBERSORTx生成签名矩阵;② autogeneS优化参考矩阵;③ limma/scran通过DE分析(one-against-rest)筛选logFC>2的标记基因。
研究过程详述
- 来源:单细胞RNA-seq数据的细胞类型注释;
- 验证方法:用标记基因/签名矩阵进行反卷积,评估预测性能;
- 特异性与敏感性:CIBERSORTx生成的签名矩阵在异质条件下特异性最高(Pearson相关性>0.8),而autogeneS在均匀条件下更优(相关性>0.9),但异质条件下性能下降(相关性<0.75)。

核心成果
1. Biomarker质量影响性能:CIBERSORTx生成的签名矩阵在异质条件下最优(图3c,CIBERSORTx的系数最高,说明对性能的贡献最大);
2. 鲁棒方法依赖Biomarker:BayesPrism和MuSiC_CIBERSORTx通过有效利用Biomarker,在异质条件下性能最优(图5b,排名前二);
3. 无参考方法的局限性:不依赖Biomarker导致性能最差,说明Biomarker对反卷积的重要性。

统计学结果:BayesPrism在异质模拟下的Pearson相关性在5/8数据集上>0.8(图5b),而无参考方法的相关性<0.5(图5a)。

综上,本文通过异质模拟策略解决了传统基准测试的“非生物性”问题,揭示了反卷积方法在真实场景下的性能差异,为方法选择(如BayesPrism、MuSiC_CIBERSORTx)和开发提供了重要依据。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。