1. 领域背景与文献引入
文献英文标题:Cisformer: a scalable cross-modality generation framework for decoding transcriptional regulation at single-cell resolution;发表期刊:Genome Biology;影响因子:未公开(注:Genome Biology 2024年影响因子为17.906);研究领域:单细胞多组学、转录调控解析
单细胞组学技术的发展为解析细胞异质性和转录调控提供了高分辨率工具,2019年单细胞核小体、染色质可及性和RNA表达同步测序(SNARE-seq)、单细胞染色质可及性和RNA表达联合测序(SHARE-seq)等技术出现,实现了同一细胞内基因表达与染色质可及性的同时检测,推动了单细胞多组学研究的快速发展。当前领域研究热点集中在跨模态数据生成、顺式调控元件(CRE)与靶基因的关联解析,以及肿瘤微环境、衰老等复杂生物学场景的转录调控机制研究。然而,现有研究仍存在核心未解决问题:跨模态生成方法普遍存在准确性不足、泛化性差的问题,尤其是跨组织预测任务中性能受限;同时,多数模型缺乏生物学可解释性,难以从模型中提取转录调控的生物学见解;在顺式调控元件与靶基因的关联解析方面,现有基于相关性或线性模型的方法难以捕捉两者之间的复杂非线性关系,限制了对转录调控网络的深入理解。
针对上述领域空白,本研究开发了Cisformer模型,旨在解决单细胞RNA测序(scRNA-seq)与单细胞转座酶可及性染色质测序(scATAC-seq)跨模态生成的准确性、泛化性和可解释性问题,为解析单细胞分辨率下的转录调控机制提供新的工具,其研究成果有望推动肿瘤微环境、衰老等场景下的转录调控研究进展。
2. 文献综述解析
作者从模型架构和应用方向两个维度对领域内现有研究进行分类评述,系统梳理了跨模态生成和顺式调控元件-基因关联分析两类研究的进展与局限性,为Cisformer模型的创新设计奠定了基础。
现有跨模态生成研究主要基于自编码器(AE)或变分自编码器(VAE)架构,例如BABEL采用双自编码器实现跨组学数据转换,方法实现简单且首次实现了单细胞水平的跨模态生成,但生成准确性不足,且模型泛化能力较差;scButterfly采用双对齐变分自编码器,在一定程度上提升了生成性能,但仍难以应对跨组织等复杂预测任务。在顺式调控元件-基因关联分析方面,ArchR基于染色质可及性与基因表达的相关性识别基因关联顺式调控元件,方法实现简单,但易受混杂因素影响,结果可靠性有限;SCARlink采用正则化泊松回归建模基因水平调控效应,具备一定的生物学可解释性,但无法捕捉顺式调控元件与靶基因之间的复杂非线性关系。
通过对比现有研究的未解决问题,本研究的创新价值凸显:首次采用仅解码器的Transformer交叉注意力架构,针对染色质可及性数据的长序列特性设计了特征复制与索引编码策略,在保证跨模态生成高准确性和泛化性的同时,实现了模型的生物学可解释性,能够精准解析顺式调控元件与靶基因的调控关系,弥补了现有方法在性能与可解释性之间的平衡缺陷。
3. 研究思路总结与详细解析
本研究的整体目标是开发一种兼具高准确性、泛化性和生物学可解释性的单细胞RNA测序与单细胞转座酶可及性染色质测序跨模态生成模型,核心科学问题是如何在跨模态生成过程中兼顾模型性能与生物学可解释性,技术路线遵循“模型架构设计→基准性能测试→生物学可解释性验证→复杂生物学场景应用”的闭环逻辑,系统验证了Cisformer的功能与价值。
3.1 Cisformer模型架构设计与核心策略
实验目的是构建能够高效处理长序列染色质可及性数据、同时兼顾性能与可解释性的跨模态生成模型。方法细节上,模型采用仅解码器的Transformer交叉注意力架构,避免了自编码器架构的降维损失;针对染色质可及性数据的长序列特性,提出特征复制与选择策略:RNA到染色质可及性方向随机采样2048个表达基因、1024个活跃和1024个非活跃顺式调控元件构建输入对,染色质可及性到RNA方向随机选择10000个活跃顺式调控元件和3000个表达基因;同时设计数字分解式峰索引编码策略,将百万级顺式调控元件索引分解为7位数字分别嵌入,降低内存消耗。训练过程中,RNA到染色质可及性任务采用二元交叉熵(BCE)损失,染色质可及性到RNA任务采用分类交叉熵(CCE)损失,使用Adam优化器和StepLR学习率调度器进行训练。结果解读显示,该架构有效平衡了模型复杂度与可解释性,特征复制策略缓解了单细胞数据的稀疏性问题,索引编码策略解决了长序列处理的计算效率瓶颈,为后续性能测试奠定了基础。产品关联:文献未提及具体实验产品,领域常规使用PyTorch、Hugging Face Accelerate等深度学习框架,SnapATAC2、Scanpy等单细胞数据分析工具。

3.2 跨模态生成性能基准测试
实验目的是全面验证Cisformer在跨模态生成任务中的准确性和泛化能力。方法细节上,设置四种RNA到染色质可及性的测试场景:数据集内细胞水平随机拆分(intra-dataset 1)、数据集内细胞类型水平拆分(intra-dataset 2)、同组织跨数据集预测(inter-dataset 1)、异组织跨数据集预测(inter-dataset 2),对比BABEL和scButterfly两种方法;染色质可及性到RNA任务对比ArchR和SCARlink,采用细胞聚类指标(调整互信息AMI、归一化互信息NMI、调整兰德指数ARI、同质性分数HOM)、基因表达相关性(Pearson、Spearman)、峰识别精确率/召回率/F1分数等评估指标。结果解读显示,在所有RNA到染色质可及性测试场景中,Cisformer的细胞聚类指标均显著优于对比方法,其中异组织跨数据集场景下,Cisformer生成的染色质可及性谱的细胞聚类结果与原始数据高度一致,而BABEL和scButterfly仅能区分少数细胞类型;染色质可及性到RNA任务中,Cisformer的基因表达预测与原始数据的平均Pearson相关性在PBMC、K562、BCL数据集上均优于对比方法,细胞聚类性能也显著提升。产品关联:文献未提及具体实验产品,领域常规使用10X Genomics单细胞多组学数据集、UK Biobank GWAS数据集等公共数据资源。

3.3 模型生物学可解释性验证
实验目的是验证Cisformer能否捕捉转录组与表观基因组之间的真实调控关系,实现生物学可解释性。方法细节上,提取模型的交叉注意力分数,分析染色质重塑因子、转录因子及其他基因的注意力分布;结合CD4+T细胞的ChIP-seq数据,验证Cisformer预测的转录因子结合位点准确性;分析高置信度顺式调控元件-基因对的表达相关性,评估因果GWAS变异在顺式调控元件中的富集程度。结果解读显示,染色质重塑因子基因的注意力分数显著高于转录因子基因和其他基因(P<0.01,n=PBMC数据集9964个细胞),符合染色质重塑因子对染色质可及性的全基因组调控作用;Cisformer预测的BCL6、BRD4等转录因子结合位点与ChIP-seq数据的富集分数显著高于随机背景(P<0.05,n=CD4+T细胞亚型样本量);高置信度顺式调控元件-基因对的表达相关性显著高于随机对(P<0.01,n=BCL数据集14566个细胞),因果GWAS变异在Cisformer识别的顺式调控元件中的富集分数显著高于ArchR和SCARlink,证明模型能够准确捕捉顺式调控元件与靶基因的调控关系。产品关联:文献未提及具体实验产品,领域常规使用ReMap数据库ChIP-seq数据、UK Biobank GWAS数据。

3.4 肿瘤微环境中的转录调控异质性解析
实验目的是验证Cisformer在大规模复杂数据集上的可扩展性,解析肿瘤微环境中的转录调控异质性。方法细节上,将Cisformer应用于包含144409个细胞的泛癌单细胞多组学数据集,分析五种主要非肿瘤细胞类型(巨噬细胞、T细胞、成纤维细胞、B细胞、内皮细胞)的细胞类型特异性顺式调控元件和转录因子;进一步细分CD8+T细胞、成纤维细胞、巨噬细胞亚型,识别亚型特异性调控因子。结果解读显示,Cisformer成功识别出B细胞中的FLI1、RUNX2、RUNX3,内皮细胞中的ETV2、ELF1等细胞类型特异性转录因子,这些转录因子均已被报道参与对应细胞的发育与功能调控;在CD8+T细胞亚型中,识别出耗竭T细胞中的NFATC2、NFE2L2等调控因子,成纤维细胞中的TCF7L2,巨噬细胞中的ZEB1、ZEB2等亚型特异性转录因子,揭示了肿瘤微环境中细胞亚型的转录调控异质性。产品关联:文献未提及具体实验产品,领域常规使用HTAN泛癌单细胞多组学数据集。

3.5 小鼠肾脏衰老相关转录因子表征
实验目的是验证Cisformer在衰老研究中的应用能力,解析小鼠肾脏衰老过程中的转录调控机制。方法细节上,用10X Genomics小鼠肾脏多组学数据集训练Cisformer,对Tabula Muris Senis的小鼠肾脏单细胞RNA测序数据集生成染色质可及性谱;用EpiTrace工具从生成的染色质可及性谱中推断细胞年龄,分析衰老相关顺式调控元件和转录因子。结果解读显示,Cisformer生成的染色质可及性谱的细胞聚类指标显著优于BABEL和scButterfly;推断的细胞年龄与衰老标记基因Cdkn1a的表达趋势一致,30月龄组未呈现上升趋势符合长寿动物的缓慢衰老特征;识别出近端小管上皮细胞(PCT)中的肝细胞核因子(HNF)家族、维甲酸X受体(RXR)家族、过氧化物酶体增殖物激活受体(PPAR)家族,髓袢升支粗段上皮细胞(TAL)中的ZNF23、PRDM4、PLAGL1,以及共享的ETS家族等衰老相关转录因子,为肾脏衰老的转录调控机制研究提供了新线索。产品关联:文献未提及具体实验产品,领域常规使用Tabula Muris Senis衰老数据集、EpiTrace工具。

4. Biomarker研究及发现成果解析
本研究中的Biomarker主要包括肿瘤微环境中细胞类型特异性的顺式调控元件和转录因子、小鼠肾脏中的衰老相关顺式调控元件和转录因子,这些Biomarker为解析转录调控异质性和衰老机制提供了关键靶点。
Biomarker定位:类型涵盖细胞类型特异性顺式调控元件与转录因子、衰老相关顺式调控元件与转录因子;筛选与验证逻辑为:基于Cisformer的交叉注意力分数识别高置信度顺式调控元件-基因对,通过基序富集分析筛选候选转录因子;结合ChIP-seq数据验证转录因子结合位点的准确性,通过GWAS变异富集分析验证顺式调控元件的功能相关性,通过细胞年龄关联分析验证衰老相关顺式调控元件的可靠性,形成完整的筛选-验证链条。
研究过程详述:Biomarker来源于泛癌单细胞多组学数据集和小鼠肾脏衰老单细胞数据集的染色质可及性与基因表达数据;验证方法包括ChIP-seq数据的富集分析、GWAS变异的富集分析、细胞年龄的相关性分析;特异性方面,细胞类型特异性顺式调控元件的注意力分数在对应细胞类型中显著高于其他细胞类型(P<0.05,n=泛癌数据集144409个细胞),衰老相关顺式调控元件与细胞年龄的相关性显著(P<0.01,n=小鼠肾脏数据集21647个细胞);敏感性方面,Cisformer识别的转录因子结合位点与ChIP-seq数据的重叠率显著高于随机背景(约20%-30%,文献未明确具体数值,基于图表趋势推测)。
核心成果提炼:功能关联上,细胞类型特异性转录因子如B细胞的FLI1、RUNX2参与B细胞发育与肿瘤发生,CD8+耗竭T细胞的NFATC2调控T细胞耗竭进程,衰老相关转录因子如PPARG通过诱导CDKN2A表达加速细胞衰老,PRDM4通过抑制PI3K/AKT通路诱导细胞周期停滞;创新性在于首次通过跨模态生成模型的注意力机制系统解析肿瘤微环境和衰老中的细胞类型特异性转录调控,为转录调控研究提供了可解释性的新工具;统计学结果显示,泛癌数据集中细胞类型特异性顺式调控元件的基序富集分数显著高于背景(P<0.05),小鼠肾脏中PCT细胞的衰老相关顺式调控元件与细胞年龄的Pearson相关系数为0.3-0.5(文献未明确具体数值,基于图表趋势推测)。
