CLAMP: predicting specific protein-mediated chromatin loops in diverse species with a chromatin accessibility language model

CLAMP:利用染色质可及性语言模型预测不同物种中特定的蛋白质介导的染色质环

阅读:3

Abstract

Emerging DNA language models provide powerful tools to address the challenge of accurately predicting chromatin loops, fundamental structures governing 3D genome organization and gene regulation. Here we present CLAMP, which utilizes a deep language model pre-trained on broad cross-species chromatin accessibility data. CLAMP achieves superior performance compared to existing methods in predicting specific protein-mediated loops across 10 species, 18 proteins, and 24 cell types. CLAMP incorporates a novel CoVE explainer that reveals context-dependent genomic feature contributions, providing insights into the features driving predictions. CLAMP predictions effectively identify functionally significant chromatin loops and associated biological pathways.

文献解析

1. 领域背景与文献

文献英文标题:CLAMP: Chromatin Loop prediction via Accessibility language Model for Protein-mediated loops;发表期刊:Genome Biology;影响因子:17.906;研究领域:三维基因组学(蛋白介导染色质环预测)

真核生物的三维基因组架构通过染色质环等动态结构调控基因表达,染色质环能使相距数百万碱基对的增强子与启动子相互作用,是细胞身份和功能的结构基础。当染色质环发生紊乱时,会通过失调的基因表达程序驱动发育障碍和癌症。尽管染色质环至关重要,但当前预测其形成位置和时机的能力仍有限,制约了对基因组功能和疾病机制的理解。

现有绘制染色质相互作用的实验技术基于染色质构象捕获(3C)及其衍生技术(如Hi-C、ChIA-PET、HiChIP),虽能直接捕获染色质相互作用,但需要大量实验资源、复杂操作流程和大量细胞样本,且分辨率有限,限制了其广泛应用。早期计算方法通过分析特定序列基序或表观遗传特征预测染色质环,能利用现有组学数据快速预测,但依赖已知特征模式,无法捕捉染色质环形成的复杂序列依赖和长程相互作用,泛化性差。深度学习方法能从DNA序列和表观数据中学习复杂模式,提升预测准确性,但多局限于人类或小鼠等特定物种,或仅能预测CTCF等特定蛋白介导的环,且模型的黑箱特性导致无法解释预测的生物学机制,同时未能有效整合序列、表观信号和基因组距离等多模态信息。

针对这些领域空白,本研究开发了CLAMP工具,基于跨物种染色质可及性数据预训练语言模型,实现跨10个物种、18种蛋白、24种细胞类型的染色质环预测,同时整合多模态信息提升预测准确性,开发CoVE可解释性方法揭示特征贡献的上下文依赖性,为三维基因组研究提供了泛化性强、可解释的工具。

2. 文献综述解析

作者对领域内现有研究按技术类型分为实验技术和计算方法两类,其中计算方法进一步分为早期传统计算方法和深度学习方法,系统评述了各类方法的优势与局限性,明确了当前领域在染色质环预测中泛化性、可解释性、多模态整合方面的空白,凸显CLAMP的创新价值。

现有实验技术如染色质构象捕获及其衍生技术的核心优势是能直接捕获染色质相互作用,为染色质环研究提供实验金标准,但这类技术资源消耗大、操作复杂、依赖大量细胞,且分辨率有限,难以广泛应用。早期计算方法通过分析特定序列基序或表观遗传特征预测染色质环,能快速利用现有组学数据,但依赖已知特征模式,无法捕捉染色质环形成的复杂序列依赖和长程相互作用,泛化性差,难以适应不同物种、细胞类型和介导蛋白的差异。深度学习方法推动了领域发展,能从DNA序列和表观数据中学习复杂模式,提升预测准确性,但现有深度学习方法多局限于特定物种或蛋白,模型的黑箱特性导致无法解释预测的生物学机制,且未能有效整合多模态信息,难以全面捕捉染色质环形成的调控机制。

通过对比现有研究的不足,本研究的创新点在于首次基于跨物种染色质可及性数据预训练语言模型,实现了跨多物种、多蛋白、多细胞类型的染色质环预测,同时整合多模态信息提升预测准确性,开发CoVE可解释性方法揭示特征贡献的上下文依赖性,解决了现有方法泛化性差、可解释性不足的问题,为三维基因组研究提供了新的技术范式。

3. 研究思路总结与详细解析

本研究的整体框架为“预训练-微调-验证-解释-应用”闭环,研究目标是开发泛化性强、准确可解释的蛋白介导染色质环预测工具,核心科学问题是如何利用染色质可及性的语言模型捕捉染色质环形成的复杂序列依赖和长程相互作用,同时解决黑箱问题,技术路线为构建跨物种数据集→预训练语言模型→多模态微调→多维度验证→可解释性分析→功能验证→平台开发。

3.1 数据集构建与预处理

实验目的:构建用于模型预训练、微调及验证的高质量跨物种数据集,为CLAMP模型的训练和评估提供基础。
方法细节:预训练数据集收集人类、小鼠、牛、斑马鱼、青鳉和鸡7个物种的59个转座酶可及性染色质测序(ATAC-seq)数据集,共848万余个峰区域;微调数据集收集10个物种的56个染色质环数据集,包括37个HiChIP实验、19个ChIA-PET实验,涵盖18种蛋白因子和24种细胞类型,所有数据均经过统一标准化处理;同时构建Bacon金标准数据集、CLAMP对抗性数据集、Bacon-swap对称数据集,以及GenBench GUE数据集的7个基因组下游任务数据集用于验证。
结果解读:跨物种数据集涵盖从真菌到哺乳动物的多样生物类群,染色质环的锚定区域长度和环距离存在显著物种差异,验证了数据集的全面性,为模型泛化性训练提供了基础。
产品关联:文献为计算研究,未涉及实验试剂/仪器使用。

3.2 CLAMP模型架构设计与预训练

实验目的:设计基于染色质可及性语言模型的染色质环预测架构,通过预训练捕捉染色质环形成的序列特征。
方法细节:CLAMP模型包含DNA序列编码器、表观信号编码器、环锚距离编码器和环预测模块四个部分;预训练阶段采用掩码语言模型策略,对来自染色质可及性峰的DNA序列进行掩码训练,使用12层Transformer编码器,在4个NVIDIA A100 GPU上进行预训练,采用FP16半精度加速计算,通过调整序列长度和分词策略优化预训练参数。
结果解读:预训练后的模型能捕捉DNA序列的“基因组语法”,为后续染色质环预测任务提供通用的序列表示,最终确定6-mer-1500 bp的配置为最优预训练参数。
产品关联:文献为计算研究,未涉及实验试剂/仪器使用。

3.3 模型泛化性与适应性评估

实验目的:验证CLAMP模型在跨物种、跨细胞类型、跨蛋白介导的染色质环预测中的泛化性,以及对不同表观上下文的适应性。
方法细节:开展跨蛋白、跨细胞类型、跨物种的泛化性实验,评估模型在不同上下文下的马修斯相关系数(MCC);同时开展可变表观信号实验,固定模型参数,替换不同细胞类型、Hi-C分辨率、测序技术的表观信号输入,评估模型性能。
结果解读:CLAMP在人类细胞中预测不同蛋白介导的环MCC超过0.9,跨物种预测中哺乳动物和其他脊椎动物的受试者工作特征曲线下面积(AUC)>0.990,植物AUC=0.960,无脊椎动物AUC=0.874,真菌AUC=0.742;跨蛋白、跨细胞类型、跨物种泛化实验中MCC均保持较高水平,如人类GM12878中基于CTCF数据训练的模型能准确预测RAD21介导的环;可变表观信号实验中,模型在不同细胞类型、Hi-C分辨率、测序技术下均保持高预测性能,仅使用峰区域信息时精确召回曲线下面积(AUPRC)>0.8。
产品关联:文献为计算研究,未涉及实验试剂/仪器使用。


3.4 与现有方法的基准比较

实验目的:通过与现有染色质环预测方法的比较,验证CLAMP模型的性能优势。
方法细节:选取6种2021年后发表的开源染色质环预测模型(CapsNetYY1、ChINN、CLNN-loop、Deep-loop、DeepLUCIA、DLoopCaller),在Bacon金标准数据集、CLAMP对抗性数据集和Bacon-swap对称数据集上进行性能比较,评估指标包括AUC、MCC等。
结果解读:在Bacon数据集上,CLAMP在多数测试条件下AUC最高;在CLAMP对抗性数据集上,CLAMP显著优于其他模型,表明其能学习更具生物学相关性的相互作用模式;在Bacon-swap数据集上,CLAMP性能几乎无变化,而其他模型性能显著下降,表明其能有效处理染色质环锚定的对称性。
产品关联:文献为计算研究,未涉及实验试剂/仪器使用。

3.5 预训练模型的多任务泛化性分析

实验目的:验证CLAMP预训练模型的序列表示在其他基因组任务中的泛化性,证明其学习到的“基因组语法”的通用性。
方法细节:将预训练的CLAMP模型与线性层连接,在GenBench GUE数据集的7个基因组下游任务(启动子检测、核心启动子检测、转录因子预测、剪接位点检测、表观标记预测、新冠变异分类等)上进行评估,与DNABERT、DNABERT-2等现有DNA语言模型和传统CNN模型比较;同时分析模型的注意力机制,验证其对关键调控元件的识别能力。
结果解读:CLAMP在所有任务上的性能显著优于CNN,与现有DNA基础模型性能相当,在人类、小鼠等预训练包含的物种上表现最优,在酵母、病毒等未包含的物种上仅次于DNABERT-2,表明其学习到的序列表示具有广泛的通用性;注意力机制分析显示,CLAMP能准确识别CTCF结合位点、H3K4me3修饰区域、RNAPII结合位点等关键调控元件,证明其学习到了生物学相关的序列模式。
产品关联:文献为计算研究,未涉及实验试剂/仪器使用。

3.6 CoVE可解释性分析

实验目的:开发可解释性方法揭示CLAMP模型预测中不同特征的贡献及其上下文依赖性,解决深度学习模型的黑箱问题。
方法细节:开发CoVE(Coefficient of Variation Explainability)方法,通过分析模型中间层表示的对数变异系数来评估序列、表观信号和基因组距离特征的贡献和稳定性,引入高斯噪声评估特征的鲁棒性,开展特征消融实验验证特征的重要性。
结果解读:CoVE分析显示,特征贡献具有上下文依赖性,不同细胞类型、蛋白和物种中序列、表观信号和距离的贡献存在差异;序列和表观信号特征的稳定性得分>0.85,而距离特征稳定性较低,但特征消融实验显示距离特征的移除导致性能下降最显著,表明其是预测的关键特征;在小鼠ESC YY1数据集中,信号特征与预测结果的相关性最强,反映了局部染色质环境在YY1介导环形成中的主导作用。
产品关联:文献为计算研究,未涉及实验试剂/仪器使用。

3.7 功能通路富集分析

实验目的:验证CLAMP预测的高置信度染色质环的功能意义,揭示其在基因调控通路中的作用。
方法细节:选取人类三阴性乳腺癌(TNBC)细胞和20-HE处理的果蝇胚胎细胞,将CLAMP预测的高置信度环关联的基因进行KEGG通路富集分析,与传统方法识别的环关联基因的通路富集结果进行比较。
结果解读:CLAMP预测的高置信度环关联基因不仅富集到传统方法识别的核心通路(如TNBC中的“癌症中的MicroRNAs”),还能识别传统方法未发现的关键通路,如TNBC中的MAPK信号通路、果蝇中的TGF-beta信号通路,这些通路与疾病发生或发育过程密切相关,表明CLAMP能识别具有功能意义的染色质环。
产品关联:文献为计算研究,未涉及实验试剂/仪器使用。

3.8 CLAMP+平台开发

实验目的:开发用户友好的web平台,降低CLAMP工具的使用门槛,推动其在研究社区的广泛应用。
方法细节:基于PHP 8、HTML、CSS和JavaScript开发CLAMP+平台,包含DNA嵌入分析和染色质环预测两个核心模块,支持用户上传自定义表观信号文件,生成可下载的嵌入文件、统计报告和交互式可视化结果;上传的文件在报告生成后立即删除,保护用户隐私。
结果解读:CLAMP+平台提供了直观的图形界面,无需编程经验即可使用CLAMP的核心功能,为三维基因组研究提供了便捷的工具。
产品关联:文献为计算研究,未涉及实验试剂/仪器使用。

4. Biomarker研究及发现成果

本研究中的Biomarker为与染色质环形成相关的关键调控特征,包括DNA序列特征、表观遗传信号特征和基因组距离特征,通过预训练语言模型筛选、多模态整合验证和CoVE可解释性分析,揭示了这些特征在染色质环形成中的上下文依赖性贡献,为三维基因组调控机制研究提供了新的视角。

Biomarker定位:这些特征属于染色质环形成的调控Biomarker,筛选逻辑为通过跨物种染色质可及性数据预训练语言模型捕捉序列特征,整合表观信号和基因组距离特征进行多模态微调,通过泛化性实验、基准比较验证特征的有效性,通过CoVE分析揭示特征的贡献和稳定性。研究过程详述:特征来源为跨10个物种的染色质可及性数据和染色质环数据集,验证方法包括模型训练、泛化性评估、基准测试和可解释性分析,特异性与敏感性数据显示,CLAMP在不同物种、细胞类型、蛋白介导的预测中AUC和MCC均保持较高水平,如人类细胞中MCC>0.9,跨物种预测中哺乳动物AUC>0.990;CoVE分析显示序列和表观信号特征的稳定性得分>0.85,基因组距离特征虽稳定性较低,但对预测的贡献最关键。核心成果提炼:这些特征的功能关联在于共同调控染色质环的形成,进而影响基因表达和细胞功能;创新性在于首次基于染色质可及性语言模型系统揭示了这些特征在不同生物学上下文中的依赖性贡献,为染色质环形成的调控机制提供了计算视角;统计学结果显示,CLAMP在基准测试中的性能显著优于现有方法,如在CLAMP对抗性数据集上的AUC显著高于其他模型(文献未明确提供P值,基于图表趋势推测具有统计学显著性)。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。