Stratifying high-risk prediabetes clusters using blood-based epigenetic markers

利用基于血液的表观遗传标记对高危糖尿病前期人群进行分层

阅读:4

Abstract

BACKGROUND: Previously, we identified six prediabetes clusters, three at moderate and three at high-risk for type 2 diabetes and/or complications. While this novel classification could enable earlier and improved disease prevention, it relies on intensive clinical phenotyping. Here, we developed a machine learning workflow to identify blood-based epigenetic markers to distinguish between prediabetes clusters. METHODS: DNA methylation was profiled in blood cells of different cohorts including individuals that belong to clusters 2 (low-risk), 3, 5, and 6 (each high-risk) and data was subjected to a machine learning workflow. RESULTS: In a discovery cohort (n = 187), we identified 1,557 CpG sites as predictors for clusters 2, 3, 5, and 6. These CpGs were sufficient to distinguish between individuals belonging to the high-risk clusters 3, 5 and 6 in an independent replication cohort (n = 146) with an accuracy of 92%. Between 300 and 339 CpG sites were specific for each cluster and the corresponding genes linked to TGF-β receptor and calcium signaling (cluster 3), MAPK cascade and ECM organization (cluster 5), and Wnt/SMAD signaling (cluster 6), mirroring the metabolic deterioration observed in each cluster. CONCLUSIONS: Without the need for complex clinical measurements, the identified blood-based epigenetic signatures may improve the detection of individuals at high-risk of developing diabetes and complications and point to the potential molecular mechanism responsible for the heterogeneity in prediabetes. These markers highlight the potential of the blood epigenome as an effective proxy for predicting future complications and make extensive clinical assessments obsolete, enabling the identification of clusters in larger populations. SUPPLEMENTARY INFORMATION: The online version contains supplementary material available at 10.1186/s40364-025-00887-8.

文献解析

1. 领域背景与文献引入

文献英文标题:Blood-based epigenetic signatures distinguish prediabetes clusters at high risk of developing type 2 diabetes and complications;发表期刊:BMC Medical Genomics;影响因子:未明确提供;研究领域:糖尿病前期表观遗传学与风险分层

2型糖尿病(T2D)是全球前十位致死病因之一,其高死亡率主要源于心血管疾病、肾病等严重并发症,早期识别高风险个体并实施干预可延缓或预防疾病发生,降低临床与经济负担。领域共识:糖尿病前期是T2D发展的关键过渡阶段,针对该阶段的生物标志物筛查可提升早期干预效率。近年来,数据驱动的聚类策略揭示了糖尿病前期的异质性,研究人员将其划分为6个Tübingen糖尿病风险簇,其中簇3、5、6为高风险亚群(分别对应低β细胞功能、高胰岛素抵抗、高胰岛素分泌伴高肾病风险),但该分类依赖复杂的临床表型检测(如口服葡萄糖耐量试验、MRI体脂分析),难以在大规模临床场景中推广。同时,表观遗传学研究已证实血液DNA甲基化可作为T2D风险的生物标志物,但尚未针对糖尿病前期高风险亚群开展特异性标志物研究。因此,本研究旨在开发基于血液DNA甲基化的机器学习模型,无需复杂临床检测即可区分糖尿病前期高风险亚群,填补简便风险分层工具的研究空白,为早期精准干预提供支撑。

2. 文献综述解析

作者对领域内现有研究按技术方向分为三类:糖尿病前期风险分层的临床表型聚类研究、表观遗传标志物与T2D风险的关联研究、机器学习在表观遗传标志物筛选中的应用研究。现有研究的关键结论显示,临床表型聚类可精准划分糖尿病前期的异质性亚群,不同亚群的T2D及并发症风险存在显著差异;血液DNA甲基化等表观遗传标志物可稳定反映T2D的发病风险,且受环境因素影响可作为干预效果的潜在指标;机器学习算法能有效处理高维度的表观遗传数据,筛选出具有临床价值的特征标志物。技术方法优势方面,临床表型聚类直接基于代谢指标,能准确反映个体的代谢异质性;血液表观遗传检测仅需单次采血,具有良好的可及性和稳定性;机器学习可克服高维度数据的分析难点,提升标志物筛选的效率与特异性。但现有研究也存在局限性,临床表型聚类依赖的检测项目成本高、流程复杂,无法在常规临床中普及;多数表观遗传标志物研究聚焦于T2D整体风险,未针对糖尿病前期的亚群异质性开展分析;部分机器学习模型仅在单队列中验证,缺乏独立外部队列的可靠性验证。本研究的创新价值在于,首次将全基因组DNA甲基化检测与弹性网机器学习结合,针对已定义的糖尿病前期高风险亚群开发区分模型,无需依赖复杂临床表型数据,且在独立验证队列中实现了92.4%的区分准确率,填补了简便区分糖尿病前期高风险亚群的表观遗传标志物研究空白,为临床大规模风险分层提供了可行方案。

3. 研究思路总结与详细解析

本研究的整体框架为:以“识别可区分糖尿病前期高风险亚群的血液DNA甲基化标志物”为目标,围绕“不同糖尿病前期亚群是否存在特异性DNA甲基化特征”这一核心科学问题,构建“队列招募与亚群分类→全基因组甲基化检测→机器学习特征筛选→多队列验证→功能与关联分析”的完整研究闭环,最终筛选出具有高区分效能的甲基化标志物并解析其生物学意义。

3.1 研究队列构建与亚群分类

实验目的是建立包含不同糖尿病前期亚群的发现队列和独立验证队列,明确各亚群的临床代谢特征,为后续甲基化分析奠定基础。方法细节:从TUEF/TULIP、PLIS、IFIS三个糖尿病前期队列中,基于Tübingen糖尿病风险聚类标准选取个体,发现队列纳入187例(50例低风险簇2、42例高风险低β细胞功能簇3、45例高风险高胰岛素抵抗簇5、50例高风险高胰岛素分泌簇6),验证队列纳入146例高风险亚群个体;收集所有个体的临床代谢指标,包括BMI、内脏脂肪、肝内脂质、血糖、胰岛素敏感性等。结果解读:临床特征分析显示,簇5个体的BMI、内脏脂肪、肝内脂质及血糖、胰岛素水平均为各亚群最高(n=45,文献未明确P值),簇2个体的代谢指标最优(n=50),各亚群的特征与前期研究完全一致,确认了队列的可靠性。


产品关联:文献未提及具体实验产品,领域常规使用临床代谢检测设备(如血糖分析仪、MRI扫描仪)、样本存储系统等。

3.2 全基因组DNA甲基化检测与数据预处理

实验目的是获取各亚群个体血液细胞的全基因组DNA甲基化谱,并通过标准化处理消除技术与混杂因素的影响,确保后续分析的准确性。方法细节:从外周全血细胞中提取基因组DNA,经亚硫酸氢盐处理后,采用Illumina Infinium MethylationEPIC BeadChip(EPICv1.0/2.0)进行全基因组甲基化检测;使用R语言“meffil”和“ChAMP”包进行数据预处理,依次完成质量控制、背景校正、β-混合分位数归一化、批次效应校正(基于奇异值分解SVD)、细胞组成校正,以及年龄和性别校正(ComBat方法);过滤甲基化水平<5%或>95%的低变异性CpG位点,最终保留442,248个CpG位点用于后续分析。结果解读:预处理后的数据以β值(0-1,0表示未甲基化,1表示完全甲基化)表示甲基化水平,有效消除了技术批次、年龄、性别等混杂因素的干扰,为特征筛选提供了可靠的数据集。
产品关联:实验所用关键产品:Illumina的Infinium MethylationEPIC BeadChip(EPICv1.0/2.0)。

3.3 机器学习特征筛选与稳定标志物识别

实验目的是从高维度的甲基化数据中筛选出可有效区分糖尿病前期亚群的特异性CpG标志物,解决高维度数据的噪声问题。方法细节:采用弹性网(E-net)正则化进行特征选择,将发现队列按7:3比例随机分为训练集和测试集,重复该拆分过程1000次以稳定特征筛选结果;对每个训练集进行E-net逻辑回归分析,通过5折交叉验证确定最优正则化参数λ,网格搜索确定L1/L2范数混合因子α;保留所有准确率>80%的模型中的特征,选取在至少10%的模型中出现的CpG作为稳定标志物。结果解读:1000次模型训练的准确率均>80%,最终筛选出1557个稳定的CpG标志物;这些标志物在发现队列中区分各亚群的准确率>95%,敏感性和特异性均>0.95(n=187,文献未明确P值),表明其具有优异的亚群区分能力。
产品关联:文献未提及具体实验产品,领域常规使用R语言glmnet包进行弹性网分析。

3.4 标志物验证与亚群区分效能评估

实验目的是验证筛选出的CpG标志物在独立队列中的区分效能,并分析其与临床代谢指标的相关性,确认标志物的临床意义。方法细节:在发现队列和验证队列中,基于1557个CpG的甲基化水平,采用围绕中心点划分(PAM)聚类方法,比较聚类结果与实际亚群分类的一致性;通过Spearman相关性分析,检测标志物与临床代谢指标的关联。结果解读:发现队列中聚类与实际亚群的一致性准确率为78.07%(n=187),验证队列中准确率达92.4%(n=146);相关性分析显示,1512个CpG与至少1项临床代谢指标显著相关(如882个CpG与Matsuda胰岛素敏感性指数相关,P<0.05),表明标志物能准确反映各亚群的代谢特征。



产品关联:文献未提及具体实验产品,领域常规使用R语言cluster包进行PAM聚类分析。

3.5 标志物功能注释与疾病关联分析

实验目的是解析亚群特异性CpG标志物的生物学功能,关联其与T2D及并发症的潜在发病机制。方法细节:对各亚群的特异性CpG标志物(簇2:317个、簇3:300个、簇5:316个、簇6:349个)进行基因本体(GO)富集分析;将1557个标志物与MRC-IEU表观基因组全关联研究(EWAS)数据库比对,分析其与T2D及并发症的关联。结果解读:GO富集分析显示,簇3的标志物关联转化生长因子-β(TGF-β)受体信号负调控、钙离子响应等通路(P<0.05),簇5的标志物关联丝裂原活化蛋白激酶(MAPK)信号、细胞外基质组织等通路(P<0.05),簇6的标志物关联Wnt/SMAD信号等通路(P<0.05);EWAS比对显示,373个CpG与T2D发病、肾病、心脏病等疾病相关(如160个CpG与T2D发病相关),表明标志物与疾病的潜在发病机制直接相关。


产品关联:文献未提及具体实验产品,领域常规使用DAVID工具进行GO富集分析。

4. Biomarker研究及发现成果解析

Biomarker定位

本研究识别的Biomarker为外周全血细胞中的1557个DNA甲基化CpG位点,涵盖糖尿病前期低风险与高风险亚群的区分标志物,以及3个高风险亚群(簇3、5、6)的特异性标志物。筛选逻辑为“全基因组甲基化检测→弹性网机器学习特征筛选→多队列PAM聚类验证”,验证逻辑为“发现队列筛选→独立验证队列效能验证→临床代谢指标关联分析→EWAS数据库疾病关联验证”,形成了完整的筛选与验证链条。

研究过程详述

该Biomarker的来源为糖尿病前期个体的外周全血细胞基因组DNA,检测采用Illumina Infinium MethylationEPIC BeadChip进行全基因组甲基化分析;验证方法包括:在独立验证队列中通过PAM聚类验证区分效能,Spearman相关性分析验证与临床代谢指标的关联,GO富集分析解析生物学功能,EWAS数据库比对验证与疾病的关联。特异性与敏感性方面,在验证队列中区分高风险亚群的准确率达92.4%(n=146),发现队列中区分各亚群的敏感性和特异性均>0.95(n=187),具有优异的亚群区分能力。

核心成果提炼

该1557个CpG标志物可有效区分糖尿病前期低风险与高风险亚群,以及不同的高风险亚群(簇3、5、6);各高风险亚群的特异性标志物关联不同的疾病通路,如簇3的标志物关联TGF-β信号通路(与肾病、心血管疾病发病相关),簇5的标志物关联MAPK信号通路(与胰岛素抵抗、脂肪肝相关),簇6的标志物关联Wnt/SMAD信号通路(与肾病相关),为各亚群的并发症风险提供了分子层面的解释。本研究首次在独立队列中验证了基于血液DNA甲基化的糖尿病前期高风险亚群区分模型,准确率达92.4%(n=146,文献未明确P值),无需依赖复杂的临床表型检测,为临床大规模开展糖尿病前期风险分层提供了简便、高效的工具,有望推动早期精准干预的普及。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。