【文献解析】血液全基因组DNA甲基化对成人身高表型变异的捕获能力研究

1. 领域背景与文献引入

文献英文标题:Genome-wide blood DNA methylation captures variation in adult height; 发表期刊:未明确提及; 影响因子:未公开; 研究领域:表观遗传学与人类数量性状(身高)研究

成人身高是人类遗传力最高的数量性状之一,领域共识:其加性遗传贡献约为80%,近年来全基因组关联研究(GWAS)已在540万多样本中鉴定出12111个独立关联的单核苷酸多态性(SNP),可解释欧洲血统人群40%的身高表型变异。但身高仍有20%的非遗传变异无法通过遗传研究解释,环境因素如营养、社会经济状态、产前母亲体重等在儿童早期对身高影响显著,而遗传贡献随年龄增长逐渐升高,在青春期达到峰值。DNA甲基化(DNAm)是同时受遗传和环境调控的表观修饰,已被证实与吸烟、体重指数(BMI)、营养等外部暴露相关,部分身高相关基因的DNAm变异被认为介导了环境对身高的影响,但既往小样本研究中,DNAm被认为是身高的“无效性状(null trait)”,即无法捕获身高的表型变异,如Shah等构建的甲基化评分(MPS)几乎不解释身高变异,Zhang等的联合模型中DNAm未捕获任何身高方差,这一结论限制了表观遗传学在身高研究中的探索。针对这一研究空白,本研究依托大样本人群队列,采用先进的方差成分分析方法,系统评估血液全基因组DNAm对成人身高表型变异的捕获能力,同时构建MPS并验证其预测效能,为表观遗传学在身高及其他复杂性状研究中的应用提供新证据。

2. 文献综述解析

作者围绕“身高的遗传与环境调控”“DNAm与复杂性状的关联”“DNAm与身高的既往研究”三个维度对领域内研究进行分类评述,明确现有研究的进展与局限性,引出本研究的必要性。

遗传调控方面,现有GWAS研究已极大拓展了对身高遗传基础的认知,鉴定出大量关联SNP,解释了部分身高变异,但仍无法覆盖非遗传调控部分,环境因素的作用机制尚未完全阐明,尤其是表观修饰作为遗传与环境交互的桥梁,其在身高调控中的作用未被充分揭示。DNAm与复杂性状的关联研究中,DNAm已被证实与多种疾病和性状相关,但其对高遗传力数量性状的调控作用仍存在争议,部分研究认为DNAm对这类性状的变异捕获能力极弱。针对DNAm与身高的既往研究,Shah等的小样本研究显示MPS几乎不解释身高变异,Zhang等的联合模型中DNAm未捕获身高方差,因此身高被认为是DNAm的“无效性状”,但这些研究均存在样本量较小、分析方法单一的局限性,无法充分反映DNAm对身高变异的真实捕获能力。

本研究的创新点在于,采用7654人的大样本队列,同时运用BayesR+和OREML两种稳健的方差成分分析方法,同时考虑遗传与DNAm的交互作用,构建MPS并在三个独立队列中验证,还通过表型全关联分析(PheWAS)探索相关影响因素,首次在大样本中证明DNAm可独立于遗传因素捕获身高的表型变异,挑战了既往“无效性状”的结论,为表观遗传学在高遗传力数量性状研究中的应用提供了新的研究范式。

3. 研究思路总结与详细解析

本研究以“明确血液全基因组DNAm对成人身高表型变异的捕获能力”为核心目标,围绕“DNAm是否能独立于遗传因素捕获身高变异”这一科学问题,采用“大样本队列方差成分分析→MPS构建与独立验证→PheWAS机制探索”的闭环技术路线,通过两种稳健的统计方法验证结果可靠性,系统解析DNAm与身高的关联及潜在影响因素。

3.1 研究队列构建与数据预处理

实验目的是建立标准化的研究队列,确保身高、DNAm及基因型数据的质量,为后续分析提供可靠基础。方法细节:选取Generation Scotland(GS)队列中7654名无关个体作为发现队列,同时纳入LBC1936(n=861)、LBC1921(n=435)、ALSPAC(n=5628)三个独立队列作为验证队列;身高测量精确到0.5厘米,通过线性回归调整年龄、年龄平方及性别,将回归残差作为后续分析的因变量;血液DNAm采用Illumina EPIC芯片检测,预处理阶段调整年龄、性别、检测批次、玻片、细胞类型比例及表观预测吸烟状态;基因型数据经过质量控制后,基于遗传关系矩阵(GRM<0.05)筛选无关样本。结果解读:GS队列中56.3%为女性,平均年龄51.6岁,平均身高168.0厘米,数据校正后消除了混杂因素的影响,队列特征符合研究要求;三个验证队列覆盖不同年龄段,为MPS的泛化性验证提供了全面的人群基础。产品关联:文献未提及具体实验产品,领域常规使用Illumina EPIC甲基化芯片、全基因组分型平台及R、Python等统计分析工具。

3.2 方差成分分析与甲基化关联位点筛选

实验目的是量化DNAm与遗传因素对身高表型变异的解释比例,筛选与身高独立相关的DNAm位点,明确DNAm作用的独立性。方法细节:采用BayesR+贝叶斯惩罚回归模型,将DNAm探针和SNP的效应值建模为混合正态分布,包含零效应的离散峰以允许效应稀疏性,同时估计两者对身高变异的贡献;采用基于组学的限制性最大似然法(OREML)作为敏感性分析,分别调整身高多基因评分(PGS)、DNAm与遗传主成分、苏格兰多重剥夺指数(SIMD)等混杂因素;筛选后验包含概率(PIP)>95%的DNAm关联位点,查询其甲基化数量性状位点(mQTL)及表观基因组关联研究(EWAS)数据库中的既往关联。结果解读:BayesR+分析显示,DNAm单独可捕获28.9%的身高表型变异(95%可信区间(CrI)20.4–36.5,n=7654),SNP单独可捕获56.3%(95% CrI 45.8–66.8,n=7654);在同时纳入DNAm和SNP的联合模型中,DNAm仍可独立捕获25.0%的变异(95% CrI 17.2–31.9,n=7654),SNP捕获55.3%,两者联合共捕获80.3%的身高表型变异(95% CrI 70.1–87.2,n=7654);OREML分析结果与BayesR+高度一致,调整PGS后,DNAm仍可捕获21.4%的身高变异(95% CrI 14.0–30.7,n=7654),进一步证实DNAm作用的独立性;筛选到2个PIP>95%的DNAm位点(cg07386640、cg09612304),均位于长非编码RNA区域,且均存在mQTL,其中cg09612304的mQTL位于已知的身高相关SNP区域,EWAS数据库显示这两个位点与慢性阻塞性肺疾病(COPD)、C反应蛋白(CRP)、吸烟等表型相关。


产品关联:文献未提及具体实验产品,领域常规使用BayesR+、OSCA等生物信息学分析软件。

3.3 甲基化评分(MPS)构建与独立队列验证

实验目的是基于发现队列的DNAm效应值构建MPS,验证其在独立队列中对身高的预测能力,评估其泛化性与临床应用潜力。方法细节:利用BayesR+联合模型中得到的DNAm探针平均后验效应值,构建加权线性MPS,并将其转换为与身高一致的厘米尺度;在三个独立队列中,计算MPS与实测身高的Pearson相关系数,评估MPS的增量决定系数(R²);同时比较MPS与身高PGS的联合预测能力,分析MPS与demi-span、头围、握力、肺功能等身高替代指标的关联,排除混杂因素的影响。结果解读:MPS与身高在LBC1936队列中的相关系数为0.26(p=1.8×10⁻⁴,n=861),LBC1921队列为0.18(p=2.2×10⁻¹⁴,n=435);ALSPAC队列中,7岁时相关系数为0.21(p=1.9×10⁻¹⁰,n=5628),24岁时为0.23(p<3.2×10⁻¹⁰,n=5628),提示MPS在不同年龄段均与身高相关;MPS的增量R²在LBC1936为1.0%(p=9.2×10⁻⁶,n=861),加入GIANT PGS后降至0.5%(p=5.5×10⁻⁵,n=861),说明MPS具有独立于遗传评分的预测能力;MPS与demi-span(身高替代指标)相关,但与头围、握力、肺功能无显著关联,提示MPS未捕获认知或肌肉功能相关的混杂变异,特异性指向身高相关的表观遗传调控。


产品关联:文献未提及具体实验产品,领域常规使用R、Python等统计分析工具进行评分构建与验证。

3.4 表型全关联分析(PheWAS)

实验目的是探索与MPS相关的健康和生活方式因素,解析DNAm与身高关联的潜在机制,明确环境暴露在其中的作用。方法细节:在LBC1936队列中,将MPS与20种表型(涵盖健康生活方式、肺功能、身高替代指标)进行年龄和性别校正的线性回归,采用Bonferroni校正(p<0.0025)筛选显著关联因素;同时,联合调整所有健康生活方式因素及GIANT PGS,评估MPS对身高的预测能力变化。结果解读:Bonferroni校正后,MPS与教育年限、父亲职业等级、剥夺指数、当前吸烟状态显著相关(p<0.0025,n=861),其中当前吸烟状态与MPS相关但与实测身高无关,提示DNAm可能捕获了吸烟对身高的长期潜在影响;联合调整所有健康生活方式因素后,MPS仍可显著预测身高(p=3.5×10⁻³,增量R²=0.05%,n=861),加入GIANT PGS后,MPS的预测效能略有下降但仍显著(p=0.02,增量R²=0.02%,n=861),进一步证实MPS的独立预测能力。产品关联:文献未提及具体实验产品,领域常规使用PheWAS分析流程及统计软件完成关联分析。

4. Biomarker研究及发现成果解析

本研究涉及的Biomarker包括两个与身高独立相关的DNA甲基化位点(cg07386640、cg09612304)及基于全基因组DNAm构建的甲基化评分(MPS),通过“大样本队列筛选→独立验证→机制探索”的完整逻辑链条,明确了这些Biomarker在身高调控中的作用与应用潜力。

Biomarker定位:两个DNAm位点通过BayesR+分析筛选得到,后验包含概率(PIP)>95%,与身高独立相关;MPS基于全基因组DNAm探针的效应值构建,可在独立队列中预测身高。筛选与验证逻辑为:先在GS大样本队列中通过方差成分分析确定DNAm对身高变异的捕获能力,筛选关联位点;再在三个独立队列中验证MPS的预测效能;最后通过PheWAS分析相关影响因素。

研究过程详述:Biomarker均来源于血液样本的DNAm芯片数据,两个位点的验证方法包括查询mQTL数据库确认其遗传关联,查询EWAS数据库确认其与其他表型的关联;MPS的验证通过计算与实测身高的相关系数、增量R²等指标,评估其特异性与敏感性,结果显示MPS在LBC1936的增量R²为1.0%(n=861,p=9.2×10⁻⁶),在ALSPAC 7岁时增量R²为3.6%(n=5628,p=1.9×10⁻¹⁰);两个位点的mQTL分析显示,cg09612304的mQTL位于身高相关SNP区域,cg07386640的mQTL与身高无关,提示部分位点可能同时介导遗传与环境对身高的影响。

核心成果提炼:两个DNAm位点是首次在大样本中发现的与身高独立相关的表观遗传标记,其与COPD、吸烟等表型的关联提示身高与疾病的表观遗传调控可能存在共同通路;MPS可在不同年龄段的独立队列中预测身高,其与健康生活方式因素的关联提示DNAm可能捕获了早期环境暴露对身高的长期影响,作为身高的表观学生物标志物,MPS有望为身高的早期干预提供新的靶点;统计学结果显示,DNAm可独立捕获25.0%的身高表型变异(95% CrI 17.2–31.9,n=7654),MPS与身高的相关系数在各队列均具有统计学显著性(p<0.05)。推测:随着样本量的进一步扩大,MPS的预测效能将显著提升,有望成为身高及相关疾病风险评估的辅助生物标志物,为个性化健康管理提供依据。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。