Identification of risk variants related to malignant tumors in children with birth defects by whole genome sequencing

通过全基因组测序鉴定与先天缺陷儿童恶性肿瘤相关的风险变异

阅读：2

作者：Liu,Yichuan,Qu,Hui-Qi,Chang,Xiao,Mentch,Frank D,Qiu,Haijun,Nguyen,Kenny,Wang,Xiang,Saeidian,Amir Hossein,Watson,Deborah,Glessner,Joseph,Hakonarson,Hakon

期刊：	Biomarker Research	影响因子：	11.500
时间：	2022	起止号：	2022 Nov 16;10(1):84
doi：	10.1186/s40364-022-00431-y	研究方向：	肿瘤

Abstract

BACKGROUND: Children with birth defects (BD) are more likely to develop cancer and the increased risk of cancer persists into adulthood. Prior population-based assessments have demonstrated that even non-chromosomal BDs are associated with at least two-fold increase of cancer risk. Identification of variants that are associated with malignant tumor in BD patients without chromosomal anomalies may improve our understanding of the underlying molecular mechanisms and provide clues for early cancer detection in children with BD. METHODS: In this study, whole genome sequencing (WGS) data of blood-derived DNA for 1653 individuals without chromosomal anomalies were acquired from the Kids First Data Resource Center (DRC), including 541 BD probands with at least one type of malignant tumors, 767 BD probands without malignant tumor, and 345 healthy family members who are the parents or siblings of the probands. Recurrent variants exclusively seen in cancer patients were selected and mapped to their corresponding genomic regions. The targeted genes/non-coding RNAs were further reduced using random forest and forward feature selection (ffs) models. RESULTS: The filtered genes/non-coding RNAs, including variants in non-coding areas, showed enrichment in cancer-related pathways. To further support the validity of these variants, blood WGS data of additional 40 independent BD probands, including 25 patients with at least one type of cancers from unrelated projects, were acquired. The counts of variants of interest identified in the Kid First data showed clear deviation in the validation dataset between BD patients with cancer and without cancer. Furthermore, a deep learning model was built to assess the predictive abilities in the 40 patients using variants of interest identified in the Kids First cohort as feature vectors. The accuracies are ~ 75%, with the noteworthy observation that variants mapped to non-coding regions provided the highest accuracy (31 out of 40 patients were labeled correctly). CONCLUSION: We present for the first time a panorama of genetic variants that are associated with cancers in non-chromosomal BD patients, implying that our approach may potentially serve for the early detection of malignant tumors in patients with BD.

文献解析

1. 领域背景与文献引入

文献英文标题：Identification of risk variants related to malignant tumors in children with birth defects by whole genome sequencing；发表期刊：Biomarker Research；影响因子：未公开；研究领域：出生缺陷与儿童恶性肿瘤的基因组学关联研究。

根据美国疾病控制与预防中心（CDC）数据，每33名活产婴儿中约1名患有出生缺陷（BD），BD不仅导致长期残疾，还显著增加儿童恶性肿瘤风险：染色体异常BD儿童的癌症风险是无BD儿童的11倍，非染色体异常BD儿童的风险也增加2.5倍。尽管风险已被证实，但BD儿童癌症发生的分子机制仍不明确——现有研究多聚焦于编码区变异，忽略非编码区，且缺乏大样本验证，导致非染色体异常BD儿童中缺乏与恶性肿瘤相关的特异性遗传变异及生物标志物，限制了早期风险评估与干预。

针对这一空白，本研究通过全基因组测序（WGS）分析大样本BD儿童队列的基因组变异，旨在鉴定非染色体异常BD儿童中与恶性肿瘤相关的风险变异，揭示其分子通路，并评估这些变异作为生物标志物的预测价值，为BD儿童癌症的早期检测提供理论依据。

2. 文献综述解析

作者对现有研究的评述围绕“BD与儿童癌症的关联及分子机制”展开，核心逻辑为：现有研究证实BD儿童癌症风险增加，但未系统解析分子变异，尤其是非编码区的作用。具体分为三个维度：一是风险特征，非染色体异常BD儿童的癌症风险虽低于染色体异常者，但因基数大仍需关注；二是共同通路，如Wnt信号通路可能参与细胞生长与信号转导，但相关研究较少；三是研究局限，多聚焦编码区，缺乏大样本验证。

作者指出，现有研究的核心不足是“未鉴定BD儿童癌症相关的遗传变异，尤其是非编码区”。本研究的创新点在于：（1）使用目前最大的BD与儿童癌症队列（n=1653），覆盖编码与非编码基因组区域；（2）结合机器学习算法（随机森林+向前特征选择）筛选高相关性变异；（3）通过独立队列（n=40）验证变异的预测价值，弥补了现有研究的不足。

3. 研究思路总结与详细解析

本研究的整体框架为“队列构建→WGS变异检测→风险变异筛选→功能富集→独立队列验证→预测模型构建”，围绕“鉴定BD儿童癌症相关风险变异”的核心问题，通过“发现-验证”闭环解析变异的生物学意义及预测价值。

3.1 队列构建与表型分类

实验目的：建立发现队列与验证队列，明确研究对象的表型（BD、癌症）及人口学特征。

方法细节：发现队列来自Kids First数据资源中心，纳入1653名无染色体异常个体，包括541名BD+恶性肿瘤先证者（BD+癌组）、767名无恶性肿瘤的BD先证者（BD-癌组）及345名健康亲属（父母/兄弟姐妹）；验证队列来自TOPMed项目，纳入40名独立BD先证者（25名BD+癌、15名BD-癌）。所有对象的BD与癌症诊断基于ICD-9/ICD-10编码，且获得知情同意。

结果解读：明确了队列的表型分布（如BD+癌组的癌症类型）及人口学特征（性别、种族）（Fig1），为后续分析提供可靠基础。

3.2 全基因组测序与变异检测

实验目的：获取研究对象的全基因组变异数据，并进行注释分类。

方法细节：发现队列的血液DNA进行30×覆盖度WGS，使用Illumina DRAGEN平台比对至GRCh38/hg38基因组，生成变异调用格式（VCF）文件；验证队列的VCF文件直接从TOPMed数据库获取。使用ANNOVAR软件注释变异，按基因组位置分为编码区、非编码区（内含子、UTR、非编码RNA）及基因间区三类。

结果解读：成功获得所有对象的WGS变异数据，明确了不同区域的变异分布，为后续筛选奠定基础。

实验所用关键产品：文献未提及具体实验产品，领域常规使用Illumina测序平台、DRAGEN分析软件及ANNOVAR注释工具。

3.3 风险变异筛选与特征选择

实验目的：筛选仅在BD+癌组中富集的复发变异，并通过机器学习减少特征数量。

方法细节：首先筛选“在BD+癌组出现≥3次、且在BD-癌组及健康亲属中无出现”的变异（定义为“风险变异”）；再将风险变异映射至对应的基因/非编码RNA，以变异计数为“权重”。使用随机森林算法计算基因/非编码RNA的相对重要性（去除重要性<1e-5的特征），再通过向前特征选择（ffs）筛选对预测贡献最大的特征。

结果解读：共筛选出158493个风险变异，映射至611个编码区基因、1829个非编码区基因/非编码RNA及1719个基因间区基因/非编码RNA，显著减少了分析维度。

3.4 功能富集分析

实验目的：解析风险变异相关基因/非编码RNA的生物学功能及通路。

方法细节：使用WebGestalt工具对筛选后的基因/非编码RNA进行功能富集分析，涵盖GO、KEGG、Wiki Pathways等数据库，重点分析癌症相关通路。

结果解读：风险变异相关基因/非编码RNA显著富集于癌症通路（Fig2）：编码区基因富集于“黏着斑激酶通路”（FDR=0.029，参与细胞增殖）、“miRNA靶标-细胞外基质通路”（FDR=0.0013，参与肿瘤转移）；非编码区基因富集于“谷氨酸能突触”（FDR=1.66e-6，与胶质瘤进展相关）、“Hippo信号通路”（FDR=6.52e-10，调控细胞周期）。这些通路直接关联肿瘤发生的核心过程。

3.5 验证队列的变异负荷验证

实验目的：验证发现队列的风险变异在独立人群中的富集情况。

方法细节：统计验证队列中BD+癌组与BD-癌组的风险变异计数，绘制箱线图比较两组差异。

结果解读：验证队列中，BD+癌组的风险变异计数显著高于BD-癌组（Fig3），与发现队列模式一致，提示风险变异具有跨人群的稳定性。

3.6 深度学习模型的预测性能评估

实验目的：评估风险变异作为生物标志物的预测准确性。

方法细节：使用Scikit-learn的多层感知器（MLP）构建模型，以发现队列的风险变异计数为特征，对验证队列的40名患者进行“BD+癌/BD-癌”分类。分别评估编码区、非编码区、基因间区变异的预测准确率，再通过“多数投票”整合结果。

结果解读：非编码区变异的预测准确率最高（77.5%，31/40），编码区为75%（30/40），基因间区为72.5%（29/40）；整合后准确率提升至80%（32/40），且错误预测均为BD-癌患者（Fig4），提示风险变异对癌症的预测更具特异性。

4. Biomarker 研究及发现成果解析

本研究的Biomarker为“BD儿童中与恶性肿瘤相关的基因组风险变异”，涵盖编码区、非编码区及基因间区变异，筛选逻辑为“发现队列中BD+癌组特有→机器学习筛选→独立队列验证”，形成完整的“筛选-验证”链条。

Biomarker定位

Biomarker类型为“基因组变异”（包括编码与非编码区），筛选逻辑：（1）发现队列中仅BD+癌组富集的复发变异（出现≥3次）；（2）映射至基因/非编码RNA，通过随机森林+ffs筛选高重要性特征；（3）独立队列验证变异负荷差异，确认其与癌症的相关性。

研究过程详述

Biomarker来源为BD儿童的血液WGS数据，验证方法包括：（1）独立队列的变异负荷分析（BD+癌组的变异计数显著更高）；（2）深度学习模型预测（准确率~75%）。特异性与敏感性：非编码区变异的预测准确率为77.5%（31/40），整合后达80%（32/40），其中对BD+癌的预测错误率极低（仅1名BD+癌患者被误判）。

核心成果提炼

功能关联：风险变异相关基因/非编码RNA富集于癌症核心通路（如谷氨酸能突触、Hippo信号），提示这些变异可能通过调控细胞增殖、迁移促进癌症发生。
创新性：首次系统鉴定非染色体异常BD儿童中与恶性肿瘤相关的非编码区变异，并证实其预测价值——非编码区变异的预测准确率高于编码区（77.5% vs 75%）。
预测价值：整合编码与非编码区变异后，预测准确率达80%，且错误预测主要为BD-癌患者，提示这些变异对癌症的预测更具特异性。

统计学结果：发现队列n=1653，验证队列n=40；非编码区变异预测准确率77.5%（31/40），整合后80%（32/40）。

本研究通过大样本WGS与机器学习，首次解析了BD儿童癌症相关的非编码区变异，为BD儿童癌症的早期风险评估提供了新型生物标志物，也为理解BD与癌症的共同分子机制提供了新视角。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用；引用内容仅为补充信息，不代表本站立场。

2、若认为本页面引用内容涉及侵权，请及时与本站联系，我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容，需注明“来源：[生知库]”并获得授权；使用引用内容的，需自行联系原作者获得许可。

4、投稿及合作请联系：info@biocloudy.com。