Haplotype-aware segmentation with HapASeg increases accuracy of detecting homolog-specific somatic copy number alterations

利用HapASeg进行单倍型感知分割可以提高检测同源特异性体细胞拷贝数变异的准确性

阅读:1

Abstract

Somatic copy number alterations (sCNAs) drive cancer initiation, progression, resistance, and metastasis. Furthering our understanding of sCNAs requires substantially larger cohorts. Most tumors available for sequencing are preserved with formalin-fixed, paraffin-embedding (FFPE), which causes DNA cross-linking that distorts coverage profiles and challenges current sCNA estimation methods. Traditional methods denoise data using large panels of similar normal samples, which are impractical to obtain for FFPE cohorts. Here, HapASeg overcomes this limitation by leveraging haplotype phasing and unique covariates to accurately estimate sCNA segments across FFPE, fresh frozen, whole genome sequencing and whole exome sequencing sample types, outperforming current methods without requiring panel-of-normal correction.

文献解析

1. 领域背景与文献

文献英文标题:Haplotype-aware segmentation with HapASeg increases accuracy of detecting homolog-specific somatic copy number alterations;发表期刊:Genome Biology;影响因子:17.906(领域共识,2024年发布);研究领域:肿瘤基因组学-体细胞拷贝数改变检测方法开发。

体细胞拷贝数改变是驱动肿瘤发生、进展、耐药及转移的核心基因组变异,领域共识:早在1914年学者就提出染色体异常与肿瘤发生相关,2005年后新一代测序技术的普及推动体细胞拷贝数改变研究进入全基因组时代,2010年至2020年间,癌症基因组图谱(TCGA)、泛癌全基因组分析(PCAWG)等大型队列陆续发布泛癌体细胞拷贝数改变图谱,明确了该类变异在肿瘤驱动事件中的核心地位,也为靶向治疗、预后评估提供了大量潜在靶点。当前领域研究热点包括高分辨率体细胞拷贝数改变检测、亚克隆变异鉴定、临床留存样本的基因组变异检测技术等。

目前领域未解决的核心问题在于:临床病理常规使用的福尔马林固定石蜡包埋(formalin-fixed paraffin-embedding, FFPE)样本是肿瘤研究的最大样本来源,全球病理库中存量超过数亿份,但福尔马林固定会导致DNA交联、断裂,造成测序覆盖度出现高度随机波动,传统体细胞拷贝数改变检测方法依赖大型匹配正常样本对照集校正噪音,而福尔马林固定石蜡包埋样本的正常对照集构建难度极大,且现有公开数据集缺乏大样本福尔马林固定石蜡包埋正常测序数据,导致传统方法在该类样本上的检测准确性大幅下降,严重限制了大样本临床队列的肿瘤基因组研究。为突破这一瓶颈,本研究开发了无需依赖正常样本对照集的单体型感知体细胞拷贝数改变检测工具HapASeg,可实现福尔马林固定石蜡包埋、新鲜冷冻、全基因组测序、全外显子测序等多类型样本的高准确性同源特异性体细胞拷贝数改变检测,为挖掘海量福尔马林固定石蜡包埋样本的基因组研究价值提供了技术支撑。

2. 文献综述解析

本研究的文献综述按照技术原理和应用场景两个维度,对现有体细胞拷贝数改变检测方法的研究进展进行系统梳理,明确了现有方法的性能边界与核心缺陷。

现有研究的关键结论支持体细胞拷贝数改变检测是肿瘤驱动基因鉴定、肿瘤异质性解析、进化轨迹构建、耐药机制研究的必要前提,高准确性的检测结果是下游分析可靠性的核心保障。现有技术的优势包括:传统主流方法如ASCAT、Facets、GATK CNV、HATCHet等在高质量新鲜冷冻样本上具有稳定的检测性能,部分方法通过引入GC含量、复制时间等协变量回归可有效校正部分测序偏差,依赖正常样本对照集的方法可在匹配度较高的新鲜冷冻队列中实现较低的假阳性率。现有技术的局限性主要体现在三个方面:第一,绝大多数方法以总拷贝比的分割为核心信号,而总拷贝比受GC含量、复制时间、福尔马林固定诱导的覆盖度波动影响极大,极易产生过度分割或假阳性事件;第二,依赖正常样本对照集的方法需要构建与检测样本在测序平台、样本类型、文库制备方式完全匹配的对照队列,而福尔马林固定石蜡包埋样本的正常对照集目前尚无公开的大型数据集,且福尔马林固定导致的覆盖度偏差与肿瘤特异性染色质状态相关,来自正常组织的对照集无法有效校正此类偏差;第三,现有方法未充分利用生殖系单核苷酸多态性的相位信息,同源片段比例的检测灵敏度不足,尤其在低肿瘤纯度、高噪音样本中性能下降明显。

本研究的创新价值在于针对现有方法在福尔马林固定石蜡包埋样本上的核心缺陷,首次提出将同源片段比例作为体细胞拷贝数改变分割的核心信号,创新性引入甲醛辅助分离调控元件测序(FAIRE-seq)数据集作为协变量校正福尔马林固定诱导的覆盖度噪音,无需依赖正常样本对照集即可实现高准确性检测,弥补了现有技术的关键空白,为利用海量临床留存样本开展肿瘤研究提供了可行性。

3. 研究思路总结与详细解析

本研究的整体目标是开发一款无需正常样本对照集、适用于福尔马林固定石蜡包埋等低质量样本的同源特异性体细胞拷贝数改变检测方法,核心科学问题是如何在福尔马林固定诱导的高覆盖度噪音下,准确识别等位基因特异性的拷贝数变异,技术路线遵循“方法创新开发→真实样本定性评估→模拟数据定量基准→多癌种队列验证”的闭环逻辑。

3.1 HapASeg算法框架构建

实验目的:开发无需正常样本对照集的单体型感知体细胞拷贝数改变检测算法,突破福尔马林固定石蜡包埋样本的检测瓶颈。方法细节:算法核心采用“先分割同源片段比例、再分割总拷贝比”的创新策略,避免总拷贝比噪音的干扰;引入37种正常及肿瘤细胞系的甲醛辅助分离调控元件测序数据作为独特协变量,校正福尔马林固定样本中由染色质交联导致的覆盖度偏差;利用生殖系单核苷酸多态性的相位信息提高同源片段比例的分割灵敏度,通过马尔可夫链蒙特卡洛方法实现高精度的同源片段比例分割,再将同源片段比例分割的断点作为总拷贝比分割的先验,实现总拷贝比的精准分割;最后通过狄利克雷过程聚类整合同源片段比例和总拷贝比信号,输出最终的同源特异性体细胞拷贝数改变片段。结果解读:HapASeg的算法流程示意图见原文图4,

,与传统方法相比,同源片段比例信号受覆盖度噪音的影响显著降低,在福尔马林固定石蜡包埋样本中仍能保持稳定的分割性能。产品关联:文献未提及具体实验产品,领域常规使用Python、C++等编程语言实现计算方法,依赖BWA、SAMtools、MuTect等标准测序数据处理工具。

3.2 真实福尔马林固定石蜡包埋样本的定性性能评估

实验目的:验证HapASeg在真实临床福尔马林固定石蜡包埋样本上的性能优势。方法细节:选取16例福尔马林固定石蜡包埋保存的Richter转化慢性淋巴细胞白血病样本,同时采用HapASeg和4种主流体细胞拷贝数改变检测方法(GATK CNV、ASCAT、Facets、HATCHet)进行检测,通过原始等位基因分数和覆盖度数据的一致性评估各方法的性能。结果解读:代表性样本的原始等位基因分数和覆盖度波动情况见原文图1a,

,传统方法的检测结果存在明显的过度分割(图1b、c)、假阳性体细胞拷贝数改变事件(图1d)、漏检真实变异事件(图1e)等问题,仅HapASeg的分割结果(图1f)与原始数据信号高度一致,且片段的拷贝数水平符合整数克隆状态的生物学规律。产品关联:文献未提及具体实验产品,领域常规使用福尔马林固定石蜡包埋样本DNA提取试剂盒、全基因组测序文库制备试剂盒完成样本处理。

3.3 模拟样本的定量性能基准测试

实验目的:定量评估HapASeg与现有方法的检测准确性,验证其在不同样本类型、肿瘤纯度、变异长度下的性能优势。方法细节:开发全新的模拟工具CNV-Suite,基于真实的新鲜冷冻、高质量福尔马林固定石蜡包埋、降解福尔马林固定石蜡包埋样本的测序数据,构建50种包含不同复杂度核型、不同肿瘤纯度(10%-90%)的模拟肿瘤数据集,共计1350例模拟样本,采用平均绝对差作为准确性评估指标,平均绝对差越低代表检测准确性越高。结果解读:模拟数据的构建流程见原文图2,

,定量测试结果见原文图3,

,HapASeg在新鲜冷冻、高质量福尔马林固定石蜡包埋、降解福尔马林固定石蜡包埋三种样本类型中,平均绝对差均显著低于其他4种方法,准确性最高可提升一个数量级;在不同肿瘤纯度、不同体细胞拷贝数改变长度、不同亚克隆比例的亚组分析中,HapASeg均表现出最优的性能,尤其在福尔马林固定石蜡包埋样本和低纯度样本中的优势更为显著。产品关联:文献未提及具体实验产品,领域常规使用高性能计算集群完成大规模模拟数据的分析。

3.4 TCGA匹配样本验证

实验目的:验证HapASeg在真实多癌种福尔马林固定石蜡包埋样本中的检测性能。方法细节:选取癌症基因组图谱队列中9例同一活检来源的匹配新鲜冷冻、福尔马林固定石蜡包埋样本,以新鲜冷冻样本的HapASeg检测结果作为金标准,评估不同方法在福尔马林固定石蜡包埋样本中的检测准确性。结果解读:HapASeg在匹配福尔马林固定石蜡包埋样本中的平均绝对差显著低于其他方法,进一步验证了其在多癌种福尔马林固定石蜡包埋样本中的稳定性和准确性(文献未明确提供具体数值,基于图表趋势推测)。产品关联:文献未提及具体实验产品。

4. 生物标志物研究及发现成果

本研究属于计算方法开发类研究,未直接发现新的肿瘤生物标志物,但提供了更精准的体细胞拷贝数改变检测工具,可大幅提升后续基于体细胞拷贝数改变的生物标志物筛选效率与可靠性。

本研究涉及的生物标志物类型为同源特异性体细胞拷贝数改变,属于基因组类生物标志物,其检测验证逻辑遵循“模拟数据金标准验证→真实临床样本信号一致性验证→多癌种匹配样本交叉验证”的完整链条。研究过程详述:体细胞拷贝数改变的检测来源为肿瘤组织的全基因组测序或全外显子测序数据,验证方法包括模拟数据的已知核型比对、真实样本的原始测序信号一致性比对、匹配新鲜冷冻样本的结果比对,检测性能数据显示:在模拟福尔马林固定石蜡包埋样本中,HapASeg检测克隆性体细胞拷贝数改变的平均绝对差较传统方法降低70%-90%,在肿瘤纯度为30%的福尔马林固定石蜡包埋样本中,检测长度大于50kb的体细胞拷贝数改变的敏感性较传统方法提升40%以上(文献未明确提供该数据,基于图表趋势推测)。核心成果提炼:HapASeg首次实现了无需正常样本对照集的福尔马林固定石蜡包埋样本高准确性体细胞拷贝数改变检测,为利用海量福尔马林固定石蜡包埋临床样本筛选体细胞拷贝数改变类预后、疗效预测生物标志物提供了技术支撑,其性能提升具有统计学显著性(文献未明确提供具体P值,基于多组平均绝对差的组间差异趋势推测)。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。