【文献解析】长读长从头转录组组装工具用于差异表达分析的综合基准测试

1. 领域背景与文献

文献英文标题:Comprehensive benchmarking of long-read de novo transcriptome assembly tools for differential expression analysis;发表期刊:Genome Biology;影响因子:未公开;研究领域:转录组学、生物信息学(长读长从头转录组组装与差异表达分析)

转录组组装是解析RNA测序数据的核心步骤,主要分为参考引导组装和从头组装两类。参考引导组装依赖高质量参考基因组,能准确鉴定转录本,但在缺乏参考基因组的非模式物种或基因组注释不完善的样本中应用受限;从头组装无需参考基因组,可直接从RNA测序reads重建转录组,为非模式物种研究和复杂样本(如癌症转录组)分析提供了可能。短读长测序技术推动了从头转录组组装的发展,但其存在无法直接捕获完整转录本结构的局限,难以准确鉴定可变剪接和融合基因。长读长测序技术(Pacific Biosciences、Oxford Nanopore Technologies)可直接测序全长转录本,解决了短读长的局限,为获得更完整的转录组结构提供了技术支撑。随着长读长测序的普及,多种长读长从头转录组组装工具被开发,如RATTLE、RNA-Bloom2、isONform,但目前缺乏针对这些工具在差异表达分析中的系统基准测试,现有研究多聚焦于短读长组装工具或长读长参考引导组装工具,对长读长从头组装工具的计算效率、组装质量、定量准确性及下游差异表达分析性能的综合评估仍存在空白。因此,本文旨在通过多数据集的综合测试,确定最优的长读长从头转录组组装工作流,为缺乏参考基因组的样本的差异表达分析提供方法学指导。

2. 文献综述解析

本文综述部分按转录组组装工具的技术类型(短读长从头组装、长读长参考引导组装、长读长从头组装、混合组装)进行分类评述,系统梳理了各类工具的发展现状、优势与局限性,并明确了当前研究的空白,为本文的基准测试研究奠定了基础。

短读长从头组装工具以Trinity为代表,其算法成熟,在非模式物种研究中广泛应用,能有效重建转录组,但由于短读长的固有局限,无法直接获得完整的转录本结构,组装得到的转录本多为片段化,难以准确鉴定可变剪接事件。长读长参考引导组装工具如Bambu、StringTie2、IsoQuant等,依托参考基因组能准确鉴定已知和新颖转录本,组装质量高,但依赖高质量的参考基因组和注释信息,在非模式物种中无法应用。长读长从头组装工具包括RATTLE、RNA-Bloom2、isONform,无需参考基因组即可重建转录组,为非模式物种研究提供了可能,但现有工具存在计算效率低、组装冗余度高、准确性不足等问题,且不同工具的性能差异较大。混合组装工具如RNA-Bloom2-hybrid、rnaSPAdes,理论上结合了短读长的高准确性和长读长的长片段优势,但当前工具未充分利用两者的互补优势,性能未达到预期。

现有基准测试研究主要集中在短读长组装工具的比较,或长读长参考引导组装工具的评估,针对长读长从头组装工具的基准测试较少,且未系统评估其对下游差异表达分析的影响,也缺乏对混合组装与单一测序技术组装性能的全面比较。本文的创新点在于,首次综合评估了三种主流长读长从头组装工具(RATTLE、RNA-Bloom2、isONform)在多种数据集(模拟数据、人类癌症细胞系数据、豌豆非模式物种数据、单细胞数据)上的计算效率、组装质量、定量准确性,以及对下游差异基因表达(DGE)、差异转录本表达(DTE)、差异转录本使用(DTU)分析的影响;同时比较了混合组装与单一长读长、短读长组装的性能,为长读长从头转录组组装用于差异表达分析提供了全面的方法学指导。

3. 研究思路总结与详细解析

本文的研究目标是系统评估长读长从头转录组组装工具在差异表达分析中的性能,确定最优的长读长从头组装工作流;核心科学问题是明确不同长读长从头组装工具在不同实验场景下的优势与局限,以及对下游差异表达分析结果的影响;技术路线为:选择代表性组装工具→构建多样化测试数据集→评估工具的计算效率、组装质量、定量准确性→开展下游差异表达分析并评估性能→比较混合组装与单一技术组装的性能→总结最优工作流并提出未来改进方向。

3.1 数据集构建与预处理

实验目的:构建覆盖不同测序技术、物种、测序深度、样本类型的多样化数据集,为全面评估组装工具的性能提供丰富的实验场景。
方法细节:构建了5类数据集:1. 模拟ONT cDNA数据,基于GTEx v9的广泛表达转录本生成,设置对照组和扰动组,模拟长读长和匹配总碱基数的短读长数据;2. 人类癌症细胞系的PCR-cDNA测序数据,包括HCC827、NCI-H1975细胞系,下采样为12M、30M、60M reads三个深度,并包含sequin spike-in;3. 人类癌症细胞系的直接RNA测序数据,包括A549、MCF7细胞系;4. 豌豆(非模式物种)的PCR-cDNA测序数据,涵盖两个品种;5. PacBio Kinnex单细胞PBMC数据,下采样用于组装,全数据集用于定量和差异分析。对长读长数据进行预处理,如使用pychopper筛选全长reads,对直接RNA数据将U转换为T;短读长数据匹配长读长的总碱基数。
结果解读:成功构建了涵盖模拟与真实、bulk与单细胞、模式与非模式物种、不同测序技术(ONT PCR-cDNA、ONT直接RNA、PacBio Kinnex)、不同测序深度的多样化数据集,覆盖了转录组研究中的主要实验场景,为全面评估组装工具的性能提供了基础。


产品关联:实验所用关键产品:Invitrogen TRIzol试剂、Oxford Nanopore PCR-cDNA Barcoding kit(SQK-PCB109)、Illumina TruSeq stranded kit v2;分析工具:RATTLE、RNA-Bloom2、isONform、Trinity、Bambu、minimap2、Salmon、Oarfish、limma、Corset、SQANTI3、BUSCO、RepeatMasker、PrimeSpotter、JAFFAL等。

3.2 转录组组装与计算效率评估

实验目的:比较不同长读长从头组装工具、短读长从头组装工具及参考引导组装工具的计算资源消耗,评估工具的可扩展性和实用性。
方法细节:使用RATTLE、RNA-Bloom2、isONform进行长读长从头组装,Trinity进行短读长从头组装,Bambu作为参考引导组装的基准;所有组装在高性能计算集群上运行,申请48核CPU和1TB内存,记录各工具的运行时间和内存使用情况,对运行超过2周的工具终止并排除。
结果解读:RNA-Bloom2的计算效率最优,运行时间为1-27小时,内存使用为50-198GB;RATTLE的运行时间为18小时至8天,内存使用为110-764GB;isONform的内存使用为65-190GB,但运行时间更长,在60M reads的PCR-cDNA数据集和豌豆数据集上无法在2周内完成;Trinity的运行时间与RNA-Bloom2相当,内存使用更稳定;所有从头组装工具的计算资源需求远高于参考引导工具Bambu,表明计算效率是当前长读长从头组装工具的主要瓶颈。

3.3 组装质量评估

实验目的:评估不同组装工具生成的转录组的完整性、准确性、冗余度、序列错误等指标,明确各工具的组装质量差异。
方法细节:使用SQANTI3将组装转录本与参考转录本关联,分类为匹配转录本、新颖异构体、新颖基因;使用Conditional Reciprocal Best BLAST评估组装转录本对参考转录本的碱基覆盖度;使用BUSCO评估保守基因的组装完整性;使用RepeatMasker检测组装转录本中的重复序列,使用PrimeSpotter检测内部引物引发的artifacts;比较不同工具组装的转录本数量、长度分布。
结果解读:长读长工具组装的转录本长度显著长于短读长的Trinity,体现了长读长捕获完整转录本的优势;RNA-Bloom2和RATTLE在模拟数据中组装的转录本和基因数量接近真实值,isONform在模拟数据和直接RNA数据中组装数量过少,表明其默认参数对数据变化的鲁棒性不足;RNA-Bloom2的转录本召回率更高,但冗余度和假阳性率也更高,RATTLE的组装更保守,假阳性率更低;ONT数据的组装存在插入缺失错误,影响蛋白序列预测,BUSCO完整性较低,而PacBio和短读长数据无此问题;长读长从头组装的质量仍低于参考引导组装Bambu,尤其是在低表达转录本的召回和转录本水平的准确性上。

3.4 转录本与基因定量准确性评估

实验目的:评估不同组装结果对转录本和基因表达定量准确性的影响,以及不同转录本聚类方法的性能。
方法细节:使用minimap2将reads比对到组装转录组,Salmon用于bulk样本的转录本定量,Oarfish用于单细胞样本的定量;使用Corset对RNA-Bloom2的转录本进行基因聚类,比较Corset与工具自带聚类方法的准确性;计算组装转录本/基因的定量结果与真实值(模拟数据的已知计数、sequin的浓度、Bambu的参考引导定量)的Pearson相关性。
结果解读:RNA-Bloom2的转录本定量与真实值的相关性较高,isONform在成功运行的数据集上表现最优;Corset对RNA-Bloom2的转录本聚类效果与工具自带聚类相当或更优,因此被选为RNA-Bloom2的配套聚类工具;基因水平的定量相关性各工具差异较小,表明基因水平的定量对组装工具的选择敏感度较低;单细胞数据的从头组装定量能准确区分细胞类型,UMAP聚类结果与参考引导分析一致,表明长读长从头组装可用于单细胞转录组分析。

3.5 差异表达分析性能评估

实验目的:评估不同组装工具的结果对下游差异表达分析(差异基因表达DGE、差异转录本表达DTE、差异转录本使用DTU)的影响,明确各工具在差异表达分析中的性能差异。
方法细节:使用limma包进行差异表达分析,其中DGE使用基因聚类的计数总和,DTE和DTU使用转录本的标准化计数;将各工具的差异表达结果与真实值(模拟数据的已知差异、sequin的已知差异、Bambu的参考引导差异结果)进行比较,绘制ROC曲线评估真阳性率和假阳性率。
结果解读:RNA-Bloom2在多数数据集上的差异表达分析性能最优,真阳性率最高,假阳性率较低;isONform在成功运行的数据集上表现与RNA-Bloom2相当或更优;长读长工具的DTE和DTU性能仍低于参考引导组装Bambu,表明长读长从头组装在转录本水平的差异分析上仍有改进空间;增加测序深度能提升差异表达分析的真阳性率,但工具选择对结果的影响大于测序深度的影响;短读长的Trinity在DGE分析中表现较好,但在DTE和DTU分析中不如长读长工具。

3.6 新颖转录本发现与混合组装评估

实验目的:评估长读长从头组装发现新颖转录本的能力,以及混合组装(结合长读长与短读长)的性能是否优于单一技术组装。
方法细节:使用JAFFAL检测组装转录本中的融合基因,将新颖差异表达转录本与Cancer Cell Line Encyclopedia(CCLE)的已知融合基因进行比较;使用RNA-Bloom2-hybrid和rnaSPAdes进行混合组装,评估其组装质量、定量准确性和差异表达分析性能,并与单一长读长、短读长组装进行比较。
结果解读:长读长从头组装能发现参考基因组中未注释的新颖转录本,包括融合基因(如HCC827细胞系的RPL7-chr8融合、MCF7细胞系的ATXN7-chr1融合和BCAS4-BCAS3融合)和豌豆中的品种特异性变异(如LOC127108449转录本的插入缺失和SNP),这些新颖转录本为后续的功能研究提供了候选靶点。


混合组装的性能未超过单一长读长或短读长组装,RNA-Bloom2-hybrid的性能接近RNA-Bloom2,rnaSPAdes的性能接近Trinity,表明当前混合组装工具未充分利用长读长和短读长的互补优势,仍需进一步优化。

4. Biomarker研究及发现成果解析

本文未聚焦于特定生物标志物(Biomarker)的筛选与验证,而是通过对长读长从头转录组组装工具的综合基准测试,为缺乏参考基因组的样本中差异表达基因/转录本的鉴定提供方法学支撑,同时通过从头组装发现了一批具有潜在功能的新颖转录本,可作为后续Biomarker研究的候选靶点。

Biomarker定位

本文的研究成果并非直接鉴定特定Biomarker,而是建立了长读长从头转录组组装用于差异表达分析的最优工作流,该工作流可应用于非模式物种或缺乏参考基因组的样本(如罕见病样本、癌症样本)的Biomarker筛选;同时,通过从头组装发现的新颖转录本(如融合基因、品种特异性变异)可作为潜在的Biomarker,其筛选逻辑为:从头组装转录组→差异表达分析→筛选新颖差异表达转录本→与已知数据库比对或验证其功能。

研究过程详述

对于人类癌症细胞系样本,通过RNA-Bloom2从头组装和差异表达分析,筛选出2562个(PCR-cDNA数据集)和2307个(直接RNA数据集)新颖差异表达转录本,其中部分为已知的融合基因(如BCAS4-BCAS3),部分为未报道的融合基因,这些融合基因可作为癌症诊断或预后的潜在Biomarker;对于豌豆样本,筛选出154个新颖差异表达转录本,其中7个匹配BUSCO基因,包含品种特异性的插入缺失和SNP,这些变异可作为豌豆品种鉴定或性状关联的潜在Biomarker。由于本文为方法学研究,未对这些新颖转录本进行大规模临床样本验证,其特异性与敏感性数据未明确提供。

核心成果提炼

本文的核心成果是确定了RNA-Bloom2结合Corset的工作流为当前最优的长读长从头转录组组装用于差异表达分析的策略,该工作流在组装准确性、计算效率和下游差异表达分析性能上均表现最优;同时,长读长从头组装可发现参考基因组中未注释的新颖转录本,这些转录本具有潜在的Biomarker价值,为非模式物种研究和复杂样本分析提供了新的研究方向;此外,本文明确了当前长读长从头组装工具的局限,如计算效率低、组装冗余度高、转录本水平分析性能不足,为未来工具的改进指明了方向。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。