SRTdb:人类组织和癌症特异性RNA转录本的综合数据库文献解析

1. 领域背景与文献引入

文献英文标题:SRTdb: an omnibus for human tissue and cancer-specific RNA transcripts;发表期刊:Biomarker Research;影响因子:未明确;研究领域:肿瘤生物标志物、转录组学。

近十年,RNA测序(RNA-seq)技术的普及推动了转录组学研究的深入,使得科学家能够系统解析RNA转录本在生理和病理过程中的作用。领域共识:转录组学研究最初聚焦于基因水平的表达分析,但随着研究深入,人们发现同一基因通过可变剪接、可变 poly(A) 位点等机制可产生多个功能不同的RNA转录本,这些转录本的组织或疾病特异性往往被基因水平分析掩盖。例如,已有研究发现UGP2基因的一个可变转录本在肝癌中表达差异显著且提示良好预后,Zheng等分析1000余例肝正常和肿瘤样本,发现肿瘤特异性转录本在肝癌中高频表达并具有功能活性——这些结果均凸显了转录本水平分析的重要性。

然而,当前领域存在两大核心问题:一是缺乏大规模、多类型样本的转录本水平整合分析,无法系统识别组织和癌症的特异性RNA转录本;二是现有数据库(如cncRNAdb、NONCODE)多关注基因水平或非编码RNA,未整合组织、癌症、细胞系的转录本特异性信息。为解决这些问题,本研究构建了SRTdb——一个整合人类组织、癌症、细胞系特异性RNA转录本的综合数据库,旨在为转录组多样性研究和精准肿瘤诊断提供资源支撑。

2. 文献综述解析

作者将现有研究分为基因水平分析转录本水平分析两类:基因水平研究是转录组学的传统思路,但无法捕捉转录本的功能多样性;转录本水平研究虽已揭示部分肿瘤或组织的特异性转录本(如UGP2的预后相关转录本、肝肿瘤的特异性转录本),但样本量有限(多为单肿瘤类型)或未整合多组织数据。

现有数据库的不足主要体现在三点:① cncRNAdb、NoncoRNA仅关注基因水平的编码/非编码RNA功能,未提供转录本水平信息;② NONCODE聚焦非编码RNA,但未整合组织和癌症的特异性分析;③ 多数数据库的数据来自已发表文献或小规模样本,缺乏大规模RNA-seq数据的从头组装。

本研究的创新点在于:① 基于27741个RNA-seq样本(覆盖29种正常组织、33种癌症、25种细胞系)进行参考导向的从头转录组组装,系统性识别转录本;② 首次整合组织、癌症、细胞系的转录本特异性数据,构建跨类型的特异性评分体系;③ 开发SRTdb数据库,提供转录本水平的浏览、搜索、下载功能,填补了现有数据库的空白。

3. 研究思路总结与详细解析

3.1 样本收集与数据预处理

实验目的:获取覆盖正常组织、肿瘤、细胞系的大规模RNA-seq数据,为后续转录组分析奠定基础。
方法细节:从GTEx数据库下载16367个正常组织样本(涵盖29种组织类型)、GDC数据库下载10358个肿瘤样本(涵盖33种癌症类型)、CCLE数据库下载1016个癌症细胞系样本(涵盖25种原发部位);使用STAR软件将原始测序reads对齐到人类参考基因组GRCh38,生成BAM文件。
结果解读:共获取27741个样本的基因组对齐数据,覆盖了人类主要组织、常见癌症及细胞系,为后续转录本组装提供了全面的数据源。
实验所用关键产品:STAR软件(基因组对齐工具);文献未提及具体商业试剂,领域常规使用Illumina测序平台生成RNA-seq数据。

3.2 转录组组装与定量

实验目的:生成全转录本集合并定量其表达水平。
方法细节:使用StringTie软件对每个样本进行参考导向的从头转录组组装(以GENCODE v22注释为参考),合并所有样本的转录本生成非冗余主集合;采用TPM(每百万映射reads的转录本数)对转录本进行定量,过滤掉“在至少一个样本中TPM<0.1”的低表达转录本。
结果解读:共识别1160216个RNA转录本,其中82.91%(961960个)为未注释的新转录本;转录本长度中位数为5192 bp,约40%的转录本含2-5个外显子,96.1%的新转录本为多外显子(提示可能经历了可变剪接);仅2%的新转录本被CPAT和CPC2共同预测为具有蛋白编码潜力。

figure 1

3.3 特异性转录本识别与评分

实验目的:计算转录本在组织、癌症、细胞系中的特异性,筛选特异性RNA转录本(SRTs)。
方法细节:基于香农熵计算特异性评分(St),公式为:
$$S_t = log_2(N) - left(-sum_{i=1}^N (p_{it} imes log_2 p_{it}) ight)$$
其中,$N$为组织/癌症/细胞系类型总数,$p_{it}$为转录本$t$在类型$i$中的表达比例($p_{it} = x_{it}/sum_{i=1}^N x_{it}$)。定义SRTs的标准为:① 最大表达比例是第二大比例的2倍以上;② 特异性评分$S_t > 1$。
结果解读:共识别228752个正常组织SRTs、212214个肿瘤SRTs、231836个细胞系SRTs;肿瘤SRTs数量在不同癌症中差异显著(急性髓系白血病最多,肺腺癌/肺鳞癌最少);正常组织中睾丸的SRTs数量最多(提示睾丸转录组的高度特异性)。

figure 2

3.4 SRTdb数据库构建

实验目的:搭建用户友好的数据库平台,整合SRTs的注释、表达及特异性信息。
方法细节:采用Flask REST API作为后端框架(处理数据请求)、MongoDB作为数据库(存储转录本注释与表达数据)、Angular开发前端界面(实现交互功能);使用Bootstrap构建前端布局,Echarts实现数据可视化(如表达箱线图、特异性热图)。
结果解读:SRTdb包含三大核心功能:① 浏览:按组织/癌症/细胞系筛选SRTs,结果表包含转录本ID、特异性评分、基因符号等信息;② 搜索:通过转录本ID、基因名或基因组位置查询目标转录本;③ 下载:提供转录本注释、特异性评分等数据文件。数据库支持主流浏览器(Edge、Chrome、Firefox)访问,界面简洁易用。

3.5 肝癌精准诊断的应用示例

实验目的:验证SRTdb在肿瘤精准诊断中的价值,以肝癌为例筛选高特异性生物标志物。
方法细节:① 过滤:保留“在肝癌样本中表达、但在正常组织中不表达”的转录本;② 计算诊断评分($S_{tc}$):整合表达水平($x_{tc}$)、癌症特异性评分($s_{tc}$)、表达频率($r_{tc}$)及组织特异性评分($s_{tt}$),公式为:
$$S_{tc} = eta_1 imes log_2(x_{tc}+1) imes s_{tc} imes r_{tc} + eta_1 imes eta_2 imes s_{tt}$$
其中,$eta_1$(癌症特异性权重)和$eta_2$(组织特异性权重)为自定义系数。
结果解读:共筛选3234个肝癌特异性转录本,其中116个为“严格特异性”(如ENST00000481511.4,仅在肝癌中高表达,正常组织中无显著表达);对比发现,部分转录本虽在肝癌中特异性,但在其他癌症中表达(如ENST00000465758.1在胆管癌中表达)——这提示转录本水平的跨癌症验证对精准诊断至关重要。

figure 4

4. Biomarker研究及发现成果解析

Biomarker定位与筛选逻辑

本研究的Biomarker为人类组织和癌症特异性RNA转录本(SRTs),筛选逻辑为“大规模样本转录组组装→特异性评分计算→跨组织/癌症/细胞系验证”:首先通过RNA-seq数据组装全转录本集合,再基于香农熵计算特异性评分筛选SRTs,最后通过UMAP聚类、诊断评分等验证其组织/癌症特异性。

研究过程详述

  • 来源:SRTs的数据来自GTEx(正常组织)、GDC(肿瘤)、CCLE(细胞系)的27741个RNA-seq样本,覆盖29种组织、33种癌症、25种细胞系。
  • 验证方法:① 转录本水平定量(TPM):验证SRTs在目标类型中的高表达;② 特异性评分:验证SRTs在其他类型中的低表达;③ UMAP聚类:验证SRTs的表达能区分不同组织/癌症类型(如图2A、2B所示,转录本表达谱可清晰聚类不同肿瘤和正常组织);④ 诊断评分:筛选“仅在目标肿瘤中表达、且不在正常组织中表达”的严格SRTs。
  • 特异性与敏感性数据:以肝癌为例,116个严格SRTs的“肿瘤特异性”表现为:在肝癌样本中的表达频率(文献未明确具体数值)显著高于正常组织;睾丸的30000多个SRTs在急性髓系白血病等肿瘤中表达,提示其“跨组织肿瘤特异性”。

核心成果提炼

  1. 肿瘤SRTs的双重特异性:约一半的肿瘤SRTs同时是组织SRTs,但多来自非肿瘤原发组织(如LINC01419的转录本在肝肿瘤和睾丸组织中特异性);部分肿瘤SRTs来自原发组织(如APOA2的转录本在肝肿瘤和肝组织中特异性)。
  2. 睾丸SRTs的肿瘤泛特异性:超过30000个睾丸SRTs在其他肿瘤中特异性表达(如急性髓系白血病),提示睾丸转录本可能参与多种肿瘤的发生。
  3. 精准诊断生物标志物:通过SRTdb筛选的肝癌严格SRTs(如ENST00000481511.4)具有“仅在肝癌中表达”的特性,可作为液体活检的潜在标志物——其在血液中的检测可提示肝癌发生,避免与其他疾病混淆。

本研究构建的SRTdb为转录组学研究提供了全面的特异性转录本资源,不仅填补了现有数据库的空白,更为肿瘤精准诊断提供了新的生物标志物筛选思路。未来结合长读长RNA-seq技术(如PacBio),SRTdb的转录本注释将更精准,进一步推动转录组学在临床中的应用。

特别声明

1、本文转载旨在传播信息,不代表本网站观点,亦不对其内容的真实性承担责任。

2、其他媒体、网站或个人若从本网站转载使用,必须保留本网站注明的“来源”,并自行承担包括版权在内的相关法律责任。

3、如作者不希望本文被转载,或需洽谈转载稿费等事宜,请及时与本网站联系。

4、此外,如需投稿,也可通过邮箱info@biocloudy.com与我们取得联系。