Gene duplication and evolution in recurring polyploidization-diploidization cycles in plants

植物多倍化-二倍化循环中的基因复制和进化

阅读:3

Abstract

BACKGROUND: The sharp increase of plant genome and transcriptome data provide valuable resources to investigate evolutionary consequences of gene duplication in a range of taxa, and unravel common principles underlying duplicate gene retention. RESULTS: We survey 141 sequenced plant genomes to elucidate consequences of gene and genome duplication, processes central to the evolution of biodiversity. We develop a pipeline named DupGen_finder to identify different modes of gene duplication in plants. Genes derived from whole-genome, tandem, proximal, transposed, or dispersed duplication differ in abundance, selection pressure, expression divergence, and gene conversion rate among genomes. The number of WGD-derived duplicate genes decreases exponentially with increasing age of duplication events-transposed duplication- and dispersed duplication-derived genes declined in parallel. In contrast, the frequency of tandem and proximal duplications showed no significant decrease over time, providing a continuous supply of variants available for adaptation to continuously changing environments. Moreover, tandem and proximal duplicates experienced stronger selective pressure than genes formed by other modes and evolved toward biased functional roles involved in plant self-defense. The rate of gene conversion among WGD-derived gene pairs declined over time, peaking shortly after polyploidization. To provide a platform for accessing duplicated gene pairs in different plants, we constructed the Plant Duplicate Gene Database. CONCLUSIONS: We identify a comprehensive landscape of different modes of gene duplication across the plant kingdom by comparing 141 genomes, which provides a solid foundation for further investigation of the dynamic evolution of duplicate genes.

文献解析

1. 领域背景与文献引入

文献英文标题:Gene duplication and evolution in recurring polyploidization–diploidization cycles in plants;发表期刊:Genome Biology;影响因子:13.214(2018年);研究领域:植物基因组进化。

1997年酿酒酵母全基因组复制(WGD,又称多倍体化)的发现,开启了真核生物多倍体化进化研究的新篇章。领域共识:植物是多倍体化最普遍的类群,约70%以上的被子植物经历过至少一次全基因组复制事件,多倍体化被认为是植物物种形成和适应性进化的核心驱动力之一。后续研究逐步揭示了多倍体化后的二倍体化过程,包括染色体重排、基因丢失、亚基因组优势等关键机制,但当前研究仍存在核心空白:不同基因复制模式(全基因组复制、串联、近端、转座、分散复制)在植物长期进化中的动态变化规律及对适应性的贡献差异,缺乏基于大规模跨物种基因组的系统比较分析。本文针对这一研究空白,整合141个覆盖绿藻到被子植物的代表性植物基因组数据,系统解析了五种基因复制模式的进化特征,为植物适应性进化的分子机制提供了全面视角。

2. 文献综述解析

作者按基因复制的发生模式将现有研究分为全基因组复制和单基因复制(包括串联、近端、转座、分散复制)两大类,系统综述了不同复制模式的研究进展与局限性,明确了本文的创新价值在于首次通过141个植物基因组的大规模比较,揭示了五种复制模式的进化动态差异。

现有研究已证实,全基因组复制能一次性产生大量基因拷贝,为植物形态和生理多样性的进化提供了原材料,但多倍体化后大部分复制基因会在数百万年内丢失,且全基因组复制事件具有 episodic(偶发)特征,无法持续提供适应环境的变异;单基因复制(如串联复制)被认为是植物快速适应环境的重要变异来源,但其进化特征(如选择压力、表达分化)与其他复制模式的差异缺乏系统研究。现有研究的技术方法优势在于能针对单个或少数物种的特定复制模式进行深入分析,但局限性在于样本量小、缺乏跨物种的系统比较,难以揭示植物界普遍的进化规律。

本文通过构建标准化的基因复制模式识别流程(DupGen_finder),对141个覆盖从绿藻到被子植物的代表性物种进行分析,首次系统比较了五种复制模式的基因数量动态、选择压力、表达分化、基因转换率等进化特征,弥补了现有研究缺乏大规模跨物种比较的不足,为植物基因复制的进化机制提供了全面的视角。

3. 研究思路总结与详细解析

本文的研究目标是系统解析植物界五种基因复制模式的进化动态与功能差异,核心科学问题是不同复制模式的基因在植物长期进化中的保留机制、功能分化规律及对适应性的贡献,技术路线遵循“数据收集→模式识别→特征分析→功能验证→数据库构建”的闭环逻辑,通过生物信息学分析与多组学数据整合,全面揭示了植物基因复制的进化景观。

3.1 植物基因组数据集收集与复制模式识别

实验目的:建立标准化的生物信息学流程,系统识别141个植物基因组中的五种基因复制模式。
方法细节:从Phytozome、NCBI、Ensembl Plants等数据库收集141个覆盖绿藻、苔藓、蕨类、裸子植物、被子植物的基因组数据,筛选每个基因的最长编码序列(CDS)用于后续分析;开发DupGen_finder工具,首先通过全基因组比对(BLASTP)识别同源基因对,再用MCScanX算法识别全基因组复制(WGD)衍生的基因对;从剩余同源对中,定义位于同一条染色体且位置相邻的基因为串联复制(TD)对,间隔10个及以下基因的为近端复制(PD)对;通过种内和种间共线性分析,识别转座复制(TRD)对(一个基因位于祖先位点,另一个位于新位点),剩余同源对为分散复制(DSD)对。
结果解读:成功在141个植物基因组中识别出五种复制模式的基因对,结果显示近期经历WGD的物种(如大豆,~13 Mya;亚麻,3.7~6.8 Mya)保留了更高比例的WGD衍生基因对,十字花科物种(如甘蓝、萝卜)的全基因组三倍化(WGT)频率最高;基于识别结果构建了植物复制基因数据库(PlantDGD),为后续研究提供了公开的资源平台。
产品关联:文献未提及具体实验产品,领域常规使用生物信息学分析软件如MCScanX、BLASTP、OrthoFinder等,以及序列比对工具MAFFT等。

3.2 复制事件年龄与基因数量动态分析

实验目的:分析不同复制模式的基因数量随复制事件年龄的变化规律,揭示其进化保留机制。
方法细节:通过计算复制基因对的同义替换率(Ks)作为复制事件年龄的代理,用高斯混合模型(GMM)拟合每个物种的Ks峰以确定不同复制事件的年龄;对不同复制模式的基因数量进行log10转换以消除基因组大小差异,通过线性回归分析基因数量与Ks的相关性,比较不同模式的变化趋势。
结果解读:全基因组复制(WGD)、转座复制(TRD)、分散复制(DSD)衍生的基因数量随复制年龄增加呈指数下降趋势(WGD:r=-0.70, P<0.001;TRD:r=-0.49, P<0.001;DSD:r=-0.61, P<0.001),而串联复制(TD)和近端复制(PD)的基因数量随时间无显著减少(TD:r=-0.08, P=0.43;PD:r=0.02, P=0.84),表明TD和PD能持续为植物提供适应环境的变异来源。

3.3 复制基因的选择压力与功能富集分析

实验目的:比较不同复制模式基因的选择压力差异,揭示其功能分化方向。
方法细节:用MAFFT进行蛋白序列比对,通过PAL2NAL转换为密码子比对,用KaKs_Calculator计算非同义替换率(Ka)、同义替换率(Ks)及Ka/Ks比值,以Ka/Ks<1代表纯化选择,Ka/Ks>1代表正选择;选取拟南芥作为模式植物,对TD和PD基因进行GO功能富集分析,明确其功能偏向。
结果解读:TD和PD基因的Ka/Ks比值显著高于其他复制模式,表明其经历了更强的正选择压力;功能富集分析显示,拟南芥中TD基因显著富集于铁离子结合、血红素结合、转移酶活性等功能,PD基因显著富集于细胞死亡、免疫应答、信号受体活性等功能,这些功能均与植物的自我防御和环境适应密切相关。

3.4 复制基因的表达分化分析

实验目的:分析不同复制模式基因的表达分化规律,揭示其功能分化的分子基础。
方法细节:收集8个模式植物(包括绿藻、苔藓、蕨类、裸子植物、被子植物)的RNA-seq数据,覆盖不同组织、发育阶段和处理条件;用kallisto定量基因的表达水平(以TPM为指标),计算复制基因对的表达相关性(Pearson相关系数r),以随机基因对的95%分位数为阈值判断表达分化;比较不同年龄复制事件的基因对表达分化比例,分析表达分化随时间的变化趋势。
结果解读:所有复制模式的基因对均存在广泛的表达分化,且表达分化比例随复制事件年龄增加而显著升高,如拟南芥中α WGD(~35 Mya)的基因对表达分化比例为65%,γ WGT(~117 Mya)的基因对表达分化比例为84%(P<0.001);TD和PD基因的表达分化比例显著低于TRD和DSD基因,表明其功能分化速度较慢,可能通过序列同质化(基因转换)维持功能协同。

3.5 基因转换率动态分析

实验目的:分析不同复制模式基因的基因转换率动态变化,揭示多倍体化后的基因组稳定机制。
方法细节:采用同源基因四重奏法(两个复制基因及其在近缘物种的直系同源基因)检测基因转换事件,以Ks为时间代理,分析基因转换率随时间的变化;比较不同复制模式的基因转换率差异,揭示其序列同质化的程度。
结果解读:全基因组复制(WGD)衍生的基因对的基因转换率在多倍体化后迅速升高,随后随时间逐渐下降,如拟南芥α WGD后与Aethionema arabicum分化时(Ks=1.0)的基因转换事件数为104,与Arabidopsis lyrata分化时(Ks=0.2)仅为2;TD和PD基因的基因转换率显著高于其他模式(拟南芥TD为20.6%,水稻TD为23.0%),而TRD基因的基因转换率极低,表明其序列分化程度高。

3.6 核心基因家族推断

实验目的:推断141个绿色植物的核心基因家族,揭示植物界保守的功能模块。
方法细节:用OrthoFinder对141个植物的4921214个基因进行直系同源分析,识别最保守(所有物种至少含1个基因)、中等保守(最多3个物种缺失)、最不保守(最多5个物种缺失)的基因家族;以拟南芥基因为参考,对不同保守程度的基因家族进行GO功能富集分析。
结果解读:共识别出86831个基因家族,其中232个最保守的基因家族,这些家族显著富集于膜结构、细胞器组成、小GTP酶介导的信号转导、核小体组装等基本细胞功能;绿藻的单拷贝基因家族比例最高(如衣藻为81.4%),近期经历WGD的物种(如大豆、玉米)的多拷贝基因家族比例更高,反映了多倍体化对基因家族扩张的影响。

4. Biomarker研究及发现成果

本文虽未涉及传统临床Biomarker,但识别了不同基因复制模式的进化特征,可作为植物适应性进化研究的分子Biomarker,包括串联/近端复制基因(环境适应型Biomarker)和全基因组复制基因(进化历史Biomarker),为植物进化研究提供了新的分子标记。

Biomarker定位:串联/近端复制基因作为植物持续适应环境的核心变异Biomarker,全基因组复制基因作为记录植物进化历史的分子Biomarker;筛选逻辑基于141个植物基因组的大规模比较分析,通过Ks年龄分析、选择压力分析、表达分化分析验证其进化特征。
研究过程详述:Biomarker来源为141个覆盖整个绿色植物类群的基因组数据,验证方法包括Ka/Ks比值分析(检测正选择压力)、表达相关性分析(检测功能分化)、基因转换率分析(检测序列同质化);特异性方面,串联/近端复制基因的Ka/Ks比值显著高于其他复制模式(P<0.001),全基因组复制基因的数量随时间呈指数下降趋势(r=-0.70, P<0.001),具有明确的进化特征差异。
核心成果提炼:串联/近端复制基因是植物快速适应环境变化的核心变异来源,其高Ka/Ks比值和功能富集于防御相关通路的特征,可作为植物适应性进化的分子Biomarker;全基因组复制基因的数量动态记录了植物的进化历史,可用于推断物种的多倍体化事件时间;基因转换率的动态变化反映了多倍体化后的基因组稳定过程,可作为基因组进化的分子标记。这些成果为植物进化研究提供了新的分子工具,也为作物遗传改良中变异资源的选择提供了理论依据。

特别声明

1、本页面内容包含部分的内容是基于公开信息的合理引用;引用内容仅为补充信息,不代表本站立场。

2、若认为本页面引用内容涉及侵权,请及时与本站联系,我们将第一时间处理。

3、其他媒体/个人如需使用本页面原创内容,需注明“来源:[生知库]”并获得授权;使用引用内容的,需自行联系原作者获得许可。

4、投稿及合作请联系:info@biocloudy.com。