全站搜索:
加入华弈|联系我们
服务热线:010-61734505E-mail:support@hygenomics.com
首页 - 科技服务 - 转录组数据分析
有参考基因组转录组测序

转录组分析基本原理

转录组测序对象是样品内的转录产物mRNA,通过对转录产物的测序定量以及结构分析的研究来分析不同组织,不同时期的转录表达的差异,从而在转录水平来研究对应性状的产生机理。

实验流程

转录组(有Ref)分析流程图

基本生物信息分析

1.测序数据产量及与Reference比对结果:

统计数据量的大小和数据质量情况,可以查看数据产量和质量,GC分布、质量值分布、Q20情况,若GC分离严重,质量值过低,Q20在70以下,那么这批数据将存在质量问题。

2. 评价测序随机性:

在转录组实验过程中,首先需要将反转录形成的CDNA打断成短片段,建库后测序,如果打断随机性差,reads偏向于来自基因特定区域, 将会影响分析结果。检测数据库质量情况,检验比对效率(比对效率需在40%以上),查看插入片段检验图(峰值在120~150之间)。随机性检验图(如果 打断随机性好,reads分布比较均匀),评估测序数据的建库是否正常,是否存在污染。

3. 基因覆盖度、测序深度的分布:

基因测序覆盖度是指每个基因被reads覆盖的百分比,其值等于基因中unique mapping reads覆盖的碱基数与基因编码区所有碱基数的比值。测序深度是指基因被reads覆盖的次数,其值等于reads覆盖到基因的碱基数与基因编码区所有 碱基数的比值。

高级生物信息分析

1. 可变剪切分析:

可变剪切使一个基因产生多个mRNA转录本,不同mRNA可能翻译成不同蛋白,因此,通过可变剪切一个基因可能产生多个蛋白,极大地增加了 蛋白多样性。可变剪切普遍存在于真核生物中,但目前我们可能仍低估了可变剪切的比例。在生物体,主要存在7种可变剪切类型。

2.新转录本检测:

现有数据库中对转录本的注释可能还不全面,通过高通量测序我们能检测到新的转录本。 3. 基因结构优化:通过比较测序结果和现有基因注释结果,对基因两端进行延长。首先将reads比对到基因组,提取基因组中被unique mapping reads覆盖的次数大于或等于某阈值(默认为2)且位置连续的区域作为转录活性区(TAR),然后将不同的TAR链接形成潜在的gene model,最后通过比较潜在的gene model与现有基因注释的差别,对基因的两端进行延长。

4.差异基因表达分析

4.1 基因表达量:

基因表达量的计算使用RPKM法,计算公式为:

C为唯一比对到某基因的reads数,N为唯一比对到基因组的总reads数,L为某基因编码区的碱基数。RPKM法能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。

4.2 差异分析:

差异分析找出不同样本间存在差异表达的基因,并对差异表达基因做GO功能分析和KEGG Pathway分析。