全站搜索:
加入华弈|联系我们
服务热线:010-61734505E-mail:support@hygenomics.com
首页 - 科技服务 - 外显子组数据分析
外显子组测序

外显子组分析内容

外显子组(exome)是一个物种基因组中全部外显子区域的总和,它是基因行使其功能最直接的体现,仅占全基因组序列的 1%左右,但大多数与疾病相关的变异位于外显子区。利用序列捕获技术将全基因组外显子区域DNA捕捉并富集,通过高通量测序技术进行外显子组测序,能够直 接发现与蛋白质功能变异相关的遗传突变。目前,外显子组测序技术已经应用到寻找与各种复杂疾病相关的致病基因和易感基因的研究中。

 

外显子组测序实验流程

首先将基因组DNA随机打断成随机片段文库,文库经纯化后通过与外显子捕获系统进行杂交,洗去未杂交上的片段,随后将杂交成功的片段扩增富集,进行高通量测序。外显子组测序一般采用pair end策略,主要是应用于对人的研究。

前期准备

下载所分析物种对应的Reference sequence和annotation。

原始fastq序列简介

原始转录组数据以fastq文件格式存储,存储着reads的序列以及reads的测序质量,每条reads由四行描述:

@read ID

原始序列数据(碱基序列,若无法确定碱基则会读N) +(该符号后也可加read ID)
字符(代表测序质量,该行的字符与第二行的碱基序列是一一对应的,字符对应的ASCII值减去64)。

原始数据处理

采用fastQC、fastX toolkit对原始数据处理,fastQC检测数据质量情况,fastX toolkit用以去除接头序列、去除低质量序列,得到clean reads。主要选项如下:

  • 去接头序列:fastx_clipper;
  • 过滤低质量序列:fastq_quality_filter;
  • 修剪reads的末端:fastx_trimmer。

与参考基因组比对

Clean reads需与参考基因组序列比对,由于外显子组测序是研究疾病相关基因,需要找到SNP、indel信息,mapping多使用BWA(另一常用mapping软件不能generate indels)。包含以下步骤:

  1. 建立reference的index;

  2. 对pair-end数据的pair1和pair2分别进行mapping,生成相应的sam file,然后再结合两者生成的sam file。直接利用picard对sam file进行排序,生成排序后的bam file。

  Duplicate marking

有的序列存在overpresented现象,它们有着相同的序列和一直的map位置,对后续的GATK的分析会造成一定影响。需要给这些序列设置一个 flag以标志它们,方便GATK的识别。还可以设置REMOVE_DUPLICATES=true来丢弃duplicate序列。

Local relignment

INDEL附近的alignment通常不准,需要利用已知的indel信息进行realignment。第一步进行 RealignerTargetCreator,输出一个包含着possible indels的文件;第二步进行IndelRealigner,利用此文件进行realign。

Base quality score recalibration

对碱基的quality score进行校正。同样需要用到已知的indel、SNP信息。第一步BaseRecalibrator生成一个用于校正的recal.grp文件和一 个校正前的plot;第二步BaseRecalibrator生成一个校正后的plot;第三步PringReads利用recal.grp进行校正,输 出校正后的bam file。

Reduce bam file

将之前得到的bam file进行压缩,方便之后的处理。

Produce raw SNP calls

用GATK的UnifiedGenotyper工具进行处理,它同时获得SNP、indel信息,产生一个注释好的VCF文件。


Filter SNPs

  • 根据vcf文件中的FILTER一栏进行filter。
  • Annotations using annovar
  • 我们用annovar软件对所获得的SNP和INDEL进行注释。它可以对许多不同的SNP进行注释,具有强大的SNP注释功能。.