加入收藏| 登录   注册
400 920 6923 ;科研合作专线:021-58820889转116、115
网站公告:

 

外显子组测序分析 >> 返回 您当前所在位置:首页 > 科研服务 > 生物信息学服务 > 外显子组测序分析 > 正文

外显子组测序分析

更新时间:2013-05-05 09:48:00点击次数:3730次字号:T|T
一、数据分析流程

分析流程

1.实验部分: 

通过杂交富集外显子区域序列,建库,测序。


2.序列QC: 

去除低质量reads,和连续的低质量片段,去掉接头序列。QC统计reads数量及测序质量。 


3.Mapping:

由于bwa能准确,快速的将短序列比对到基因组上,而且软件持续更新和说明文档完备,是外显子捕获测序的首选。 


4.Sam到bam转换: 

Samtools的多种工具可以将sam文件转换为bam文件,rmdup工具能去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。Flagstat统计reads的mapping情况以及比较去除duplicate前后reads数目的反映样品建库的冗余情况。 Picard提供的多个工具,修改bam文件,是之适合于后续的GATK软件包中的工具的处理。 


5.Indel区域的reads重新做局部多序列比对: 

在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假阳性SNP。 


6.碱基质量重新打分: 

测序仪给reads中的碱基的qual值存在一定的偏差,通过经验的错误模型来重新计算的碱基的qual值,重新给reads的各个碱基的qual打分。 


7.Call snv和indel: 

对处理好的多样品bam文件同时运行UnifiedGenotyper,大大提高call SNP的灵敏度和准确性,多样品同时比较的结果,方便了后续的样品间差异的筛选。 


8.突变位点的重新打分: 

通过hapmap,omni,dbsnp数据库中已知的突变位点建模优化,对各个突变位点重新打分,筛选。大大降低了假阳性率。 


9.注释: 

通过ANNOVAR软件对vcf结果注释,关联到多个数据库。

 
 
二、数据分析内容 

1. Mapping统计: 
统计总reads数,mapped reads及unique mapped reads数目及百分比。 

2. 捕获效率统计: 

统计来自捕获区域的Fragment比例: 

统计target区域所有的碱基覆盖次数分布:


对每个target区域的覆盖和深度统计: 
如果客户对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖情况,可以提供每个target或者特定target区域的覆盖情况和测序深度统计。 
    
3. Snv和indel关联数据库: 
Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分: 
*_target.snv:突变处于捕获的靶区域(target region)内。 
*_off_target.snv或者*_target.indel: 突变在捕获的靶区域之外。 
Snv和indel结果与以下的数据库关联,为突变的筛选提供大量的信息。 

1)基因注释: 

通过基因注释可以达到以下的目的:突变的功能定位(在外显子,内含子,剪接位点还是基因间区);突变所在的基因名称或者临近的基因;突变如果在编码区域,是否引起氨基酸的改变(同义突变,非同义突变的呢过);如果引起氨基酸的改变,按照HGVS命名规则表示--改变的基因ID,转录本ID,外显子编号,以及氨基酸改变,如NOD2:NM_022162:exon8:c.G2722C:p.G908R。 

默认使用refSeq完成基因注释,如果有特殊的要求,可以使用UCSC known gene,Ensembl,GENCODE,CCDS等基因注释系统。

2) 1000G注释: 

检测突变位点是否在1000 Genomes Projects(2012 release)数据库中检测到,如果检测到,显示等位基因频率(allele frequency)。默认是使用所有人种的数据库,如果有特定要求,可以按照要求展示不同人种(比如AMR, AFR, ASN,EUR,中国人,日本人)等位基因频率。 


3) dbSNP注释: 

检测突变是否在dbSNP数据库中,如果在,显示rsID。 

默认使用db SNP135数据库,如果有特定的要求,可以使用dbSNP129,dbSNP130,dbSNP131,dbSNP132数据库。 


4) AVSIFT: 

SIFT是一款很受欢迎的检测非同义突变位点重要性的软件,对应非同义突变位点,会给定一个打分,若打分低于0.05,则表明突变很可能会影响到蛋白质的功能。 


5) 与UCSC的数据库的关联: 
ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/.txt.gz,提供了大量的基因组注释信息,目前关联的数据库有: 
tfbsConsSites:在人/小鼠/大鼠中保守的转录因子结合位点,以transfac Matrix Database (v7.0)为基础。 
wgRna:snoRNA and miRNA注释。 
targetScanS:TargetScan预测的miRNA把区域。 
gwasCatalog:已经发表的各种疾病的GWAS结果。 
genomicSuperDups:基因组中的重复片段。 
phastConsElements46way:通过phastCons对脊椎动物的全基因组比对生成的保守区域,根据用于比对的物种数目,分为17way, 28way, 30way, 44way等。默认使用46way。 
如果客户需要关联UCSC中其它的数据库,也可以定制。 

6) cosmic63: 

已观察到的癌症相关突变,显示在COSMIC中的ID(identifiers),观察到的次数,以及观察到的癌组织。 


4. CNV: 

XHMM是一款外显子捕获拷贝数变异检测的优秀软件包,使用GATK和XHMM能够得到较好的外显子捕获的CNV结果。 

5. 其它: 

Polyphen-2 (Polymorphism Phenotyping v2)也是一款基于多序列比对和蛋白质3D结构,预测氨基酸替换(从一种氨基酸改变为另一种氨基酸)对蛋白质结构和功能影响的软件,如果客户有要求,可以提供Polyphen-2对snv结果的进一步分析服务。

可以通过GT(genotype)直接比较样品间的差异(GT简介:0表示与Ref相同,1表示与ALTS第1个碱基相同,2表示如ALTS第2个碱基相同)。


通过和多个数据库的提供关联精细筛选条件:

(编辑:sgclp)
  • 上一篇:已经没有了
  • 下一篇:已经没有了

地址:上海市浦东新区张江高科技园区郭守敬路351号1号楼4楼

电话:+86-21-51320133

            +86-21-58816760

            +86-21-58820889
传真:+86-21-51320131



点击这里给我发消息点击这里给我发消息点击这里给我发消息点击这里给我发消息