转录组测序数据分析(有参考基因组) - RNA测序分析(有参考基因组) - 南方基因——上海南方基因科技有限公司

加入收藏| 登录   注册
400 920 6923 ;科研合作专线:021-58820889转116、115
网站公告:

 

RNA测序分析(有参考基因组) >> 返回 您当前所在位置:首页 > 科研服务 > 生物信息学服务 > RNA测序分析(有参考基因组) > 正文

转录组测序数据分析(有参考基因组)

更新时间:2013-05-05 11:43:00点击次数:3707次字号:T|T
一、数据分析流程 
 
二、数据分析内容 

1. 数据预处理 
目的:对原始测序数据进行一定程度的过滤。 

原理:根据测序接头以及测序质量对原始的测序数据进行预处理,其中,测序质量Q与测序错误E之间的关系如下:

结果:对预处理后质量以及碱基分布统计进行统计


2. 比对基因组 
目的:将经过预处理的测序数据与参考基因组进行相似性比对。 
原理:Burrower-Wheeler转换算法与splicing比对算法。 
1)Burrower-Wheeler转换算法:由于测序数据量非常大,与整条基因组比对所需资源与时间是较为巨大的。目前,我们采用Burrower-Wheeler(BWT)算法对基因进行建立索引、碱基压缩等过程,这样可以很大程度上加快比对速度,减少比对过程中所需资源。 
2)splicing比对算法:即分段比对算法,当某条测序序列位于转录本剪切位点时,也就是这条序列同时属于两个外显子,如果将它与参考基因组进行比对,由于基因组两个外显子之间含有intron区,那么它将无法找到它合适的位置;但是应用分段比对算法就可以将这条测序序列分割变成多段子序列,然后应用这些段子序列与基因组进行比对,这样就可以找到它们真正的位置。
 
Vps28基因的一个分段比对的结果,蓝线连接的两端即为被分割的子序列,可见此种算法非常的适用于转录组测序。
 
结果展示:应用比对结果进行一些相关mapping统计,测序饱和度及测序5’,3’ bias统计。

 

Multi mapping,Unique mapping及Unique gene-body mapping统计。

  

饱和度分析,当reads达到一定测序量后,基因覆盖率基本达到饱和。

 
测序3’,5’偏好性统计,测序主要集中于基因bady区,两端偏向性较轻。
 
 3. 基因表达水平研究
目的:应用基因组比对结果进行基因定量。 
原理:从指定物种基因模型(基因结构)中得到gene、exon、intron以及UTR等位置信息,通过 
基因组比对结果计算出在不用区域富集片段数目,然后应用RPKM/FPKM标准化公式对富集片 
段的数量进行归一化。 

 RPKM:Reads Per Kilobase of exon model per Million mapped reads,公式下:

FPKM:Fragments Per Kilobase of exon model per Million mapped reads,公式下:


结果展示:表达量相关性图以及表达量分布图。
样本表达相关性,通过相关系数R^2与显著性p值进行相关性检验。
基因表达分布图,1X,5X分别为FPKM=1,FPKM=5分界点,可以大体观察到低表达,中表达以及高表达的比例关系。
 

样本间表达基因关系饼图,可以看出共同表达以及独有表达的概况。
 
4. 差异表达分析 
目的:应用统计学方法对基因在样本间的表达差异进行分析。 
原理:双层过滤筛选差异基因。 
FC值筛选:采用Fold-change(FC),表达差异倍数进行第一层此的差异基因筛选。 
FDR检验:一般采用卡方检验中的fisher精确检验进行p值检验,采用Benjamini FDR(False discovery ratio)校验方法对p值进行假阳性检验,即,通过FDR显著性参数进行第二层次的差异基因筛选。 
结果展示:
 
组间差异基因上调与下调个数统计,可以通过此图观察上调与下调的一个总体趋势
 
差异基因火山图,可以观察到差异基因总体分布
 
5. 转录本结构分析 
目的:侦测不同类型的可变剪切事件。 
原理:通过测序序列的splicing事件来侦测可能发生剪切连接的候选exon,通过已有可变剪切方式进行验证,最终得出真实的可变剪切事件。 
结果展示:对常见的可变剪切方式进行统计分析。
 
6. 新转录本预测 
目的:预测antisense transcript以及intron transcript。 
原理:通过测序序列在基因组上富集的方向性进行反义转录本预测,如果有富集区域方向与基因 
转录本方向相反且达到一定的富集阈值,即可认为其为antisense transcript。将完全位于intron 
区的一段富集片段作为intron transcript。 

7. 新基因预测 
目的:预测intergenic区可能存在的新基因并对新基因进行功能注释。 
原理:首先,得到在基因间区有测序序列富集的一些段区域;然后,排除那些已经有注释的那些段区域作为候选的新基因。 
结果展示:
新基因预测结果,给出了新基因起始、终止位置以及在样本间的表达值。
 
8. 基因融合分析 
目的:寻找可能发生融合功能的基因 
原理:通过测序片段的splicing事件以及pair-end测序的距离信息进行基因融合位点的定位,如 
果一个测序片段的一个子片段与geneA匹配,另一个子片段与geneB匹配,那么geneA与geneB 
有可能为一个融合基因,而当pair-end双向测序时,一对测序片段中一个与geneA匹配,另一 
个与geneB匹配,那么geneA与geneB有可能为一个融合基因。如果同时满足两个条件,那 
么融合发生的可能性就较大。 
结果展示:
 9. GO富集分析 
目的:对差异基因相关GO功能进行富集分析。
显著富集GO功能图形统计

 10. KEGG富集分析 
目的:对差异基因进行KEGG通路富集分析。 
原理:应用物种自己的KEGG pathway进行富集分析,富集结果更加贴近物种现实功能实现的通路,尤其对目前功能注释尚不完全的物种,如,大豆、玉米、葡萄、杨树、白菜、牛、羊等物种的KEGG通路分析。

 


有显著富集功能KEGG通路图,其中,红色标记为差异基因
 
11. cSNV查找 
目的:在转录水平找出变异位点或者片段。 
原理:通过测序数据得到基因组每个位点的碱基富集情况;然后,统计每个点富集富集的碱基种 
类,得出可能存在的变异(即,与参考基因组碱基不同且富集程度较高的碱基类别)。 
结果展示:
 
12. LncRNA预测 
目的:对新转录本进行LncRNA(Long noncoding RNA) 预测。 
原理:通过以下过程对新转录本进行过滤,最终得到候选LncRNA序列: 
1) 通过基因组比对得到4类新转录本:Intergenic transcript、Full intron transcript、Antisense transcript、Overlapped with known transcript,将这些新转录本用于LncRNA预测; 
2) New Transcript length > 200bp; 
3) New Transcript ORF(Open Reading Frame) length < 300; 
4) 将满足长度条件的New Transcript与多个近源物种进行进化分析,得到序列的保守性和进化关系; 
5) 根据上述的特性以及已知数据库中coding、noncoding区域的特性建立编码筛选模型; 
6) 将符合noncoding模型的New Transcript与Pfam等蛋白域数据库进行同源性比对,进一步去除可能的编码特性,最终得出LncRNA预测结果。 

(编辑:sgclp)
  • 上一篇:已经没有了
  • 下一篇:已经没有了

地址:上海市浦东新区张江高科技园区郭守敬路351号1号楼4楼

电话:+86-21-51320133

            +86-21-58816760

            +86-21-58820889
传真:+86-21-51320131



点击这里给我发消息点击这里给我发消息点击这里给我发消息点击这里给我发消息