富集分析原理和本质的简单图解
1. 为什么要做功能富集分析?
组学数据中的差异基因或物质数量庞大,逐一研究和验证是不现实的。功能富集分析可以根据基因或物质的功能进行分类,将功能相似的项聚在一起,减少工作量并有助于将功能与表型关联。
2. 什么是富集?
富集指的是差异基因或物质中,某个代谢通路的基因或物质所占的比例显著高于背景基因或物质在该通路中的比例。
3. 常用的富集分析方法有哪些?
常见的富集分析方法有GO富集分析、KEGG富集分析和GSEA富集分析。前两者通过超几何分布计算p值,判断是否富集;GSEA则根据基因集成员在差异表达基因排序中的位置来判断是否富集,主要关注排序的两端。
4. 什么是GO富集分析?
GO用于描述基因的三个层面:分子功能(如催化活性)、细胞组分(如细胞膜定位)和生物过程(如物质运输)。GO富集分析判断差异基因是否富集在这些功能层面中。例如,铁离子结合的GO term是GO:0005506,若分析结果中该term富集,可能表明研究现象与铁离子结合相关。
5. 什么是KEGG富集分析?
KEGG展示了代谢通路中基因或物质之间的关系。通过KEGG分析得到的富集通路编号(如map00010:糖酵解/糖异生)可帮助理解现象的机制。一个通路可能富集多个基因,也可能没有富集任何基因,因此差异基因与KEGG结果的数量不一定一一对应。
6. 什么是GSEA富集分析?
GSEA分析将差异表达基因按表达差异倍数排序,检查某基因集中的基因是否集中在排序的前端或后端。前端集中表示该基因集上调,后端集中则表示下调。GSEA主要关注排序两端的基因。
7. GO、KEGG和GSEA富集分析的区别?
GO分析:用于找出差异基因引起的功能改变。
KEGG分析:用于找出差异基因对代谢通路的影响。
注:GO和KEGG富集需要明确的阈值,这可能导致某些重要基因被忽略。
GSEA分析:不需要指定阈值,基于整体趋势分析,可以补充GO和KEGG的富集结果。
8. 是否可以进行在线富集分析?
可以,常用的在线富集分析网站有DAVID(https://david.ncifcrf.gov/)和KOBAS(http://kobas.cbi.pku.edu.cn/),它们支持GO和KEGG富集分析。
9. 如何解读GO富集分析结果?
Level:GO分类的层级,分为分子功能、细胞组分和生物过程。
ID:GO term的唯一标识符。
Description:GO term的功能描述。
GeneRatio:该GO term中富集的差异基因数与总差异基因数的比例。
BgRatio:该GO term中所有基因数与物种中所有具有GO注释基因的比例。
p-value:富集的显著性水平,越小表示越显著。
p.adjust:校正后的p值,用于控制多重比较中的假阳性率。
q-value:进一步校正后的p值,用于更严格的显著性评估。
GeneID:富集到该GO term中的基因ID。
Count:富集到该GO term中的差异基因数量。
10. 如何解读GO富集分析结果图?
GO注释的结果通常有三种展示形式:有向无环图(DAG)、柱状图和气泡图。具体介绍如下:
(1)有向无环图:
框内信息:第一行:GO term编号第二行:功能描述第三行:p值第四行:该term中富集的差异基因数与该term所有基因数的比例
图片信息
(2)柱状图:
图片的信息介绍
(3)气泡图:
图片的信息介绍
11. 如何解读KEGG富集分析结果?
KEGG富集分析的结果与GO富集类似,主要包含以下内容:
12. 如何查看GSEA富集分析结果?
GSEA(基因集富集分析)富集结果类似于GO和KEGG富集,常见字段包括:
13. 如何解读GSEA富集分析图?
我明天写个代码跑个新图,真是的
GSEA富集图通常由三部分组成:
第一部分:富集分数图
纵坐标为Enrichment Score (ES),显示该通路内所有基因的富集分数,通常最高峰表示该通路的富集得分。峰值所在的通路值得深入研究。
第二部分:基因排序条形码
每条黑线表示一个基因,基因按其排序位置显示。红色部分表示基因在目标样本中高表达,紫色部分表示基因在对照组中高表达。
第三部分:基因排序分布图
纵坐标为Ranked List Metric,可以理解为基因的表达差异(如FC值)。通过该图可以看到基因在排序中的分布及富集趋势。
明天决定一次性画完这些图,毕竟比较简单。
生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!
喜欢的宝子们点个赞吧~码字不易,且行且珍惜~