DAVID数据库(https://david.ncifcrf.gov/home.jsp)是一个功能注释工具,提供了全面的功能注释、可视化和综合发现的功能。DAVID是The Database for Annotation, Visualization and Integrated Discovery的缩写,也即注释、可视化、综合发现数据库。通过DAVID数据库,用户可以轻松地对给定的基因列表进行功能注释、功能富集分析、功能聚类以及基因名称转换等相关操作。这些功能为我们理解海量基因背后的生物学意义提供了便利。用户可以将自己的基因列表输入到数据库中,通过分析和解释这些基因的功能和相互关系,从而揭示基因之间的潜在关联和功能。此外,DAVID数据库还提供了交互式的可视化工具,帮助用户直观地理解和展示基因的功能注释结果。
GO富集分析主要从生物学过程(Biological Process,BP)、细胞组分(Cellular Component,CC)、分子功能(Molecular Function,MF)三个维度揭示各基因集中基因在基因本体(Gene Ontology,GO)上的富集情况。
KEGG富集分析则是用于分析基因或蛋白在KEGG通路中的富集情况的一种常见的生物信息学分析方法。其中,KEGG Pathway是用于反映分子相互作用、反应及关系网络的路径图,主要包含代谢(Metabolism)、遗传信息处理(Genetic Information Processing)、环境信息处理(Environmental Information Processing)、细胞过程(Cellular Processes)、有机系统(Organismal Systems)、人类疾病(Human Diseases)、药物开发(Drug Development)七个方面的内容。
本文示范使用DAVID数据库进行GO和KEGG富集分析,并通过简单柱状图展示结果,实现可视化。
二、 功能富集分析流程
1.准备好待分析的基因,进入DAVID数据库,点击“Start Analysis”开始分析;
2.点击“Upload”,将待分析的基因粘贴进去或者选择直接以文件的形式上传;
3.在“Select Identifier”中选择“OFFICIAL_GENE_SYMBOL”(需注意按照你所提交的基因格式进行选择);在“Select Species”选择待分析的物种(需注意此处物种名应为拉丁名),如:小鼠(Mus musculus);在“List Type”中勾选“Gene List”;点击“Submit List”提交基因列表;
4.等待片刻,然后点击“Functional Annotation Tool”(见图1),可以看到一个分析结果的汇总,点击旁边的“+”按钮即可展开相应的各个选项,按需勾选即可,后面括号所示内容即为各个版块分别勾选的内容数目,点击“Chart”即可看到相应分析结果(见图2),我们要进行的GO和KEGG分析分别在“Gene_Ontology”和“Pathways”选项中,将其一一勾选(见图3、图4),其余暂时不需要分析的选项可取消勾选(见图4-5);
5.点击“Functional Annotation Chart”,即可得到完整的富集分析结果,右键点击“Download File”,点击“链接另存为”即可保存分析结果。
三、 结果可视化
得到富集分析结果后,可以采用R语言实现结果可视化,当然,如若不会R语言也没关系,可以采用最基本的Excel表格实现结果可视化,具体操作如下:
1.用Excel表格打开刚刚下载好的文件,可以看到该文件包含了GO富集和KEGG富集分析的所有结果,选择P<0.05,FDR<0.05的数据进行作图(注意:此处示例文件数据不太好,故而不再筛选数据,全部数据均用于作图,大家掌握基本操作即可);
2.作图我们仅需保存“Category”、“Term”、“Count”三个版块的内容。选择此三列的内容,新建副本进行粘贴保存,后续所有操作均在副本上进行(注意:将数据另存副本再进行相关操作是大家日常学习中需要刻意培养的一个好习惯,这样可以最大限度保证原始数据的完整性,尤其是在生物信息学分析过程中涉及数据筛选且数据量比较大时,可以最大限度防止原始数据丢失,另外也可以清晰地保留数据筛选完整流程);
3.鉴于结果相对比较分散,为方便作图,可以对该表格进行适度调整。全选表格→点击“数据”→“排序”→按照自己喜欢的方式进行排序即可;
4.对于“Category”部分我们只需保存标志性标识BP、CC、MF和KEGG以达到简化的目的,可通过“分列”实现。在“Term”列前新建两列,选中“Category”列,点击“数据”→“分列”→“分隔符号”→按照“_”号进行分列,再对结果进行适当调整,删除无关内容;
5.再对BP、CC、MF和KEGG分别按照“Count”进行排序,以使做出来的柱状图更加规整;
6.全选→点击“插入”→选择“柱状图”,再对柱状图进行美化即可完成GO和KEGG富集分析的可视化。
更多信息查看:艾美捷科技:http://www.51antibodies.com/ http://www.51kits.com/