KEGG 数据库介绍
- KEGG PATHWAY Database(代谢通路数据库);
- KEGG BRITE Database(分层分类数据库);
- KEGG GENES Database(基因数据库);
- KEGG GENOME Database(基因组数据库);
- KEGG LIGAND Database(配体数据库);
- KEGG EXPRESSION Database(基因芯片 数据库)
- 基因关系可靠但注释率不高(收录的信息都是有文献支持的)
- 存在三级结构 (A,B,C 级,富集分析中可关注 B 或 A 级可能更直观,通常富集分析的通路都是 C 级的结果)
- 存在两类节点(基因、代谢物)
KEGG 通路图信息
● 通路图中节点:两大元素:
基因(默认指蛋白)+化合物(一 般为代谢物),有时候也代表上下游隔壁通路
● 通路图中的线:三类关系:
1)蛋白-蛋白互作关系 (占 KEGG 大部分关系)
2)转录调控关系(基因表达)
3)酶~代谢物关系(酶促反应)
节点可能对应多个基因,不是只代表一个基因。
kegg 各个通路并非完全独立的,而是存在着普遍的联系。而且 kegg 通路的联系一般不是单纯的上下游关系,更多是类似韦恩图这样的重叠关系。
KEGG 命名规则
针对特定基因,KEGG 会提供更多详细信息: (1)基因信息(Entry, Name, Definition) (2)Pathway,该基因参与了哪些通路 (3)Disease,该基因涉及哪些疾病 (4)Brite,该基因涉及的通路的分级关系,即展示 A 级通路-B 级通路-C 级通路-基因的分层级关系信息) (5)genes,该基因的各个物种中的同源基因。前三个字母是这个物种拉丁名的简写,例如,HSA 代表人。
注:
kegg 中的基因是以功能分类的,所以每个通路节点的基因代表的是一类功能基因(或者说是一个基因家族)。
该基因在其他物种中的同源基因 kegg 也会提供列表。不过也主要集中在一些模式生物,其他非模式生物不会提供这些信息或者提供的不全。
KEGG 的 ID 系统
(1)K+num(备注:大写 K)
基因 ID 号,表示在所有同源物种中具有相似结构或功能的一类同源蛋白。
如 K04456=>丝氨酸/苏氨酸蛋白激酶
(2)ko+num(备注:ko 小写)
代谢通路名称,表示一个特定的生物路径。
如:ko04151 => PI3K-AKT 信号通路
(3)H + num
数据库里收录的疾病的 ID。
如 H00027 => Ovarian cancer (卵巢癌)。进入该疾病的页面,会简绍卵巢癌简介以及涉及的基因、通路、药物等信息。
(4)C+num
化合物名,通常就是代谢物。记住 kegg 通路是代谢通路数据库,通路里除了基因还有大量代谢物。
如 C00533 =>NO(一氧化氮)
(5)E -.-.-.-(酶名)
很多基因本身就是一种酶,所以他们除了有 Kxxxx 的编号,还有对应一个酶编号。
如 EC2.7.11.1 => 丝氨酸/苏氨酸激酶(即 K04456,AKT 的另外一个编号)