KEGG 官網(wǎng)提供了API, 可以方便的訪問KEGG 數(shù)據(jù)庫中的內(nèi)容,鏈接如下:
http://www.kegg.jp/kegg/rest/keggapi.html
利用API可以得到某一個基因參與的pathway 信息, 以human 為例;
1) 第一步,獲取每條pathway具體的描述信息
對應(yīng)的API為 : http://rest.kegg.jp/list/pathway/hsa
內(nèi)容如下:
可以看到,返回的內(nèi)容一共兩列,第一列為物種對應(yīng)的pathway, 第二列為該pathway 對應(yīng)的描述信息;
2)第二步, 獲取物種對應(yīng)的基因信息
對應(yīng)的API 為:http://rest.kegg.jp/list/hsa
內(nèi)容如下:
可以看到,第一列為基因在KEGG數(shù)據(jù)庫中的ID, 第二列為該基因的具體信息,其中RefSeq 字段之后的內(nèi)容為該基因的名字,比如 hsa:222029 對應(yīng)的gene symbol 為DKFzp434L92
如果這個基因在Refseq 之后的內(nèi)容有逗號分隔的多個內(nèi)容,取第一個作為其gene symbol
以hsa:101954268為例,對應(yīng)的gene symbol 為 RNVu1-20
通過以上方法獲得的gene symbol 和NCBI的GENE 數(shù)據(jù)庫中的基因名是一致的
3) 第三步, 獲取基因和pathway 之間的對應(yīng)的關(guān)系
對應(yīng)的API 為:http://rest.kegg.jp/link/pathway/hsa
內(nèi)容如下:
可以看出,第一列為KEGG數(shù)據(jù)庫中的ID, 第二列為該基因參與的pathway的ID;
通過上述的三個內(nèi)容,就可以得到基因參與的pathway信息
我寫了一個perl腳本,自動的下載對應(yīng)對應(yīng)的信息,最終輸出的結(jié)果如下所示:
第一列為基因在KEGG數(shù)據(jù)庫中的ID, 第二列為基因的名字,第三列該基因參與的pathway, 如果有多條pathway的話,用 | 分隔
聯(lián)系客服