首先我問了一下chatGPT關于kegg數據庫的hsa系統(tǒng)介紹:
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是一個集成了基因組、代謝組和信號傳導通路等多種生物信息學數據和分析工具的綜合性數據庫。KEGG數據庫的hsa系統(tǒng)是其中的一個分支,專注于人類基因組和蛋白質組的信息整合、注釋和分析。下面是hsa系統(tǒng)的一些主要特點:
總之,KEGG數據庫的hsa系統(tǒng)為研究人類基因組和蛋白質組提供了一個非常有價值的資源和工具,廣泛應用于生物醫(yī)學研究、藥物研發(fā)等領域。
目前(2023-04-03)在 https://rest.kegg.jp/list/pathway/hsa 可以看到全部的人類的通路,比如:
hsa01100 Metabolic pathways - Homo sapiens (human)
hsa01200 Carbon metabolism - Homo sapiens (human)
hsa01210 2-Oxocarboxylic acid metabolism - Homo sapiens (human)
hsa01212 Fatty acid metabolism - Homo sapiens (human)
目前(2023-04-03)在 https://rest.kegg.jp/link/hsa/pathway 可以看到全部的人類的通路以及它對應的基因的hsa系列id,比如:
path:hsa00010 hsa:10327
path:hsa00010 hsa:124
path:hsa00010 hsa:125
path:hsa00010 hsa:126
path:hsa00010 hsa:127
這樣就有一點尷尬,因為人類的通路我們可以容忍它是kegg數據庫的id,但是人類的基因我們不需要 hsa:127這樣的東西,也很難理解,關于這些id的定義當然了看kegg的官網即可;
比如:https://www.genome.jp/dbget-bin/www_bget?hsa:230 就可以看到這個基因的很詳細的信息:
ALDOC, ALDC
(RefSeq) aldolase, fructose-bisphosphate C
NCBI-GeneID: 230
NCBI-ProteinID: NP_005156
OMIM: 103870
HGNC: 418
Ensembl: ENSG00000109107
Pharos: P09972(Tbio)
UniProt: P09972 A0A024QZ64
那么就需要一個轉換,如何把kegg數據庫的hsa系列id轉為基因名字呢,我繼續(xù)詢問chatGPT,這次它給了我一個略有瑕疵的代碼:
如果有r基礎,很容易修改成功:
library(KEGGREST)
# example list of hsa IDs
hsa_ids <- c("hsa:10458", "hsa:23545", "hsa:10157")
# retrieve information about the genes
gene_info <- keggGet( hsa_ids )
# extract the gene names from the information
gene_names <- sapply(gene_info, function(x) x$NAME)
# print the gene names
print(gene_names)
所以,接下來只需要去 https://rest.kegg.jp/link/hsa/pathway 拿到人類的全部的基因的hsa格式的id,然后使用 keggGet 函數即可批量轉換啦。
聯系客服