1. 概述
如今, 至少已有10000多條人類基因被發(fā)現(xiàn), 而且每天約有9條新基因登錄。在下一個(gè)10年中, 人類的所有基因?qū)⒈话l(fā)現(xiàn)。這些基因的命名往往在它的結(jié)構(gòu)功能闡明以前就要進(jìn)行, 因此如果要求基因的命名能表明其功能就不可能。而且, 當(dāng)一個(gè)基因的功能已相當(dāng)清楚時(shí), 一些習(xí)用的命名仍在使用, 這就容易引起誤解。白介素轉(zhuǎn)化酶相關(guān)蛋白酶就是一個(gè)典型的例子。按命名者的偏好, 這個(gè)酶曾被使用過(guò)FILCE、MACH、Mch5、ICErelⅡ、ICH-2和TX等名字, 現(xiàn)在則統(tǒng)一命名為caspase, 依據(jù)該酶是一個(gè)在“天冬氨酸后切斷的半胱氨酸蛋白酶”(cysteine protease with ability to cleave after aspartic acid)。因此建立一個(gè)統(tǒng)一命名規(guī)則及命名程序就顯得非常迫切[1~3]。人類基因命名由人類基因命名委員會(huì)(Committee of Human Gene Nomenclature, 網(wǎng)址http://www.gene. ucl.ac.uk/nomenclature)管理。
2. 獲得一個(gè)人類新基因命名符號(hào)的過(guò)程
2.1 根據(jù)人類基因命名規(guī)則命名一個(gè)基因 命名的原則將在本文第3節(jié)中詳細(xì)說(shuō)明。
2.2 查找GDB(genome database)數(shù)據(jù)庫(kù) GDB網(wǎng)址http://gdbwww.gdb.org。通過(guò)查找GDB以確定命名的新基因名在GDB數(shù)據(jù)庫(kù)中沒有出現(xiàn)過(guò)。要注意的是, 新基因名在GDB中沒有出現(xiàn)過(guò)不僅是指新基因的全名在GDB數(shù)據(jù)庫(kù)中沒有出現(xiàn)過(guò), 而且新基因符號(hào)的詞根在GDB中也要沒有出現(xiàn)過(guò)。如要命名一個(gè)基因?yàn)椤癙TGG1”, 雖然在GDB數(shù)據(jù)庫(kù)中沒有出現(xiàn)過(guò)“PTGG1”, 但“PTGG1”仍不能作為基因符號(hào), 因?yàn)椤癙TG”已用于代表前列腺素(prostaglandin),用“PTGG1”將干擾已用“PTG”為頭命名的基因系列:
PTGDR 前列腺素D2受體基因
PTGDS 前列腺素D2合酶基因
PTGER1 前列腺素E受體1基因
PTGER2 前列腺素E受體2基因
PTGER3 前列腺素E受體3基因
PTGER4 前列腺素E受體4基因
PTGIR 前列腺素I2受體基因
PTGIS 前列腺素I2合酶基因
此外, 如果一個(gè)要命名的新基因已有一些相關(guān)的基因符號(hào)存在, 則新基因的命名應(yīng)借鑒相關(guān)基因的命名模式, 這就是“平行規(guī)則”。如前列腺素I2合酶基因不能用基因符號(hào)“PIS”來(lái)命名, 而應(yīng)根據(jù)平行規(guī)則命名為“PTGIS”。
2.3 查詢?nèi)祟惢蛎麛?shù)據(jù)庫(kù)(網(wǎng)址http://www.gene.ucl.ac.uk/cgibin/nomenclature/searchgenes.pl) 確認(rèn)命名的基因沒有與基因家族的基因符號(hào)相沖突。有些基因家族和超家族有自己專門的命名小組。例如, 細(xì)胞色素P450基因超家族[4]用“CYP”為頭命名所有超家族成員, 以數(shù)字區(qū)分家族成員, 再用字母加數(shù)字表示亞家族成員, 如CYP2C38等。其它一些有自己專門命名規(guī)則的還有HLA[5]、CD抗原[6]及磷酸二酯酶[7]等。
2.4 將命名的基因符號(hào)遞交給HUGO/GDB 基因符號(hào)如果得到確認(rèn), 將進(jìn)入GDB數(shù)據(jù)庫(kù), 網(wǎng)址http://www.gene.ucl.ac.uk/nomenclature /submit.html。
通過(guò)以上步驟就獲得了一個(gè)基因的命名符號(hào)。
3. 人類基因命名規(guī)則[8]
3.1 一般規(guī)則
(1)基因符號(hào)應(yīng)為大寫的拉丁字母或大寫的拉丁字母和阿拉伯?dāng)?shù)字的組合?;蚍?hào)為了有使用的價(jià)值應(yīng)盡可能地簡(jiǎn)潔, 而且不要試圖它包含一個(gè)基因所有的已知信息。理想的符號(hào)應(yīng)不超過(guò)6個(gè)字符?;蚍?hào)在書寫時(shí)應(yīng)用斜體或加下劃線, 但在目錄中例外。新的基因符號(hào)不能與已存在的基因符號(hào)重復(fù)。
(2)基因符號(hào)的第一個(gè)字符必須是字母, 隨后的字符可以是字母或字母與數(shù)字的組合。
(3)基因符號(hào)在書寫時(shí)應(yīng)在同一行, 不允許在基因符號(hào)中使用上標(biāo)或下標(biāo)。
(4)不能使用羅馬數(shù)字。在以前使用的基因符號(hào)中的羅馬數(shù)字應(yīng)改成相應(yīng)的阿拉伯?dāng)?shù)字。
(5)不能使用希臘字母, 所有的希臘字符應(yīng)改成相應(yīng)的拉丁字母。希臘拉丁字母互換表請(qǐng)查閱網(wǎng)頁(yè)http://www. gene. ucl.ac.uk/nomenclature/ guidelines.html
(6) 在以希臘字母打頭的基因符號(hào)中須將它改成相應(yīng)的拉丁字母并放在基因符號(hào)的后面。如GLA(galactosidase, alpha)、GLB(galatosidase, beta)。
(7)基因符號(hào)應(yīng)簡(jiǎn)潔和特異, 并能傳達(dá)基因的功能或特性。
3.2 基因符號(hào)的構(gòu)建建議
3.2.1 等級(jí)符號(hào), 基因家族和系列
(1)為了方便一批相關(guān)基因從計(jì)算機(jī)數(shù)據(jù)庫(kù)中獲取, 應(yīng)盡量使用等級(jí)方式。
(2)當(dāng)不同的基因編碼具有類似功能的基因產(chǎn)物時(shí), 基因位點(diǎn)的命名應(yīng)緊跟在基因符號(hào)后加阿拉伯?dāng)?shù)字, 字母和數(shù)字之間不能使用空格, 如ADH1、ADH2、ADH3(三個(gè)乙醇脫氫酶基因位點(diǎn))。但是, 如果它們已在歷史上存在, 單個(gè)字母的后綴也可來(lái)命名這些基因位點(diǎn), 如LDHA、LDHB、LDHC(三個(gè)乳酸脫氫酶位點(diǎn))。
(3)基因符號(hào)的最后一個(gè)字符可用來(lái)指定基因的某一特性。在歷史上曾用組織分布指定基因特性, 但如今更傾向于使用阿拉伯?dāng)?shù)字。因?yàn)橐郧罢J(rèn)為的組織特異性在后來(lái)證實(shí)基因可能并不局限在這些組織中表達(dá)。
3.2.2 同源基因
(1)在不同脊椎動(dòng)物中的同源基因應(yīng)有相同的命名。
(2)如果一個(gè)基因先在其它物種中發(fā)現(xiàn), 然后發(fā)現(xiàn)它在人中的同源基因, 則人的基因不應(yīng)以H開頭予以命名。
(3)為了區(qū)分來(lái)自不同物種的同源基因, 可在基因符號(hào)前加由人類細(xì)胞遺傳學(xué)標(biāo)準(zhǔn)化委員會(huì)(Committee on Standardization in Human Cytogenetics)制定的三字母代碼(物種縮寫表請(qǐng)查閱網(wǎng)頁(yè)http://www.gene.ucl.ac.uk/nomenclature/guidelines.html)。但要注意的是, 這三字母代碼僅用作出版, 而不作為基因符號(hào)的一部分。這個(gè)物種代碼是加在基因符號(hào)前。如HAS代表人類(Homo sapiens), MMU代表家鼠(Mus musculus)。使用這些物種符號(hào)的基因符號(hào)的例子如(HSA)G6PD、(HSA)HBB、(MMU)A1b。
(4)如果與非脊椎動(dòng)物或原核生物同源, 人類基因可用這些同源基因的名字, 并可在后面加L表示類似的(like)和加上數(shù)字編號(hào)(如果在人中有多個(gè)同源基因)。用H來(lái)表示同源的方法已不推薦, 將被停止使用。
3.2.3 酶和蛋白質(zhì) 酶和蛋白質(zhì)的命名應(yīng)參照國(guó)際生物化學(xué)和分子生物學(xué)聯(lián)盟命名委員會(huì)(Nomenclature Committee of the International Union of Biochemistry and Molecular Biology, 網(wǎng)址http://alpha.qmw.ac. uk/~ugca000/iupac/jcbn)的推薦[9]。
3.2.4 一些具有特殊用途的保留字 一些字母或字母的組合放在基因符號(hào)的最后一個(gè)字母的后面表示特定的意義, 如P代表假基因(但要注意BP代表結(jié)合蛋白), L代表類似的, R代表受體或調(diào)節(jié)因子, N或NH代表抑制子。在其它場(chǎng)合應(yīng)避免使用這些字母或字母的組合。
4. DNA片段的命名
DNA片段的命名一般由四部分組成。第一部分用D表示DNA;第二部分用0、1、2、...22、X、Y、XY表示DNA片段所在的染色體位置, 其中0代表還不知染色體位置, 而XY表示片段在X和Y染色體上都有該片段;第三部分表示用探針檢測(cè)到的DNA片段的復(fù)雜程度, S代表這是一條獨(dú)一無(wú)二的DNA片段, Z代表在染色體一個(gè)單一位置重復(fù)出現(xiàn)的DNA片段, F代表在多條染色體上都存在同源序列但還沒有定義家族的DNA片段;第四部分為區(qū)分不同的DNA片段加上一個(gè)數(shù)字編號(hào), 比如微衛(wèi)星DNA標(biāo)簽(microsatellite DNA marker)DXS990表示在X染色體上獨(dú)一無(wú)二的編號(hào)990的DNA片段。如果DNA片段是一個(gè)表達(dá)序列, 可在上述四部分后加一個(gè)后綴E。
5. 推測(cè)基因的命名
推測(cè)基因包括從EST簇或染色體序列中推測(cè)而來(lái)的基因、假基因及通過(guò)交叉雜交(crosshybridization)或計(jì)算機(jī)搜索序列數(shù)據(jù)庫(kù)而來(lái)的基因三種。從EST簇或染色體序列中推測(cè)得來(lái)的基因的命名是在基因所在染色體的編號(hào)后加一個(gè)絕對(duì)數(shù)字編號(hào)。假基因是指該序列自己不轉(zhuǎn)錄但是與轉(zhuǎn)錄的結(jié)構(gòu)基因在序列上高度同源的基因。為了表示假基因與結(jié)構(gòu)基因的對(duì)應(yīng)關(guān)系, 假基因的命名是在結(jié)構(gòu)基因后加一個(gè)P表示, 如ACTBP2(actin beta pseudogene 2)。通過(guò)交叉雜交或計(jì)算機(jī)搜索序列數(shù)據(jù)庫(kù)得來(lái)的基因的命名一般是在已知基因后加一個(gè)L以表示類似的。
6. 基因命名的發(fā)展趨勢(shì)
人類基因的命名不僅僅只與人類基因相關(guān)?;蛲ㄟ^(guò)同源性分析而來(lái)的同源基因往往借用其它物種中同源基因的名字。一些基因家族和超家族有自己專門的命名體系。因此不同物種命名委員會(huì)之間及命名委員會(huì)與家族或超家族命名體系間的相互協(xié)調(diào)對(duì)于提高命名有用性, 減少命名的管理費(fèi)用及方便用戶查詢是必不可少的[10]。
參考文獻(xiàn)
[1]White BJ et al. Nature, 1999, 401: 411
[2]Nature, 1999, 401:411
[3]White BJ. Nature, 1997, 390:397
[4]Nelson DR et al. Pharmacogenetics, 1996, 6(1):1--2
[5]Tissue Antigen, 2000, 55(1):100
[6]Bull World Health Organ, 1997, 75(4):385--387
[7]http://depts. washington. edu/pde/
[8]White JA. Genomics, 1997, 45:468--471
[9]Webb EC. FASEB J, 1993, 7:1192--1194
[10]White JA et al. Genomics, 1999, 62:320--323
(本文原刊登在《生命的化學(xué)》2000年第4期)
聯(lián)系客服