生物專業(yè)這些數(shù)據(jù)庫怎么能不知道呢？

2017.10.26 北京

大數(shù)據(jù)的研究都離不開數(shù)據(jù)庫，相對于大家熟悉的基因組、轉(zhuǎn)錄組研究數(shù)據(jù)庫，蛋白質(zhì)組常用的數(shù)據(jù)庫又有哪些呢？它們之間又有何不同之處呢？下面就由小編帶領(lǐng)大家走進(jìn)蛋白質(zhì)組學(xué)數(shù)據(jù)庫。

蛋白數(shù)據(jù)庫分為搜庫、功能注釋、蛋白互作三大模塊。搜庫用于蛋白定性，確定蛋白種類；蛋白功能注釋，將單個(gè)蛋白、功能、生物表征變化有機(jī)結(jié)合起來；蛋白互作，統(tǒng)籌分析蛋白質(zhì)之間的直接物理互作和間接功能互作。

搜庫數(shù)據(jù)庫

搜庫是蛋白質(zhì)組研究的基石，可以將實(shí)驗(yàn)得到的質(zhì)譜數(shù)據(jù)轉(zhuǎn)化為蛋白信息，用于蛋白定性。因此搜庫數(shù)據(jù)庫的選擇直接關(guān)乎到鑒定出的蛋白質(zhì)個(gè)數(shù)和質(zhì)量。一般來說都會選用來源于 Uniprot 或者 NCBI 的所研究物種對應(yīng)的數(shù)據(jù)庫。

01Uniprot 數(shù)據(jù)庫

Uniprot 數(shù)據(jù)庫 (http://www.uniprot.org/) 全稱 Universal Protein，主要來源于物種全基因組測序結(jié)果預(yù)測出的蛋白質(zhì)序列，包含了大量來自文獻(xiàn)的蛋白質(zhì)的生物功能的信息，因此是收錄最廣泛、注釋信息最全面的蛋白質(zhì)數(shù)據(jù)庫。它由 Swiss-Prot、TrEMBL 和 PIR-PSD 三部分組成。其中 Swiss-Prot 數(shù)據(jù)庫是注釋精煉的蛋白序列庫，它的所有序列都經(jīng)過科學(xué)家查閱文獻(xiàn)的核實(shí)。

一般情況下，如果蛋白質(zhì)組所研究的物種是已被測序的生物，推薦使用 Uniprot 數(shù)據(jù)庫作為搜庫的數(shù)據(jù)庫。

02NCBI 的蛋白數(shù)據(jù)庫

NCBI 的蛋白數(shù)據(jù)庫 (https://www. ncbi. nlm. nih. gov/protein/) 容量較 Uniprot 更大，但一些注釋信息有缺失，相對于 Uniprot 不夠嚴(yán)謹(jǐn)，如果想追求更多鑒定的可能性，也可以作為搜庫數(shù)據(jù)庫使用。

功能注釋數(shù)據(jù)庫

無論是蛋白質(zhì)組學(xué)研究還是基因組學(xué)、轉(zhuǎn)錄組學(xué)研究最終的目的都是通過研究生物個(gè)體內(nèi)在機(jī)理變化去解釋生物個(gè)體外在表征變化。因此在搜庫鑒定出蛋白種類之后，蛋白與生物個(gè)體外在表征之間還缺一個(gè)橋梁，這便是蛋白功能注釋。GO、KEGG 和COG 是蛋白注釋的三大數(shù)據(jù)庫。

01GO數(shù)據(jù)庫

GO (http://www.geneontology.org/)的全稱是 Gene Ontology，它涵蓋生物學(xué)的三個(gè)方面：細(xì)胞組分、分子功能、生物過程，是一套國際標(biāo)準(zhǔn)化基因功能描述的分類系統(tǒng)。經(jīng)過 GO 數(shù)據(jù)庫的注釋，鑒定蛋白的結(jié)構(gòu)、功能等可以得到充分的詮釋。

同時(shí)，在 GO 數(shù)據(jù)庫中包含有蛋白質(zhì)的結(jié)構(gòu)域信息，考慮到蛋白質(zhì)的結(jié)構(gòu)域?qū)τ诶斫獾鞍踪|(zhì)的生物學(xué)功能及其進(jìn)化具有重要的意義，也可以單獨(dú)提取結(jié)構(gòu)域的注釋信息進(jìn)行統(tǒng)計(jì)或富集分析。

02KEGG 數(shù)據(jù)庫

KEGG 數(shù)據(jù)庫 (http://www.genome.jp/kegg/) 是一個(gè)整合了基因組、化學(xué)和系統(tǒng)功能信息的數(shù)據(jù)庫，這里的KEGG數(shù)據(jù)庫主要是指 PATHWAY 的部分。在生物體內(nèi)，不同蛋白相互協(xié)調(diào)行使其生物學(xué)行為，基于 PATHWAY 的分析有助于更進(jìn)一步了解其生物學(xué)功能。

關(guān)于 GO 與 KEGG 的介紹是不是還是有些陌生？我們簡單辨析一下：功能注釋相當(dāng)于一個(gè)篩子，將所有的蛋白按照其生物學(xué)功能分門別類。GO 注釋，相當(dāng)于粗篩；KEGG，相當(dāng)于細(xì)篩。舉一個(gè)“栗子”，大家就明白了，某一個(gè)蛋白，GO 只能將它注釋到與三羧酸循環(huán)有關(guān)；而 KEGG 則可以將它注釋到三羧酸循環(huán)通路中的某一個(gè)環(huán)節(jié)。

03COG 數(shù)據(jù)庫

COG (蛋白質(zhì)直系同源簇) 數(shù)據(jù)庫是 NCBI 開發(fā)的用于同源蛋白注釋的數(shù)據(jù)庫，是將細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白，根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。通過鑒定蛋白與數(shù)據(jù)庫的比對，可以很好的預(yù)測蛋白質(zhì)的功能。

每一個(gè)功能注釋數(shù)據(jù)庫都有自己偏倚性，為了提高注釋到的蛋白數(shù)目以及注釋質(zhì)量，往往采用多個(gè)注釋數(shù)據(jù)庫聯(lián)用的方式。

蛋白互作數(shù)據(jù)庫

蛋白質(zhì)是生命活動的最主要載體，更是功能的執(zhí)行者，每一個(gè)生物學(xué)功能都涉及到多個(gè)通路多個(gè)蛋白之間的相互作用，因此，蛋白質(zhì)組學(xué)研究，又怎么能少的了蛋白質(zhì)之間的關(guān)聯(lián)分析呢？STRING 數(shù)據(jù)庫 (https://string-db.org/) 是很常用的蛋白互作數(shù)據(jù)庫，可以方便地根據(jù)蛋白序列或蛋白名稱在網(wǎng)站上選定物種進(jìn)行預(yù)測，預(yù)測出的蛋白質(zhì)相互作用包括了直接的物理相互作用和間接的功能相關(guān)性。然后可以根據(jù)蛋白互作信息用 Cytoscape 軟件做出好看的互作網(wǎng)絡(luò)圖。