大數(shù)據(jù)的研究都離不開數(shù)據(jù)庫,相對于大家熟悉的基因組、轉(zhuǎn)錄組研究數(shù)據(jù)庫,蛋白質(zhì)組常用的數(shù)據(jù)庫又有哪些呢?它們之間又有何不同之處呢?下面就由小編帶領(lǐng)大家走進(jìn)蛋白質(zhì)組學(xué)數(shù)據(jù)庫。
蛋白數(shù)據(jù)庫分為搜庫、功能注釋、蛋白互作三大模塊。搜庫用于蛋白定性,確定蛋白種類;蛋白功能注釋,將單個(gè)蛋白、功能、生物表征變化有機(jī)結(jié)合起來;蛋白互作,統(tǒng)籌分析蛋白質(zhì)之間的直接物理互作和間接功能互作。
搜庫數(shù)據(jù)庫
搜庫是蛋白質(zhì)組研究的基石,可以將實(shí)驗(yàn)得到的質(zhì)譜數(shù)據(jù)轉(zhuǎn)化為蛋白信息,用于蛋白定性。因此搜庫數(shù)據(jù)庫的選擇直接關(guān)乎到鑒定出的蛋白質(zhì)個(gè)數(shù)和質(zhì)量。一般來說都會選用來源于 Uniprot 或者 NCBI 的所研究物種對應(yīng)的數(shù)據(jù)庫。
Uniprot 數(shù)據(jù)庫 (http://www.uniprot.org/) 全稱 Universal Protein,主要來源于物種全基因組測序結(jié)果預(yù)測出的蛋白質(zhì)序列,包含了大量來自文獻(xiàn)的蛋白質(zhì)的生物功能的信息,因此是收錄最廣泛、注釋信息最全面的蛋白質(zhì)數(shù)據(jù)庫。它由 Swiss-Prot、TrEMBL 和 PIR-PSD 三部分組成。其中 Swiss-Prot 數(shù)據(jù)庫是注釋精煉的蛋白序列庫,它的所有序列都經(jīng)過科學(xué)家查閱文獻(xiàn)的核實(shí)。
一般情況下,如果蛋白質(zhì)組所研究的物種是已被測序的生物,推薦使用 Uniprot 數(shù)據(jù)庫作為搜庫的數(shù)據(jù)庫。
NCBI 的蛋白數(shù)據(jù)庫 (https://www. ncbi. nlm. nih. gov/protein/) 容量較 Uniprot 更大,但一些注釋信息有缺失,相對于 Uniprot 不夠嚴(yán)謹(jǐn),如果想追求更多鑒定的可能性,也可以作為搜庫數(shù)據(jù)庫使用。
功能注釋數(shù)據(jù)庫
無論是蛋白質(zhì)組學(xué)研究還是基因組學(xué)、轉(zhuǎn)錄組學(xué)研究最終的目的都是通過研究生物個(gè)體內(nèi)在機(jī)理變化去解釋生物個(gè)體外在表征變化。因此在搜庫鑒定出蛋白種類之后,蛋白與生物個(gè)體外在表征之間還缺一個(gè)橋梁,這便是蛋白功能注釋。GO、KEGG 和COG 是蛋白注釋的三大數(shù)據(jù)庫。
GO (http://www.geneontology.org/)的全稱是 Gene Ontology,它涵蓋生物學(xué)的三個(gè)方面:細(xì)胞組分、分子功能、生物過程,是一套國際標(biāo)準(zhǔn)化基因功能描述的分類系統(tǒng)。經(jīng)過 GO 數(shù)據(jù)庫的注釋,鑒定蛋白的結(jié)構(gòu)、功能等可以得到充分的詮釋。
同時(shí),在 GO 數(shù)據(jù)庫中包含有蛋白質(zhì)的結(jié)構(gòu)域信息,考慮到蛋白質(zhì)的結(jié)構(gòu)域?qū)τ诶斫獾鞍踪|(zhì)的生物學(xué)功能及其進(jìn)化具有重要的意義,也可以單獨(dú)提取結(jié)構(gòu)域的注釋信息進(jìn)行統(tǒng)計(jì)或富集分析。
KEGG 數(shù)據(jù)庫 (http://www.genome.jp/kegg/) 是一個(gè)整合了基因組、化學(xué)和系統(tǒng)功能信息的數(shù)據(jù)庫,這里的KEGG數(shù)據(jù)庫主要是指 PATHWAY 的部分。在生物體內(nèi),不同蛋白相互協(xié)調(diào)行使其生物學(xué)行為,基于 PATHWAY 的分析有助于更進(jìn)一步了解其生物學(xué)功能。
關(guān)于 GO 與 KEGG 的介紹是不是還是有些陌生?我們簡單辨析一下:功能注釋相當(dāng)于一個(gè)篩子,將所有的蛋白按照其生物學(xué)功能分門別類。GO 注釋,相當(dāng)于粗篩;KEGG,相當(dāng)于細(xì)篩。舉一個(gè)“栗子”,大家就明白了,某一個(gè)蛋白,GO 只能將它注釋到與三羧酸循環(huán)有關(guān);而 KEGG 則可以將它注釋到三羧酸循環(huán)通路中的某一個(gè)環(huán)節(jié)。
COG (蛋白質(zhì)直系同源簇) 數(shù)據(jù)庫是 NCBI 開發(fā)的用于同源蛋白注釋的數(shù)據(jù)庫,是將細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成。通過鑒定蛋白與數(shù)據(jù)庫的比對,可以很好的預(yù)測蛋白質(zhì)的功能。
每一個(gè)功能注釋數(shù)據(jù)庫都有自己偏倚性,為了提高注釋到的蛋白數(shù)目以及注釋質(zhì)量,往往采用多個(gè)注釋數(shù)據(jù)庫聯(lián)用的方式。
蛋白互作數(shù)據(jù)庫
蛋白質(zhì)是生命活動的最主要載體,更是功能的執(zhí)行者,每一個(gè)生物學(xué)功能都涉及到多個(gè)通路多個(gè)蛋白之間的相互作用,因此,蛋白質(zhì)組學(xué)研究,又怎么能少的了蛋白質(zhì)之間的關(guān)聯(lián)分析呢?STRING 數(shù)據(jù)庫 (https://string-db.org/) 是很常用的蛋白互作數(shù)據(jù)庫,可以方便地根據(jù)蛋白序列或蛋白名稱在網(wǎng)站上選定物種進(jìn)行預(yù)測,預(yù)測出的蛋白質(zhì)相互作用包括了直接的物理相互作用和間接的功能相關(guān)性。然后可以根據(jù)蛋白互作信息用 Cytoscape 軟件做出好看的互作網(wǎng)絡(luò)圖。
蛋白測序業(yè)務(wù)線 周桂信丨文案
王婷婷丨編輯
為你讀文獻(xiàn)
為你分享資源
為你分析研究思路
為你提供最前沿的科研動態(tài)
學(xué)霸,逗逼,科學(xué)家,文藝青年同在!
諾禾致源丨提供領(lǐng)先的基因組學(xué)解決方案
聯(lián)系客服