大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~
就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點生信好不好~
這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進階,生信路上有你有我!
豆豆寫于19.3.19
通常做富集分析時,我們會遇到兩種方法Pathway和GSEA,它們到底有什么區(qū)別?
我們通過差異分析會得到一些差異基因,那么如何知道這些基因是做什么的,都影響了處理組哪些過程?Pathway和GSEA都是為了說明這個問題的。但是它們之間存在著很大的不同。因為之前我也是存在疑惑,今天聽人講起,于是查了一下
原文在此:https://advaitabio.com/ipathwayguide/pathway-analysis-vs-gene-set-analysis/
另外結(jié)合了一下自己的認識
Wiki的解釋:A series of interactions among molecules in a cell that leads to a certain product or a change in a cell
pathway主要描述了一種機理或者現(xiàn)象,可以有信號通路、代謝通路等等,它的結(jié)果由點(nodes)和線(edges)組成,目的是描述某些現(xiàn)象、相互作用和依賴性。Pathway是一種描述細胞、組織或個體內(nèi)的基因、蛋白或代謝產(chǎn)物互作關(guān)系的模型,并不是簡單地基因列表。我們都知道有KEGG是做富集分析通路注釋的,但是還有一些數(shù)據(jù)庫,比如Reactome、Biocarta等也可以做pathway分析
GSEA方法由Broad Institute提出的富集方法,核心是基因集(gene set),它就是無序、無結(jié)構(gòu)的一組基因,我們可以將這些基因定義成參與特定生物過程(例如:細胞周期)、存在于某個位置(例如:1號染色體)、與什么疾病有關(guān)(例如:乳腺癌),或者直接可以取某個pathway中存在的一些就因(例如:參與KEGG細胞周期通路的128個基因)。可以看到,基因集除了僅僅包含了一些基因以外,似乎沒有什么定義,也正因為這樣,基因集的定義可以更加廣泛,主要看人為需求。
Molecular Signatures Database (MSigDB)數(shù)據(jù)庫中就包含了超過17,000個這樣的基因集分布在8大類別中(如:H: hallmark gene sets、C1: positional gene sets、C2:curated gene sets、C3 : motif gene sets、C4 : computational gene sets、C5 : GO gene sets、C6 : oncogenic signatures、C7 : immunologic signatures),讓富集分析不僅可以從GO、KEGG這樣的功能角度出發(fā),還可以結(jié)合位置、表達量變化趨勢等進行研究,更加拓展了富集分析的范疇。
上面??說到了,pathway與基因集之間一個關(guān)鍵的不同就是基因集是無序的,而pathway是用于描述某個過程、機制或者現(xiàn)象的復(fù)雜模型。
左邊??的圖【KEGG MAPK pathway 】畫出了各種基因和基因產(chǎn)物(胞內(nèi)/外/膜內(nèi))的位置、互作類型(激活、抑制、磷酸化等)、信號傳遞方向等等;右圖【MSigDB gene set corresponding to the KEGG MAPK pathway 】只是可以讓我們知道有這些基因。
早期的基因集分析方法是采用ORA(Over-Representation Analysis)的方法,一系列差異基因作為輸入,然后看這個列表中的基因是過表達還是低表達(比如可以看logFC值,F(xiàn)C=處理組表達量/對照組表達量)。這個需要事先定義一個閾值用來決定哪個基因作為差異基因(就像定義logFC=2還是等于1.5,都是人為定義的)。然后基于每個pathway中DE (Differentially expressed)基因的富集程度來評估每種pathway的重要性,富集程度越高的pathway更可能與給定的條件真正相關(guān)。簡而言之,這種方法很大程度上依賴于定義DE的標(biāo)準,包括統(tǒng)計方法和閾值的選擇。
二代方法FCS(Functional Class Scoring )是基于所有基因表達量來消除DE選擇標(biāo)準的依賴性,其背后的假設(shè)是:除了表達量變化比較大的基因以外,還有一些變化小卻可能其協(xié)同作用的基因也是重要的。主要方法包括:GSEA [25], Catmap [3], GlobalTest [10], sigPathway [28], SAFE [2], GSA [7], Category [17], PADOG [26], PCOT2 [19], FunCluster [14], SAM-GS [4]。如果基因變化與表型存在相似性,那么FCS可以基于整體表達量
基因集的方法將pathway的聯(lián)系視作無序排列,基因之間的關(guān)系也沒有結(jié)構(gòu)化,這樣就丟棄了大量關(guān)于pathway描述的生物過程的信息,目前已經(jīng)開發(fā)了一些基于拓撲的方法,想要在分析中加上這部分信息,也就是除了基因表達變化以外,還考慮每個pathway的所有基因的位置、作用以及互作信息。
第一種這樣的方法是Impact Analysis[5],然后又陸續(xù)開發(fā)了30多種工具:us (Pathway-Express [5, 18], SPIA [27], ROntoTools [29], BLMA [22, 23]), as well as others (NetGSA [24], TopoGSA [9], TopologyGSA [20], DEGraph [16], PWEA [15], PathOlogist [11], GGEA [8], cepaORA, cepaGSA [12, 13], PathNet [6], etc.
基因集只是考慮某一pathway上的一組基因,并忽略了基因在通路上的位置,因此存在生物學(xué)解釋的限制。如果某個通路由單個基因產(chǎn)物觸發(fā)或通過單一受體激活,并且不產(chǎn)生特定的蛋白,那么這個通路可能受到很大的影響甚至完全關(guān)閉。
例如:胰島素通路中不存在胰島素受體( insulin receptor, INSR)【圖中黃色的節(jié)點】,那么整個通路將會關(guān)閉(左圖)。相反,如果幾個基因參與到一個通路,但是只出現(xiàn)在下游的某個地方,那么它們的表達水平可能不會對這個通路產(chǎn)生那么嚴重的影響。【也就是說,了解基因所處的位置是很重要的】。如果使用基因集分析,那么它只能考訴你這組通路的基因是否在所有差異基因中富集,而不能告訴我們差異基因的變化是否會影響整個通路。
一些基因會具有多種功能或者參與到許多的通路,另外在每個通路中發(fā)揮的作用不同。例如,上面右圖中顯示的INSR(黃色節(jié)點)同樣也是作為酪氨酸激酶受體蛋白參與Adherens Junction通路。如果INSR的表達發(fā)生改變,Adherens Junction通路可能并不會發(fā)生太大的影響,因為INSR僅僅是其中一個受體。
如果使用基因集,它不會考慮這些信息,如果不結(jié)合其他方法,僅僅用基因集分析時很難判斷Adherens Junction通路或者胰島素通路的變化幅度。
目前基因集雖然很全,但是其中各個通路中各種基因的互作關(guān)系還是沒有被好好利用。而Pathway可以作為這一點的補充,因此如果想探究某一個特定的分子機制,首選還是pathway分析。
下面是iPathway的截圖,其中對GSE47363數(shù)據(jù)集進行了pathway分析。實驗利用了miRNA(miR-542-3p)處理細胞,想要理解這個miRNA的作用。利用iPathway Guide 分析了處理組和對照組中表達量變化涉及的通路分析。圖中紅色的部分是自動推斷了所有信號與不同基因的依賴關(guān)系得到的機制,從而做出的判斷。而這個結(jié)果是不能從GSEA分析得到的。
隨著數(shù)據(jù)量的增加,我們對各種通路的理解也在不斷加深。因此可以根據(jù)不斷更新的知識,在pathway圖上增加、刪除或者重新定向通路。而基因集是不能感知這種變化的,基因集能做的是:只要pathway中涉及相同的基因,即使它們之間相互作用隨著我們研究的深入發(fā)生了改變,GSEA還是提供相同的結(jié)果。
如果只看上面6個特定,那么pathway分析好像更勝一籌,pathway具有更明確的生物學(xué)意義以及更準確的結(jié)果,但是為什么還要使用基因集富集分析(GSEA)呢?
GSEA的結(jié)果更加簡單,因為不含有任何的拓撲結(jié)構(gòu)信息,它們也更容易理解。通過計算富集的p值或者FCS打分(GSEA中提供的)就可以初步看下這一組基因是否可能與表型有關(guān)
基因集分析不存在任何依賴關(guān)系,這也可能是一個優(yōu)勢。如果我們知道了一組基因可以在某一個通路中有協(xié)同作用,就可以快速將讓它們定義為'基因集',然后找到與表型可能的相關(guān)性。當(dāng)然,其中可能會包含一些比較'隨意”或者相關(guān)性不那么大的基因,就會妨礙對真正生物學(xué)通路的理解。
Marit Ackermann and Korbinian Strimmer. A general modular framework for gene set enrichment analysis. BMC Bioinformatics, 10(1):1, 2009.
William T. Barry, Andrew B. Nobel, and Fred Wright. Significance analysis of functional categories in gene expression studies: a structured permutation approach. Bioinformatics, 21(9):1943–1949, May 2005.
Thomas Breslin, Patrik Eden, and Morten Krogh. Comparing functional annotation analyses with Catmap. BMC Bioinformatics, 5(1):193, 2004.
Irina Dinu, John D Potter, Thomas Mueller, Qi Liu, Adeniyi J Adewale, Gian S Jhangri, Gunilla Einecke, Konrad S Famulski, Philip Halloran, and Yutaka Yasui. Improving gene set analysis of microarray data by SAM-GS. BMC Bioinformatics, 8(1):242, 2007.
Sorin Draghici, Purvesh Khatri, Adi L Tarca, Kashyap Amin, Arina Done, Calin Voichita, Constantin Georgescu, and Roberto Romero. A systems biology approach for pathway level analysis.Genome Research, 17(10):1537–1545, 2007.
Bhaskar Dutta, Anders Wallqvist, and Jaques Reifman. PathNet: A tool for pathway analysis using topological information. Source Code for Biology and Medicine,7(1):10, 2012.
Bradley Efron and Robert Tibshirani. On testing the significance of sets of genes.The Annals of Applied Statistics, 1(1):107–129, 2007.
Ludwig Geistlinger, Gergely Csaba, Robert Kuffner, Nicola Mulder, and Ralf Zimmer.From sets to graphs: towards a realistic enrichment analysis of transcriptomic systems. Bioinformatics, 27(13):i366–i373, 2011.
Enrico Glaab, Ana?s Baudot, Natalio Krasnogor, and Alfonso Valencia. TopoGSA: network topological gene set analysis. Bioinformatics, 26(9):1271–1272, 2010.
Jelle J. Goeman, Sara A. van deGeer,Floor deKort, and Hans C. vanHouwelingen. A global test for groups of genes: testing association with a clinical outcome. Bioinformatics, 20(1):93–99, 2004.
Greenblum, S. Efroni, C.Schaefer, and K. Buetow. The PathOlogist: an automated tool for pathway-centric analysis. BMC Bioinformatics, 12(1):133, 2011.
Zuguang Gu, Jialin Liu, Kunming Cao, Junfeng Zhang, and Jin Wang. Centrality-based pathway enrichment: a systematic approach for finding significant pathways dominated by key genes.BMC systems biology, 6(1):56, 2012.
Zuguang Gu and JinWang. Cepa: an R package for finding significant pathways weighted by multiple network centralities. Bioinformatics, 29(5):658–660, 2013.
Corneliu Henegar, Raffaella Cancello, Sophie Rome, Hubert Vidal, Karine Clement, and Jean-Daniel Zucker. Clustering biological annotations and gene expression data to identify putatively co-regulated biological processes. Journal of bioinformatics and computational biology, 4(04):833–852, 2006.
Jui-Hung Hung, Troy W Whitfield, Tun-Hsiang Yang, Zhenjun Hu, Zhiping Weng, and Charles DeLisi. Identification of functional modules that correlate with phenotypic difference: the influence of network topology.Genome Biology, 11(2):R23, 2010.
Laurent Jacob, Pierre Neuvial, and Sandrine Dudoit. Gains inpower from structured two-sample tests of means on graphs. Arxiv preprint arXiv:1009.5173, 2010.
Zhen Jiang and Robert Gentleman. Extensions to gene set enrichment. Bioinformatics, 23(3):306–313, 2007.
Purvesh Khatri, Sorin Draghici, Adi L Tarca, Sonia S Hassan, and Roberto Romero. A system biology approach for the steady-state analysis of gene signaling networks. In CIARP’07 Proceedings of the 12th Iberoamerican conference on Progress in pattern recognition, image analysis and applications, pages32–41, Valparaiso, Chile, 13-16 November 2007. ACM.
Sek Won Kong, William T Pu, and Peter J Park. A multivariate approach for integrating genome-wide expression data and biological knowledge. Bioinformatics, 22(19):2373–2380, 2006.
Maria S Massa, Monica Chiogna, and Chiara Romualdi. Gene set analysis exploiting the topology of a pathway. BMC Systems Biology, 4(1):121, 2010.
Cristina Mitrea, Zeinab Taghavi, Behzad Bokanizad, Samer Hanoudi, Rebecca Tagett, Michele Donato, Calin Voichita, and Sorin Draghici. Methods and approaches in the topology-based analysis of biological pathways. Frontiers in Physiology, 4:278, 2013.
Tin Nguyen and Sorin Draghici. BLMA: A package for bi-level meta-analysis. Bioconductor, 2017. R package.
Tin Nguyen, Rebecca Tagett, Michele Donato, Cristina Mitrea, and Sorin Draghici. A novel bi-level meta-analysis approach-applied to biological pathway analysis. Bioinformatics, 32(3):409–416, 2016.
Ali Shojaie and George Michailidis. Analysis of Gene Sets Based on the Underlying Regulatory Net- work. Journal of Computational Biology,16(3):407–426, 2009.
Aravind Subramanian, Pablo Tamayo, Vamsi K. Mootha, Sayan Mukherjee, Benjamin L. Ebert, Michael A. Gillette, Amanda Paulovich, Scott L. Pomeroy, Todd R. Golub, Eric S. Lander, and Jill P.Mesirov. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression. Proceeding of TheNational Academy of Sciences of the Unites States of America, 102(43):15545–15550, 2005.
Adi L Tarca, Sorin Draghici, Gaurav Bhatti, and Roberto Romero. Down-weighting overlapping genes improves gene set analysis. BMC Bioinformatics, 13(1):136, 2012.
Adi L Tarca, Sorin Draghici, Purvesh Khatri, Sonia S Hassan, Pooja Mittal, Jung-sun Kim, Chong Jai Kim, Juan Pedro Kusanovic, and Roberto Romero. A novel signaling pathway impact analysis. Bioinformatics, 25(1):75–82, 2009.
Lu Tian, Steven A.Greenberg, Sek WonKong, Josiah Altschuler, Isaac S. Kohane, and Peter J. Park. Discovering statistically significant pathways in expression profiling studies. Proceedingof TheNational Academy of Sciences of the USA, 102(38):13544–13549, 2005.
Calin Voichita, Michele Donato, and Sorin Draghici. Incorporating gene significance in the impact analysis of signaling pathways. In Machine Learning and Applications (ICMLA), 2012 11th International Conference on, volume1, pages126–131, Boca Raton, FL, USA, 12-15 December 2012.
聯(lián)系客服