Gene Set Enrichment Analysis (基因集富集分析)簡稱GSVA,由麻省理工學(xué)院和哈佛大學(xué)研究團(tuán)隊(duì)2005發(fā)表在Proc Natl Acad Sci U S A.提出來的一個(gè)基因功能富集方法,目前已經(jīng)引用2萬多次,可謂是做基因富集分析的常用工具[1]。同時(shí)GSEA官網(wǎng)在windows平臺和MAC平臺上也提供一個(gè)可視化的軟件,只需點(diǎn)擊鼠標(biāo)即可完成。
雖然官方提供了圖形界面的軟件,但是作為新手,還會(huì)遇到以下幾個(gè)問題:
1. 軟件需要配置JAVA環(huán)境(初學(xué)者沒有半天的時(shí)間搞定不了);
2. 純英文界面,需要選擇的參數(shù)較多(對于生信小白來說不夠友好);
3. 電腦性能要求較高(筆記本電腦或配置低容易卡死);
4. 分析出來的結(jié)果不美觀需要用R語言重新可視化(對初學(xué)者編程要求較高)。
考慮到上面的問題,我們在開發(fā)過程中整合之前項(xiàng)目的經(jīng)驗(yàn)并結(jié)合上面的問題設(shè)計(jì)出兩個(gè)小工具,小伙伴們只需要準(zhǔn)備好數(shù)據(jù),導(dǎo)入到小工具中就可完成一樣的結(jié)果。
從分析到出圖只需點(diǎn)擊鼠標(biāo)即可完成,中文友好界面了解一下
快跟著小編一起學(xué)習(xí)一下工具
網(wǎng)址導(dǎo)航
http://sangerbox.com/Tool 點(diǎn)擊“GSEA簡易分析工具”和” GSEA結(jié)果可視化工具”
1、GSEA簡易分析工具
----------
小工具默認(rèn)支持三種類(樣本分組,基因排秩,按基因分組)型的GSEA分析,三種模式的輸入文件如下圖所示。
1. 根據(jù)樣本分組和基因表達(dá)譜進(jìn)行GSEA分析,這種模式下需要輸入兩個(gè)文件,第一個(gè)文件為樣本的表達(dá)矩陣,第二個(gè)文件為樣本的分組文件,將分組文件按照分組進(jìn)行排列,默認(rèn)支持兩組之間進(jìn)行富集分析。
2. 根據(jù)表達(dá)譜某個(gè)基因的表達(dá)水平進(jìn)行分組后再進(jìn)行GSEA分析。
3. 根據(jù)特定基因的表達(dá)量進(jìn)行排秩后進(jìn)行GSEA分析,輸入文件包含兩列,第一列為基因名稱,第二列為基因的表達(dá)量。
4. 輸出結(jié)果,這里得出結(jié)果和GSVA軟件得出的結(jié)果是一樣的
5. 挑選結(jié)果:將分析結(jié)果下載到本地,用瀏覽器打開,根據(jù)自己的需求挑選感興趣的通路進(jìn)行可視化(前提是要先看懂GSVA軟件的運(yùn)行結(jié)果),如下圖所示。
2、GSEA結(jié)果可視化工具
----------
1. 輸入文件是上一步GSEA運(yùn)行結(jié)果和需要可視化的通路,如下圖所示。
2. 結(jié)果目錄:默認(rèn)在個(gè)人中心的GSEA_View_Result目錄下,如下圖所示。
點(diǎn)擊添加圖片描述(最多60個(gè)字)編輯
1.如果是以文件的格式將數(shù)據(jù)導(dǎo)入到云平臺,平臺默認(rèn)無法讀取Excel中的數(shù)據(jù),必須將Excel文件轉(zhuǎn)為以制表位符分割的文本文件,否則小工具將無法運(yùn)行。
2.將文件從本地上傳到網(wǎng)站上應(yīng)注意文件名只能用字母、數(shù)字或下劃線命名不能有空格等特殊字符命名,否則將上傳失敗。
[1] Subramanian A, Tamayo P, Mootha VK, et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 2005;102(43):15545‐15550. doi:10.1073/pnas.0506580102