在解讀傳統(tǒng)的富集分析結(jié)果時(shí),經(jīng)常會(huì)有這樣的疑問,一個(gè)富集到的通路下,既有上調(diào)差異基因,也有下調(diào)差異基因,那么這條通路總體的表現(xiàn)形式究竟是怎樣呢,是被抑制還是激活?或者更直觀點(diǎn)說,這條通路下的基因表達(dá)水平在實(shí)驗(yàn)處理后是上升了呢,還是下降了呢?
在這里我說下自己的觀點(diǎn),在傳統(tǒng)的富集分析時(shí),我們只需要一個(gè)差異基因的列表,根本不關(guān)心這個(gè)差異基因究竟是上調(diào)還是下調(diào)。這是因?yàn)椋瑐鹘y(tǒng)的富集分析根本不需要考慮基因表達(dá)量的變化趨勢(shì),其算法的核心只關(guān)注這些差異基因的分布是否和隨機(jī)抽樣得到的分布一致,即使后期在可視化時(shí),我們?cè)谕穲D上用不同顏色標(biāo)記了上下調(diào)的基因,但是由于沒有采用有效的統(tǒng)計(jì)學(xué)手段去分析這條通路下所有差異基因的總體變化趨勢(shì),這使得傳統(tǒng)的富集分析結(jié)果無法回答上述的問題。
當(dāng)然也有人靈光一閃,想出一個(gè)解決方案,在進(jìn)行傳統(tǒng)的富集分析時(shí),每次只提取上調(diào)或者下調(diào)的差異基因來進(jìn)行分析,由于事先根據(jù)表達(dá)量變化趨勢(shì)對(duì)差異基因進(jìn)行了篩選,從而回避了上面的問題。在我個(gè)人看來,這樣的做法有失偏頗,因?yàn)橘M(fèi)舍爾精確檢驗(yàn)就是想要證明我這個(gè)差異基因列表不是隨機(jī)抽樣得到的,而我們事先對(duì)差異基因列表的過濾已經(jīng)對(duì)結(jié)果的隨機(jī)性造成了干擾,最后得出的結(jié)論其準(zhǔn)確性也大大降低。
想象一下,上調(diào)基因和下調(diào)基因分開富集,然后富集到了同一條通路,這怎么解釋?所以在我看來,傳統(tǒng)的富集分析只能定位到功能,這些差異基因與哪些功能相關(guān),而不能回答一開始的這個(gè)問題。想要回答一開始的這個(gè)問題,我們需要GSEA富集方法的結(jié)果。
還是這張?jiān)韴D,GSEA的輸入是一個(gè)基因表達(dá)量矩陣,其中的樣本分成了A和B兩組,首先對(duì)所有基因進(jìn)行排序,在之前的文章中也有提到排序的標(biāo)準(zhǔn),這里簡單理解就是foldchange, 用來表示基因在兩組間表達(dá)量的變化趨勢(shì)。排序之后的基因列表其頂部可以看做是上調(diào)的差異基因,其底部是下調(diào)的差異基因。
GSEA分析的是一個(gè)基因集下的所有基因是否在這個(gè)排序列表的頂部或者底部富集,如果在頂部富集,我們可以說,從總體上看,該基因集是上調(diào)趨勢(shì),反之,如果在底部富集,則是下調(diào)趨勢(shì)。
理解這個(gè)觀點(diǎn)之后,在來看GSEA富集分析的結(jié)果。由于結(jié)果很多,所以給出了一個(gè)匯總的html頁面。對(duì)于富集結(jié)果,根據(jù)上調(diào)還是下調(diào)分成了兩個(gè)部分,對(duì)應(yīng)兩個(gè)分組,示例如下
在每個(gè)組別下富集到的基因集,從總體上看,其表達(dá)量在該組中高表達(dá)。點(diǎn)擊enrichment results in html
,可以在網(wǎng)頁查看富集的結(jié)果,示例如下
GS為基因集的名字,
SIZE代表該基因集下的基因總數(shù),
ES代表Enrichment score,
NES代表歸一化后的Enrichment score,
NOM p-val代表pvalue,表征富集結(jié)果的可信度,
FDR q-val`代表qvalue, 是多重假設(shè)檢驗(yàn)矯正后的p值,注意GSEA采用pvalue < 5%, qvalue < 25% 對(duì)結(jié)果進(jìn)行過濾。
點(diǎn)擊GS DESC
可以跳轉(zhuǎn)到每個(gè)基因集詳細(xì)結(jié)果頁面,示例如下
首先是一個(gè)匯總的結(jié)果,Upregulated in class
說明該基因集在MUT
這組中高表達(dá),其他信息和之前介紹的一樣,除此之外,還有一個(gè)詳細(xì)的表格,示例如下
對(duì)于該基因集下的每個(gè)基因給出了詳細(xì)的統(tǒng)計(jì)信息,RANK IN GENE LIST
代表該基因在排序號(hào)的列表中的位置, RANK METRIC SCORE
代表該基因排序量的值,比如foldchange值,RUNNIG ES
代表累計(jì)的Enrichment score, CORE ENRICHMENT
代表是否屬于核心基因,即對(duì)該基因集的Enerchment score做出了主要貢獻(xiàn)的基因。這個(gè)表格中的數(shù)據(jù)對(duì)應(yīng)下面這張圖
分成3個(gè)部分,第一部分為基因Enrichment Score的折線圖,橫軸為該基因下的每個(gè)基因,縱軸為對(duì)應(yīng)的Running ES
, 在折線圖中有個(gè)峰值,該峰值就是這個(gè)基因集的Enrichemnt score,峰值之前的基因就是該基因集下的核心基因。
第二部分為hit,用線條標(biāo)記位于該基因集下的基因,第三部分為所有基因的rank值分布圖, 默認(rèn)采用Signal2Noise
算法,對(duì)應(yīng)了縱軸的標(biāo)題。
從該圖中可以看出,這個(gè)基因集是在MUT
這一組高表達(dá)的,下面是一個(gè)在另一組組中高表達(dá)的示例
可以看到,其Enrichment score值全部為負(fù)數(shù),對(duì)應(yīng)的在其峰值右側(cè)的基因?yàn)樵摶蚣碌暮诵幕?。除此之外,還有一張熱圖,示例如下
這張熱圖展示的是位于該基因集下的基因在所有樣本中表達(dá)量的分布,其中每一列代表一個(gè)樣本。每一行代表一個(gè)基因,基因表達(dá)量從低到高,顏色從藍(lán)色過渡到紅色。
在總的html頁面中,還給出了如下信息
Dataset details
給出了基因總數(shù),Gene Set details
給出了基因集的信息,注意軟件默認(rèn)根據(jù)基因集包含的基因個(gè)數(shù)是先對(duì)基因集進(jìn)行過濾,最小15個(gè),最大500個(gè)基因,過濾掉了158個(gè)基因集,剩余的168個(gè)基因集用于分析。
Gene markers
給出了排序之后的基因列表和對(duì)應(yīng)的統(tǒng)計(jì)量rank ordered gene list
,根據(jù)排序的統(tǒng)計(jì)量,將基因分成了兩部分,對(duì)應(yīng)在每一組中高表達(dá)。
heatmap and gene list
包含了所有基因表達(dá)量的熱圖和排序值的分布圖,示意如下
熱圖由于基因太多,截取了部分,排序值的分布圖其實(shí)就是每個(gè)基因集的Enrichment plot
中的第三部分。更多的細(xì)節(jié)請(qǐng)查閱官方文檔。
·end·
聯(lián)系客服