今天實(shí)驗(yàn)室有個(gè)師妹問(wèn)我這個(gè)問(wèn)題,好久不做生信的我想了一會(huì),覺(jué)得這個(gè)問(wèn)題對(duì)于比較少接觸生信的同學(xué)們來(lái)說(shuō)應(yīng)該比較費(fèi)腦筋。借此,我簡(jiǎn)單說(shuō)一下,詳細(xì)的可以自行百度~
GSEA:即基因探針富集分析,是通過(guò)基礎(chǔ)知識(shí)來(lái)揭示基因組表達(dá)數(shù)據(jù)的一種方法。
簡(jiǎn)單來(lái)說(shuō)它可以以KEGG數(shù)據(jù)庫(kù)(或其他基因注釋數(shù)據(jù)庫(kù),例如GO)為背景,根據(jù)所選樣品所有的基因表達(dá)量來(lái)做富集分析,得到的結(jié)果是所有表達(dá)的基因在各個(gè)代謝通路中的富集情況。
KEGG:KEGG 是了解高級(jí)功能和生物系統(tǒng)(如細(xì)胞、 生物和生態(tài)系統(tǒng)),從分子水平信息,尤其是大型分子數(shù)據(jù)集生成的基因組測(cè)序和其他高通量實(shí)驗(yàn)技術(shù)的實(shí)用程序數(shù)據(jù)庫(kù)資源。
我們通常用這個(gè)數(shù)據(jù)庫(kù)做代謝通路富集分析(kegg pathway富集分析),主要算法是先挑選出顯著差異表達(dá)的基因,然后利用超幾何分布等統(tǒng)計(jì)算法根據(jù)通路的差異基因數(shù)目計(jì)算該通路是否顯著的P值(一般還要校驗(yàn)得到Q值),根據(jù)Q值由小到大排序即得到顯著程度。
說(shuō)白了,GSEA的輸入變量是基因表達(dá)量,KEGG pathway富集分析的輸入變量是基因列表;二者都能篩選出顯著富集的通路,區(qū)別是GSEA針對(duì)所有基因,KEGG針對(duì)差異基因富集的通路,現(xiàn)在一般結(jié)合兩者的結(jié)果來(lái)做推斷。
以上是我的個(gè)人理解,也沒(méi)有詳細(xì)查資料,如需詳細(xì)了解,還請(qǐng)入木三分~~O(∩_∩)O
聯(lián)系客服