GEPIA, 全稱GeneExpression Profiling Interactive Analysis。這個數(shù)據(jù)庫是2017年7月由北京大學(xué)張澤民教授團(tuán)隊的唐澤方等人通過 R 、Perl等語言對數(shù)據(jù)進(jìn)行處理、可視化而設(shè)計的癌癥大數(shù)據(jù)分析網(wǎng)站 ,GEPIA讓沒有任何編程背景的科研工作者能夠輕松執(zhí)行各種基因表達(dá)分析。開發(fā)的相關(guān)的文章發(fā)表在Nucleic Acids Research 雜志上。數(shù)據(jù)庫的數(shù)據(jù)來源主要是TCGA數(shù)據(jù)庫。分析內(nèi)容包括腫瘤/正常差異表達(dá)譜分析、表達(dá)分布、病理分期、生存分析,相似基因,基因表達(dá)相關(guān)性和降維分析等。
網(wǎng)址:http://gepia.cancer-pku.cn/
目前已經(jīng)有更新版GEPIA2(更高分辨率和更多功能的加強(qiáng)版GEPIA)。在官網(wǎng)首頁搜索欄可以看出,該網(wǎng)站的分析主要有三個板塊,也是主要功能,分別是Single Gene Analysis、Cancer Type Analysis、Multiple Gene Analysis。
1.General 概況
點擊首頁【GOPIA】就可以看到對ERBB2,酪氨酸激酶受體2(網(wǎng)站默選的,可在搜索框更改)基因概況的介紹。體圖中腫瘤和正常樣品的中位表達(dá),顯示了該基因在人體不同器官組織中的表達(dá)情況,紅色的表示腫瘤組織,綠色的表示正常組織,顏色越深表示表達(dá)水平越高,表達(dá)量可以用鼠標(biāo)點擊部位顯示出來。
同時,為了幫助那些不了解縮寫的人,網(wǎng)站在頂部有“Click here to get the extensio of tumor abbreviations”,點擊即可顯示這些縮寫的全稱。
網(wǎng)站還給出了不同腫瘤中正常樣本和腫瘤樣本中表達(dá)量的對比圖,每個點代表一個樣本,如下所示。還有柱狀圖,取了所有樣本的平均值,清晰明了,但是沒有p值。總而言之,散點圖和柱狀圖各取所需。
2. Differential Genes
Differential Genes部分,可以分析在特定腫瘤中正常樣本和腫瘤樣本中的差異表達(dá)基因,用戶可以定義差異基因分析的算法和對應(yīng)的閾值,這里試驗性地把q-value Cutoff改為0.005,點擊List,查看差異基因?qū)?yīng)的表格數(shù)據(jù)結(jié)果如下:
點擊Plot顯示差異基因在各個染色體上的分布,示意如下:
3. Expression DIY
這部分是用戶選擇感興趣的腫瘤,在Expression DIY標(biāo)簽下可以對檢索的基因進(jìn)行表達(dá)水平的作圖,從下拉菜單可以選擇Profile散點圖,Boxplot箱式圖和Stage plot小提琴圖。每一種格式的圖都可以DIY作圖的參數(shù),選擇呈現(xiàn)的癌種并對其進(jìn)行排序,甚至顏色和大小。如果輸入多個基因列表,還可以以熱圖的形式進(jìn)行可視化。
4. Survival
生存分析,對于醫(yī)學(xué)研究來說很常見。Survival標(biāo)簽也有下拉菜單,單基因分析用Survival Plots,另一個Most Differential Survial Genes是多基因分析時用。用Survival Plots做單基因生存分析效果圖如下:
用Most Differential Survial Genes分析出與生存狀態(tài)相關(guān)的差異基因,結(jié)果如下所示:
5.Similar Gene
想了解目標(biāo)基因有哪些類似基因的情況下,可以用這個類似基因篩選功能,強(qiáng)大到可以羅列Top 1 到Top 9999999的相似性基因。
6.Correlation
人體疾病很少會單個基因起發(fā)揮功能,一般都是多個基因一起起作用。如果想了解兩個基因之間的關(guān)聯(lián)性,可以用這個功能??梢宰约禾暨x樣本,指定相關(guān)系數(shù)的算法,結(jié)果如下所示。
7.PCA
多基因的降維分析一般使用的是PCA主成分分析(Principal Component Analysis),這部分進(jìn)行PCA分析,可以指定多組樣本,然后根據(jù)輸入的基因的表達(dá)量進(jìn)行PCA分析,可以生成2D、3D PCA的圖。
聯(lián)系客服