解螺旋公眾號·陪伴你科研的第2487天
文末有驚喜
從小白的角度,一刻鐘復現(xiàn)生信套路。各位小伙伴大家好,我是解螺旋的雪球。今天雪球為大家?guī)硪黄?020年10月份發(fā)表于Aging-US(影響因子:4.831)的單基因生信文章套路復現(xiàn)。
文章復現(xiàn)是生信小白成長為大神的最佳路徑。在本篇文章中,雪球?qū)职咽纸棠?圖4表逐個步驟的文章復現(xiàn)。
話不多說,我們開始吧!
題目:High expression of RRM2 as an independent predictive factor of poor prognosis in patients with lung adenocarcinoma
材料與方法部分
第一部分 患者數(shù)據(jù)收集情況
從TCGA數(shù)據(jù)庫中獲取535個患者樣本的表達矩陣(數(shù)據(jù)格式為FPKM)和臨床數(shù)據(jù)。樣本排除標準:1)基因表達量為0的值;2)預后信息不充足的患者。一共503例患者的樣本納入本研究。
注:不同版本的TCGA數(shù)據(jù),有可能獲取的患者的樣本例數(shù)不一致,因為TCGA數(shù)據(jù)庫一直處于更新過程中。所以看到生信文章中TCGA里同一個癌種的患者樣本數(shù)不一致,大家也不要奇怪,有可能就是版本不同導致的。大家做生信分析的時候,盡量選擇TCGA數(shù)據(jù)庫中的最新版本的數(shù)據(jù)進行下載。
第二部分 圖表結果及復現(xiàn)
一、使用工具:
1)仙桃學術工具(https://www.xiantao.love/products),
2)Oncomine數(shù)據(jù)庫(www.oncomine.org)
3)TIMER數(shù)據(jù)庫(http://timer.cistrome.org/)
4)GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/gds/?term=)
二、復現(xiàn)任務:
Figure1 在肺腺癌中RRM2的差異表達情況。
Figure2 在肺腺癌患者中,PPM2的臨床相關性分析。
Figure3 肺腺癌患者中的預后分析(總預后分析,亞組分析)
Figure4 肺腺癌患者多因素Cox回歸分析的森林圖結果
Figure5 RRM2表達在肺腺癌整體/亞組的ROC分析
Figure6預測肺腺癌患者1年,3年,5年生存率(Overall survival)的nomogram圖
Figure7 基于RRM2的GSEA富集分析
Figure8 兩個GEO數(shù)據(jù)集的預后分析驗證
Figure9 Oncomine和TIMER數(shù)據(jù)庫對RRM2的表達分析
Table1 肺腺癌患者的基線資料表
Table2 RRM2表達和臨床特征之間的Logistic分析。
Table3 單因素/多因素的臨床變量,基于RRM2的Cox回歸分析
Table4 基于RRM2高表達基因的KEGG富集分析
三、復現(xiàn)步驟
1)Table1 肺腺癌患者的基線資料表
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇臨床意義(靠)- 基線資料表,點擊進入
選擇疾病—肺腺癌
根據(jù)原文中材料與方法,選擇表達矩陣的數(shù)據(jù)格式為FPKM。一共有594例樣本。(這里可以發(fā)現(xiàn)仙桃學術工具的有預后信息、剔除表達量為0的值的樣本比原文中的例數(shù)要多。這是由于版本的不同導致的,仙桃學術是調(diào)用的最新版的TCGA表達和臨床信息。優(yōu)先選擇最新版本的數(shù)據(jù)庫更新數(shù)據(jù)。)
在分子框內(nèi)點擊一下,輸入基因名RRM2。選擇第一個基因。
點擊確認。
點擊基本參數(shù),在表格格式中有“純基線資料表”“列聯(lián)表”“列聯(lián)表-簡潔版”可以選。根據(jù)本篇文章,選擇純基線資料表(即不以目的基因表達高低分組的基線資料表;很多單基因套路文章其實這里會選擇以目的基因表達高低進行分組,一來以特定基因分組的基線資料表不太會與那種以整體數(shù)據(jù)集臨床分析的基線資料表內(nèi)容重復;二來可以進一步給本研究的目的基因更多”戲份“,看以該基因表達值進行分組對臨床變量的影響)
分類變量這里把所有的變量都選上。
其他結果按默認選項保持不變(當然也可以根據(jù)實際需要選擇,當你拿不準是否需要調(diào)整時,一個是可以根據(jù)已經(jīng)發(fā)表的文獻進行參數(shù)調(diào)整;一個可以選擇默認參數(shù)也是沒問題的)。點擊確認。
結果保存。這里有“保存結果“”Excel表格下載“”CSV表格下載““Word表格下載”等多種結果保存形式。雪球推薦先點擊保存結果,輸入分析名稱,比如“基線資料表”,然后點擊確定。這樣在歷史記錄中就會保存有這個結果,留待以后的調(diào)整修改。
在歷史記錄中的第一條“基線資料表”中就有我們剛才保存到 云端的數(shù)據(jù)啦。后續(xù)需要調(diào)整分析可以在歷史記錄這一欄里追溯回來。
同時,也推薦點擊Word表格下載。下載后會出現(xiàn)這樣的word文檔展示頁面。一鍵式發(fā)表級的三線表就完成了。該表可以直接應用于文章發(fā)表。
(小貼士:目前并非在仙桃學術工具中的每個臨床變量都有;有一些基因突變信息是基于基因組信息的分組分析,目前仙桃學術工具還沒把這部分變量納入。后面的Logistics和Cox回歸分析的臨床變量同理)
2)Figure1 在肺腺癌中RRM2的差異表達情況。A:正常組和腫瘤組對比;B:癌旁和腫瘤組對比(樣本例數(shù)更少,同一個患者的癌/癌旁有配對關系)
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇表達差異(挑)中的非配對樣本,點擊進入。
選擇肺腺癌,F(xiàn)PKM數(shù)據(jù)格式,TCGA-LUAD。
注意:仙桃工具除了原文中的TCGA數(shù)據(jù)集單獨分析,還提供了聯(lián)合GTEx數(shù)據(jù)庫。
(小知識點:GTEx數(shù)據(jù)庫,全稱Genotype-Tissue Expression。這個數(shù)據(jù)庫收集的是正常人因為意外去世的尸體解剖的樣本。GTEx最常見的用途就是與TCGA數(shù)據(jù)庫中的腫瘤樣本聯(lián)合分析。在TCGA收集的某些癌種癌癥組織數(shù)據(jù)中正常數(shù)據(jù)不足的時候,把GTEx納入進來,分析的結果更為準確)
在類型中選擇“點圖”,點擊輸入分子“RRM2”。選擇中位數(shù)±四分位數(shù)。
點擊確認。
得出分析的圖之后,還有對統(tǒng)計結果的統(tǒng)計分析結果和分析方法的描述??梢灾苯討糜?/span>生信文章中材料與方法與結果部分的寫作。
點擊保存。可以選擇“保存結果“把圖片保存到歷史記錄中(建議后續(xù)需要拼圖的圖片選擇這一步,可以后續(xù)直接拼圖工具那里進行拼圖);同時可以選擇pdff圖片下載,TIFF300下載,TIFF600下載;PPT圖片下載任意一種。
同樣步驟選擇配對樣本。用類似的步驟操作。
得到配對圖的結果,進行保存。
選擇拼圖工具進行拼拼圖。點擊拼圖工具,進入拼圖頁面。
拖拽目標圖片進入畫布。(在對齊圖片的時候可以選擇橫向參考線和縱向參考線輔助對齊。兩個圖片對齊時,接近輔助線的時候還有磁吸功能,拼圖非常便利!
點擊PDF下載,還會自動標記字母哦!點擊下載,即可保存成pdf圖片。(小貼士,這里也可以把圖稍微放大,或者兩圖直接的行間距放大,可以在右側減少留白)
3)Table2 RRM2表達和臨床特征之間的Logistic分析。
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇臨床意義(靠)- Logistics回歸,點擊進入
選擇TCGA-LUAD, FPKM, 分子輸入PPM2,臨床變量那里點擊加號,多顯示幾個臨床變量。在“請選擇“部分點擊,出來不同的臨床變量和亞組分類進行選擇。
選好之后點擊確認。
保存結果。點擊保存成“word表格下載“。打開word,可以看到發(fā)表級的RRM2表達和臨床特征之間的Logistic分析結果。(目前工具只能做二分類變量,還不能做多分類變量,以后Logistic分析多分類變量這個功能會推出)。
3)Figure2 在肺腺癌患者中,不同臨床特征在PPM2的表達分析。包括年齡,臨床階段,TNM分期,腫瘤狀態(tài),新的腫瘤事件,抽煙狀態(tài)等臨床變量。
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇臨床意義(靠)- 臨床相關性,點擊進入
選擇TCGA-LUAD, FPKM, 分子輸入RRM2,以圖A的age為例。在左邊第一個方框方框中點擊,選擇臨床- Age;在右邊第一行方框中選擇亞組<=65,在右邊第二行方框中選擇亞組>65。點擊確認。得到以下的結果。
可以看出,在原文中顯示的不同年齡分組(<=65,>65)之間,RRM2的表達有差別;而在仙桃學術工具中分析的沒差別。這是由于樣本數(shù)不同,TCGA的版本不同引起的結果;相對來說,仙桃學術應用的最新版本數(shù)據(jù)結果更準一些。當然,也有可能當樣本數(shù)又增加,不同年齡分組之間又展現(xiàn)出顯著差異。足夠大的樣本量的積累,這樣臨床相關性顯著與否的結論才會更穩(wěn)定一點。
同樣的,圖分析完之后,仙桃工具下方會有統(tǒng)計學方法,分析流程,統(tǒng)計分析結果的匯總。可以直接應用于材料與方法,結果部分的描述。
用同樣的步驟,把B,C, D, E, F, G, H作圖拼圖。結果如下。點擊下載按鈕下載。(小貼士,這里每個圖直接可以預留一部分行間距,這樣圖片右側就不會有留白啦)
4)Figure3 肺腺癌患者中的預后分析,包括RRM2在(A)總的患者中的預后分析;以及在(B-H)不同亞組(包括年齡,不同階段,M0, N0,腫瘤狀態(tài),抽煙與否,T分期)中的預后分析。
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
先復現(xiàn)圖A。選擇臨床意義(靠)- KM曲線圖,點擊進入
選擇TCGA-LUAD, FPKM, 分子輸入RRM2,點擊確認。得到以下的結果。保存結果。
再復現(xiàn)圖B。選擇臨床意義(靠)- 亞組KM曲線圖,點擊進入
在左邊第一個方框方框中點擊,選擇臨床- Age;在右邊第一行方框中選擇亞組<=65,以及 >65兩個亞組變量。預后類型選擇默認的OS(Overall survival)點擊確認。得到以下的圖和統(tǒng)計分析的結果。
保存結果,并依次分析C-H。然后在拼圖工具中將A-H進行拼圖。拼圖結果如下。
5)Table3 單因素和多因素的臨床變量與預后(overall survival)關聯(lián)的Cox回歸分析
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇臨床意義(靠)- 單因素|多因素Cox回歸,點擊進入
選擇TCGA-LUAD, FPKM, 分子輸入RRM2,采用默認的預后類型(overall survival)。在左側框里選擇臨床變量,或者輸入基因名(可以填一個或多個基因名),在右側框可里選擇亞組變量,或者基因表達的Lox或者High。如果需要再增加變量,點擊右側的加號;如果需要剔除某個變量,需要在變量的右側點擊減號。確定好臨床變量和分組信息后,點擊確認。會分析出統(tǒng)計分析表,以及統(tǒng)計數(shù)據(jù)、相應的材料與方法、結果部分的描述。
進一步保存成word文檔和excel結果。分析結果如下。
6)Figure4 肺腺癌患者多因素Cox回歸分析的森林圖結果
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇基礎繪圖 - 森林圖,點擊進入
目前仙桃學術生信工具并沒有針對單基因的森林圖分析。需要根據(jù)多因素Cox回歸分析的結果進行整理。
點擊下載示例數(shù)據(jù),看一下示例數(shù)據(jù)的格式。需要把多因素cox回歸分析結果整理成以下形式。
將之前cox回歸分析的excel結果刪除B、C列單因素分析結果,只保留多因素cox分析結果。
點擊excel文件上傳。為了避免森林圖過寬,字體重疊,把寬度調(diào)整為15cm(先點擊確認,如果字體重疊,再回來擴大寬度的厘米數(shù),直到森林圖字體不重疊為止)。點擊確認。
圖片行內(nèi)字數(shù)過寬,需要橫拉條拉動才能看全頁面。這時候選擇“查看大圖”。
得到結果如下。由此森林圖復現(xiàn)出來了。
6)RRM2表達在肺腺癌整體/亞組分析(年齡、病理階段、T/N/M分期等)中的診斷價值。
復現(xiàn)步驟:
先復現(xiàn)圖A總體的ROC分析結果。
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇臨床意義(靠)- ROC曲線,點擊進入
選擇TCGA-LUAD, FPKM, 分子輸入RRM2,選擇顯示曲線下面積,不顯示外框,其他保持默認。點擊確認。保存結果。
再復現(xiàn)圖B。選擇臨床意義(靠)- ROC曲線-自選變量,點擊進入
選擇TCGA-LUAD, FPKM, 分子輸入RRM2。在左側框里選擇臨床變量,在右側框可里選擇亞組變量。這里臨床變量選擇“臨床-T stage”,右側框選擇T1, T2。在風格中,外框不顯示,網(wǎng)格選擇顯示;曲線下面積選擇顯示。點擊確認。
得到以下結果,選擇保存結果。
依次選擇不同的臨床變量和亞組變量,保存結果。最后在拼圖工具里進行拼圖。
7)Figure6 預測肺腺癌患者1年,3年,5年生存率(Overall survival)的nomogram圖。
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇臨床意義(靠)- 預后分析 – Nomogram圖,點擊進入
選擇TCGA-LUAD, FPKM。在左側框里選擇臨床變量,或者輸入基因名(可以填一個或多個基因名,基因名一般放在最下面),在右側框可里選擇亞組變量,或者基因表達的Lox或者High。
如果需要再增加變量,點擊右側的加號;如果需要剔除某個變量,需要在變量的右側點擊減號。確定好臨床變量和分組信息后,在預測年限中的預測類型中采用默認的OS(overall survival),在時間1內(nèi)選擇1年,在時間2內(nèi)選擇3年,在時間3內(nèi)選擇5年。圖片寬度改為25cm,高度改為15cm(為了避免文字在圖中有重疊,先按默認寬高點擊確認;然后再調(diào)整圖片的寬高)
這里雪球為了給大家展示工具的臨床變量分析,故意把所有的臨床變量都選全了。大家發(fā)文章的時候,選擇有意義的變量納入進入分析即可。
點擊確認, Nomogram圖就可以做出來啦,同時會分析出統(tǒng)計分析表,以及統(tǒng)計數(shù)據(jù)、相應的材料與方法、結果部分的描述。點擊查看大圖,下載pdf文檔。
7)Table4 基于RRM2高表達基因的KEGG富集分析結果。
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇功能聚類(圈) - GO|KEGG可視化,點擊進入
點擊下載示例數(shù)據(jù),看示例的數(shù)據(jù)準備。根據(jù)示例,我們看到準備好差異基因列表就可以進行分析。
準備好基于RRM2高低表達值分析出來的差異基因列表,這里只保留gene_id,logFC,adjust Pvalue和gene name四列信息即可。
選擇篩選和排序。因為原文獻的值選擇RRM2的高表達差異表達基因做富集分析。閾值條件設置為LogFC> =2,adjust Pvalue <0.05。
得到差異基因列表。一共篩選到347個高表達差異表達基因。
將差異基因列表復制到右側的分子list。富集分析的條目選擇KEGG。類別選Homo sapieens。點擊確認。
獲得KEGG富集分析結果。點擊保存結果。同時下載word表格。(這里的頁面只展示了top5的結果,所有的富集分析結果需要下載excel表格來看。)
打開Excel分析結果如下圖所示??梢赃x擇top5,10,20等通路進行展示,也可以選擇自己感興趣的通路進一步通過GO|KEGG可視化展示。
打開word表格看富集分析結果。這里的表格展示條目雖然與原文中不同,但是卻是生信wenz 中更常展現(xiàn)的參數(shù),推薦小伙伴們選擇以下的參數(shù)展現(xiàn)在文章中。
如果后續(xù)需要對GO/KEGG富集分析結果進一步可視化,可以選擇GO|KEGG可視化進行作圖分析。原文中作者只展示了表格,這里雪球就不再演示了,感興趣的小伙伴可以自己試試。除了KEGG富集分析,也可以選擇GO(BP, MF, CC)這三種富集分析,這樣又多3個圖了,是不是感覺工作量迅速擴大了不少呢?
Figure7 基于RRM2的GSEA富集分析
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇功能聚類(圈) - GSEA富集 - GSEA分析,點擊進入
點擊下載示例數(shù)據(jù),看示例的數(shù)據(jù)準備。根據(jù)示例,我們看到準備好基因列表和對應的value值就可以進行GSEA分析。
這里的Value值可以是logFC的值。準備好基因名和logFC的值。然后點擊文件上傳
數(shù)據(jù)集選擇默認,物種默認選Homo sapienn;高級分析參數(shù)采用默認。然后點擊確認。
獲得了GSEA的富集分析結果。
選擇功能聚類(圈) - GSEA富集 – GSEA可視化,點擊進入
在歷史記錄里下載GSEA的富集分析的結果表格。點擊下載按鈕,選擇Excel表格下載或者CSV表格下載都可以。
打開結果表格,看到富集分析的結果。
選擇剛才做的GSEA富集分析的條目,在基因集ID里會自動展現(xiàn)前兩條富集分析到的通路(這里基因集ID最多可以展現(xiàn)5條通路,既可以選擇top富集到的通路,也可以選擇自己感興趣的通路)。這里根據(jù)原文選擇第一條信號通路,點擊確認。
點擊保存結果,查看大圖。再依次多做幾條信號通路的GSEA可視化分析,在拼圖工具里進行拼圖。
8)Figure8 兩個GEO數(shù)據(jù)集的預后分析驗證(總的預后分析/亞組預后分析)
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇基礎繪圖- 生存曲線,點擊進入
點擊下載示例數(shù)據(jù),看示例的數(shù)據(jù)準備。根據(jù)示例,我們看到準備好生存狀態(tài)(一般“1”代表觀察對象死亡;“2”代表Censored data,Censored data指的是我們觀察對象在我們研究截止時間依舊存活),時間(月份)和分組信息就可以繪制生存曲線圖。
整理好GEO目標數(shù)據(jù)集的預后信息,點擊文件上傳。這里雪球就用示例數(shù)據(jù)先替代。其他參數(shù)選擇默認。點擊確認。得到生存分析的結果。點擊保存結果。再依次做其他亞組變量的預后分析,整理好數(shù)據(jù)上傳,就可以在線做預后分析。是不是比Prism操作簡便多了!然后依次保存結果,最后在拼圖工具里拼圖,連繁瑣復雜的Illustrator和Photoshop軟件都省了!
9)Figure9 Oncomine和TIMER數(shù)據(jù)庫對RRM2的表達分析
復現(xiàn)步驟:
A和B圖
I 登錄Oncomine(https://www.oncomine.org/resource/login.html)的網(wǎng)站,用機構郵箱注冊并登錄。
II 研究把基因RRM2。在search欄中輸入分子RRM2,并點擊search按鈕,頁面自動刷新如下。選擇目標區(qū)域進行截圖,這樣圖A和B的結果就出來了。
教程解讀
實操
C圖
I 登錄TIMER數(shù)據(jù)庫(http://timer.cistrome.org/)的網(wǎng)站
II 選擇Exploration,選擇Gene_De,在文字框內(nèi)輸入基因名RRM2,點擊submit。
III 獲得以下分析結果,保存成pdf格式。
V 把Oncomine獲得的結果與TIMER數(shù)據(jù)庫分析得到的結果在Illustrator或者Photoshop軟件中進行拼圖。Figure9到此就大功告成啦!
(彩蛋,這里仙桃學術也可以做單基因的泛癌分析哦?。?/span>
復現(xiàn)步驟:
進入仙桃學術工具(https://www.xiantao.love/products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例)
選擇表達差異(挑)- 非配對樣本,點擊進入。選擇疾病-泛癌。因為有的癌種的正常樣本數(shù)不夠,用GTEx數(shù)據(jù)庫的正常樣本補足,將TCGA與GTEx數(shù)據(jù)庫聯(lián)合分析。這里建議選擇XENA-TCGA-GTEx泛癌數(shù)據(jù)。參數(shù)部分的類型選擇-箱圖/柱狀圖,基因輸入RRM2。點擊確認。
RRM2泛癌的結果就分析出來啦。保存結果,點擊大圖,下載pdf文檔。
好了,本期零代碼4+生信文章復現(xiàn)就到這里啦!是不是感覺很easy,感覺分分鐘也能做出屬于自己的SCI了呢~
歡迎對仙桃感興趣的小伙伴掃描二維碼咨詢哦
聯(lián)系客服