解螺旋公眾號(hào)·陪伴你科研的第2236天
大家好,我是風(fēng)。有腫瘤研究方向的學(xué)員來(lái)問(wèn)我,能不能為新人來(lái)詳細(xì)分析一篇腫瘤研究的零代碼生信文章,今天這篇Identification of Therapeutic Targets and Prognostic Biomarkers Among CXC Chemokines in the Renal Cell Carcinoma Microenvironment不知道合不合你們胃口。會(huì)了代碼的學(xué)員可能會(huì)不喜歡這種零代碼的文章,認(rèn)為用上代碼都發(fā)不了好文章,還零代碼?你這種想法從某種角度來(lái)說(shuō)也沒(méi)錯(cuò),畢竟如果純生信10+的文章,那不上代碼可能不行,但是找個(gè)好的切入點(diǎn),利用各種數(shù)據(jù)庫(kù)零代碼解決“溫飽”,應(yīng)該還是可以的。這篇文章是2020年發(fā)表在Frontiers in Oncology,IF為4.137,實(shí)時(shí)IF 4.99,估計(jì)今年上5分是沒(méi)問(wèn)題了。
先看題目
一樣我們先來(lái)看下題目,疾病為腎癌,問(wèn)題一樣是尋找預(yù)后靶點(diǎn)和標(biāo)志物:
從題目就可以看出來(lái),這又是一個(gè)基因家族的分析,對(duì)于這種文章,分子的選擇就非常關(guān)鍵了。不要拘泥于基因家族,你也可以選擇某條通路的基因或者某一條通路一個(gè)分支上的基因。當(dāng)然啦,分子新穎性和經(jīng)典性也要考慮。除了這種多個(gè)基因單腫瘤的分析,你也可以選擇一個(gè)分子,然后單基因泛腫瘤分析,這個(gè)很容易可以想到對(duì)吧?在線工具門(mén)檻低,所以提出問(wèn)題和設(shè)計(jì)故事就非常重要了。腎細(xì)胞癌背景知識(shí)不復(fù)雜,使用到的工具有:ONCOMINE, GEPIA, UALCAN, cBioPortal, GeneMANIA, DAVID 6.8, Metascape, TRRUST, LinkedOmics和TIMER,都是我們熟悉的工具吧?
再看內(nèi)容
挑
作者先是使用Oncomine數(shù)據(jù)庫(kù)評(píng)價(jià)CXC趨化因子在腎癌中的表達(dá),采用閾值為FC>2,p<0.05,rank為top10,結(jié)果顯示在癌組織中CXCL6、CXCL9、CXCL10、CXCL11和CXCL16的轉(zhuǎn)錄水平顯著高于正常腎組織,而CXCL3、CXCL7和CXCL13的轉(zhuǎn)錄水平顯著低于正常腎組織(作者在展示這個(gè)結(jié)果的時(shí)候就開(kāi)始引用文獻(xiàn)討論結(jié)果的可靠性,emmmm,我覺(jué)得見(jiàn)仁見(jiàn)智,放在討論部分闡述可能會(huì)更好)。為了驗(yàn)證結(jié)果的可靠性,作者還用UALCAN驗(yàn)證了CXC家族在腎癌中的表達(dá)。(Figure 1-3)
▲Figure 1 Oncomine
▲Figure 2 UALCAN
▲Figure 3(作者并沒(méi)有交代Figure 3是怎么畫(huà)出來(lái)的,但是GEPIA可以達(dá)到這樣的效果)
靠
接下來(lái)作者轉(zhuǎn)到了臨床意義部分,即使用GEPIA分析CXC和腎癌臨床病理參數(shù)之間的關(guān)系。結(jié)果表示隨著腫瘤進(jìn)展,CXC1、CXC5、CXC9、CXC10、CXC11和CXC13的表達(dá)增加,這些數(shù)據(jù)表明這些CXC趨化因子在腎癌的發(fā)生和發(fā)展中起著重要作用。
▲Figure GEPIA
還沒(méi)結(jié)束,作者趁熱打鐵,既然分析了CXC表達(dá)與腎癌分期之間的關(guān)系,那接著再分析一下這些分子的預(yù)后作用,很合理吧?所以接下來(lái)還是使用GEPIA分析CXC趨化因子在腎癌進(jìn)展中的預(yù)后價(jià)值,主要分析了無(wú)病生存期(DFS)和總生存期(OS),結(jié)果發(fā)現(xiàn)CXCL1和CXCL5的表達(dá)與較長(zhǎng)的無(wú)病生存期有關(guān),而CXCL1、CXCL2、CXCL3、CXCL5和CXCL13的低轉(zhuǎn)錄水平與較長(zhǎng)的總生存期顯著相關(guān)。
▲Figure 5 GEPIA
▲Figure 6 GEPIA
聯(lián)
接著作者轉(zhuǎn)到分子交互部分,使用cBioportal對(duì)腎癌中的CXC家族成員基因突變進(jìn)行分析,同時(shí)利用TCGA數(shù)據(jù),分析了CXC成員表達(dá)之間的相關(guān)性,結(jié)果發(fā)現(xiàn)CXCL1、CXCL2、CXCL3、CXCL5之間的相關(guān)性較強(qiáng)。此外,作者還使用STRING數(shù)據(jù)庫(kù)對(duì)差異表達(dá)的CXC趨化因子進(jìn)行了PPI網(wǎng)絡(luò)分析,以探索它們之間的潛在相互作用,并GeneMANIA探索它們之間的可能參與的通路與功能(這個(gè)你們很少用吧?)最后使用cBioportal分析CXC分子與50個(gè)最相關(guān)的鄰近基因的關(guān)系(cBioportal這個(gè)功能好像已經(jīng)消失了,可以用其他數(shù)據(jù)庫(kù)補(bǔ)上這部分分析):
▲Figure 7 cBioportal+GeneMANIA
圈
前面作者找到了CXC差異基因的50個(gè)鄰近基因,接著使用DAVID和metascape對(duì)這些分子進(jìn)行功能聚類,也就是GO和KEGG,結(jié)果顯示在KEGG中,趨化因子信號(hào)通路、細(xì)胞因子-細(xì)胞因子受體相互作用、癌癥中的通路、病毒致癌途徑、RAS信號(hào)通路、癌癥中的蛋白多糖、白細(xì)胞跨內(nèi)皮細(xì)胞遷移和RAP1信號(hào)通路與腎癌的發(fā)生和發(fā)展密切相關(guān)。
▲Figure 8 DAVID
挑圈聯(lián)靠一套打完,各位看官先別急著走,主線走完了,我們來(lái)看看作者還進(jìn)行了哪些支線內(nèi)容:
聯(lián):(拓展性的聯(lián))作者利用TRRUST和LinkedOmics數(shù)據(jù)庫(kù)探索了差異表達(dá)的CXC趨化因子的可能轉(zhuǎn)錄因子靶點(diǎn)和激酶靶點(diǎn),結(jié)果發(fā)現(xiàn)有三個(gè)轉(zhuǎn)錄因子(RELA、NFKB1和SP1)與CXC趨化因子的調(diào)節(jié)有關(guān)。RelA和NFKB1是CXCL1、CXCL2、CXCL5、CXCL10和CXCL12的關(guān)鍵轉(zhuǎn)錄因子,SP1是CXCL1和CXCL5的關(guān)鍵轉(zhuǎn)錄因子。具體結(jié)果展示如下:
▲Table 2 TRRUST
▲Table 3 LinkedOmics
接著作者認(rèn)為腎癌中CXC趨化因子的免疫細(xì)胞浸潤(rùn)參與了炎癥反應(yīng)和免疫細(xì)胞浸潤(rùn),從而影響腎癌患者的臨床轉(zhuǎn)歸,所以利用TIMER數(shù)據(jù)庫(kù)對(duì)差異表達(dá)的CXC趨化因子與免疫細(xì)胞浸潤(rùn)的相關(guān)性進(jìn)行分析,后面就是描述一下TIMER的結(jié)果了:
▲Table 9 TIMER
這樣文章整套走完,其實(shí)套路來(lái)說(shuō)相對(duì)簡(jiǎn)單,類似的套路還有在生信全書(shū)第四段位講解的范文,目前來(lái)說(shuō)這種基因家族的分析,只要文章故事組織的好,發(fā)表的可能性還是很大的,就看你能加多少支線內(nèi)容并且構(gòu)成一個(gè)好故事了。
生信只是一種工具,不管是代碼也好,在線工具也罷,能夠?yàn)槲覀兊目蒲蟹?wù)才是好工具,生信就像是一個(gè)大綜述,一個(gè)有理有據(jù)帶有很多圖表的大綜述,只有把生信的結(jié)果落實(shí)到生物學(xué)功能并進(jìn)行實(shí)驗(yàn),那生信結(jié)果才有它的價(jià)值,進(jìn)一步說(shuō),只有有希望轉(zhuǎn)化成臨床成果的數(shù)據(jù)挖掘才是好的科研項(xiàng)目,當(dāng)然我加了“有希望”三個(gè)字,畢竟就算是基礎(chǔ)實(shí)驗(yàn),能夠轉(zhuǎn)化的也不多,但是科研就是這樣不是嗎?畢竟不積跬步,又如何以至千里呢?
文章套路就算拆解完了,接下來(lái)我們看看文中圖表是如何做出來(lái)的?我們要怎么進(jìn)行復(fù)現(xiàn)?
Figure1分析
Figure 1 是使用Oncomine數(shù)據(jù)庫(kù)對(duì)腎癌中CXC趨化因子mRNA水平進(jìn)行研究,圖片的解讀見(jiàn)上一章,這期我們主要是復(fù)現(xiàn),首先打開(kāi)Oncomine數(shù)據(jù)庫(kù)(https://www.oncomine.org/resource/main.html):
以CXCL1為例,文章采用的閾值分別為:p 0.05, fold change 2, gene rank top 10%,接下來(lái)我們?cè)跈z索框中輸入CXCL1,然后點(diǎn)擊CXCL1 (Gene):
在左邊的欄目設(shè)置篩選條件,分別設(shè)置:Analysis Type選擇Cancer vs. Normal Analysis ,Cancer Type選擇Kidney Cancer,Data Type選擇mRNA,然后在右邊圖片上方設(shè)置篩選閾值,分別為:
設(shè)置內(nèi)容及結(jié)果如下圖:
上圖紅色框出來(lái)的Cancer VS Normal的圖片就是Figure 1中CXCL1所對(duì)應(yīng)的圖片了,按照上述方法依次輸入CXC家族其他基因,最后使用Adobe Illustrator進(jìn)行拼圖,拼成Figure 1的形式,這樣Figure 1就完成啦。
Table1分析
看起來(lái)好像很復(fù)雜,但是我們拆開(kāi)來(lái)看,表格可以用Excel進(jìn)行制作,那關(guān)鍵就在于獲取表格中的內(nèi)容啦,我們需要的數(shù)據(jù)分別是:TLR基因名稱,Type腫瘤類型,F(xiàn)old change,P值,t-test值和Reference引用,需要注意,文章表格納入的是腎透明細(xì)胞癌的dataset,所以表格沒(méi)有CXCL1的內(nèi)容,為方便大家理解和操作,我們直接使用CXCL1為例找到表格中的信息,具體操作步驟并無(wú)異同。在剛才的界面中點(diǎn)擊右上角Other View,然后選擇Dataset View:
出來(lái)的界面如下圖:
表格所需要的信息除了Reference之外,其他信息都在上圖紅色框內(nèi),復(fù)制粘貼到Excel表格中即可,那么Reference該怎么找呢?點(diǎn)擊圖片下方作者信息:
怕大家找不到,我還標(biāo)多了一個(gè)箭頭,然后會(huì)彈出下方的頁(yè)面:
點(diǎn)擊紅色方框內(nèi)箭頭所指的Pubmed即可跳轉(zhuǎn)到文章的Pubmed頁(yè)面,找到PMID或者DOI,接著使用Endnote進(jìn)行引用即可。同樣的方法查找CXC家族其他成員的信息,制作成Table 1,這樣Oncomine部分的內(nèi)容就此結(jié)束。
Figure2分析
Figure 2是使用UALCAN數(shù)據(jù)庫(kù)對(duì)CXC家族成員進(jìn)行分析,我們直接看操作部分,首先打開(kāi)UALCAN網(wǎng)站(http://ualcan.path.uab.edu/):
點(diǎn)擊TCGA analysis,進(jìn)入TCGA數(shù)據(jù)分析頁(yè)面:
輸入的Gene symbol可以一次性輸入多個(gè),避免重復(fù)操作,這里仍然以CXCL1為例,下方選擇腎透明細(xì)胞癌,然后點(diǎn)擊Explore,出來(lái)的頁(yè)面如下:
然后點(diǎn)擊Expression:
這樣,F(xiàn)igure 2中CXCL1的內(nèi)容就出來(lái)了,我們可以從圖片下方框出來(lái)的p值判斷這個(gè)結(jié)果是否具有統(tǒng)計(jì)學(xué)意義,依次操作CXC其他家族成員,下載圖片后一樣使用AI進(jìn)行拼圖,這樣Figure 2就成為我們盤(pán)中餐啦!
Figure3分析
這個(gè)圖展示的是CXC家族在RCC中的表達(dá)水平,文章并沒(méi)有說(shuō)明是哪個(gè)網(wǎng)站的圖片,那我們不妨想一想,類似的圖片,好像我們?cè)谏湃珪?shū)的上篇有位老師講過(guò),好像就是GEPIA網(wǎng)站(http://gepia.cancer-pku.cn/index.html),那我們打開(kāi)來(lái)看看:
打開(kāi)GEPIA,按照上圖選擇“Multiple Gene Analysis ”下方的“Multiple Gene Comparison ”,進(jìn)入下方頁(yè)面:
在Gene List的位置輸入CXC家族,然后Tissue Order選中dataset為KIRC腎透明細(xì)胞癌,其他選擇默認(rèn)參數(shù),然后點(diǎn)擊Plot,得到下方圖片:
這個(gè)圖片看起來(lái)和Figure 3是不是就挺像的了?下載圖片后用AI再搗鼓搗鼓(其實(shí)也不用咋搗鼓),這樣我們Figure 3也算搞定啦,接下來(lái)我們看看Figure 4又是什么
Figure4分析
Figure 4表示不同表達(dá)的CXC趨化因子與腎癌病理分期的關(guān)系,也就是stage分期,并且注明了是GEPIA的結(jié)果,好家伙,還好我還沒(méi)關(guān)閉GEPIA(http://gepia.cancer-pku.cn/index.html),那行, 我們還是以C XCL1 為例,來(lái)吧:
點(diǎn)擊Expression DIY下方的Stage plot,進(jìn)入下方頁(yè)面后,輸入基因CXCL1并選擇腫瘤為KIRC,然后設(shè)置相應(yīng)顏色,如下:
接著點(diǎn)擊Plot,下方就會(huì)出來(lái)相應(yīng)圖片:
這個(gè)圖片跟文章是一摸一樣了,按照上面的步驟依次對(duì)其他CXC家族成員進(jìn)行分析,然后保存所有圖片后使用AI進(jìn)行拼圖,F(xiàn)igure 4又被不知不覺(jué)搞定了,好像速度有點(diǎn)快?接下來(lái)繼續(xù)往下。
Figure5分析
Figure 5還是用GEPIA做的圖,表示的是腎細(xì)胞癌患者無(wú)病生存曲線(DFS)中不同表達(dá)CXC趨化因子的預(yù)后價(jià)值,那接著我們還沒(méi)關(guān)閉的GEPIA繼續(xù)往下:
點(diǎn)擊Survival下的Survival plot,進(jìn)入生存分析的界面:
按照上圖紅色框中的內(nèi)容進(jìn)行設(shè)置,然后點(diǎn)擊Plot,這樣CXCL1的圖就又出來(lái)了(奇怪,
我為什么要說(shuō)又?):
一樣的步驟再做其他CXC家族的成員,然后進(jìn)行拼圖即可,接下來(lái)我們?cè)偻拢?/span>
Figure6分析
OMG,又是生存曲線,還只是把DFS換成了OS,你們別信啊,生信不是這么簡(jiǎn)單的東西,只是剛好這個(gè)文章就用GEPIA弄了好幾個(gè)圖而已,我們?cè)賮?lái)看看操作,還是剛才的頁(yè)面,把DFS換成了OS,如下:
然后點(diǎn)擊Plot,這樣CXCL1的OS生存曲線又出來(lái)了:
這樣Figure 6也完成了,誒,行吧,今天就到這里吧,我們打到了Figure 6,下回從Figure 7開(kāi)始。
Figure7A分析
這個(gè)圖展示的是CXC家族在RCC中的突變情況,一看就知道是cBioportal(www.cbioportal.org),我們打開(kāi)網(wǎng)站:
在左邊選擇腫瘤Kidney,然后選擇相應(yīng)的TCGA RCC數(shù)據(jù)集,如下:
點(diǎn)擊Query by gene,到達(dá)下面頁(yè)面,然后進(jìn)行相應(yīng)設(shè)置:
提交后等待頁(yè)面結(jié)果:
這個(gè)結(jié)果跟文章似乎稍微有點(diǎn)出入,可以多試試幾個(gè)參數(shù),不過(guò)這個(gè)結(jié)果是我試了幾次后最接近文章結(jié)果的結(jié)果了,考慮到cBioportal曾經(jīng)改版過(guò),似乎這個(gè)有差異也算正常,既然說(shuō)到cBioportal,就不得不說(shuō)一下,新版的網(wǎng)站取消了network的模塊,所以這7B和7E是沒(méi)辦法做了≡(▔﹏▔)≡,那我們接著繼續(xù)到7C吧;
Figure7C分析
7C是STRING做的CXC家族的蛋白互作網(wǎng)絡(luò),STRING網(wǎng)站 (https://string-db.org/),大家應(yīng)該很熟了,打開(kāi)網(wǎng)站:
點(diǎn)擊SEARCH進(jìn)入下一個(gè)頁(yè)面:
按上圖輸入CXC家族,選擇human后點(diǎn)擊SEARCH,到達(dá)下一頁(yè)面:
打開(kāi)GEPIA,按照上圖選擇“Multiple Gene Analysis ”下方的“Multiple Gene Comparison ”,進(jìn)入下方頁(yè)面:
在Gene List的位置輸入CXC家族,然后Tissue Order選中dataset為KIRC腎透明細(xì)胞癌,其他選擇默認(rèn)參數(shù),然后點(diǎn)擊Plot,得到下方圖片:
點(diǎn)擊CONTINUE:
這個(gè)圖又跟文章的結(jié)果一致了有沒(méi)有?人狠話不多,接著7D;
Figure7D分析
這個(gè)圖其實(shí)我在訓(xùn)練營(yíng)就講過(guò)了,來(lái)過(guò)訓(xùn)練營(yíng)的學(xué)員可能有印象,這個(gè)圖是GeneMANIA (http://www.genemania.org)網(wǎng)站的圖片,我們打開(kāi)網(wǎng)站:
在左上角輸入CXC家族成員,點(diǎn)擊SEARCH,結(jié)果如下:
點(diǎn)擊左下角的小圓圈可以給網(wǎng)絡(luò)添加相應(yīng)的顏色:
可以選擇排名靠前的通路,也可以選擇符合自己研究方向的通路,當(dāng)然還可以對(duì)網(wǎng)絡(luò)排列進(jìn)行修飾:
相應(yīng)的操作都在圖片坐標(biāo),多點(diǎn)點(diǎn),選擇自己喜歡的style,又不花錢,點(diǎn)點(diǎn)沒(méi)壞處嘛,這樣我們7D也就解決了,接下來(lái)的Figure 8是 腎細(xì)胞癌中不同表達(dá)的CXC趨化因子和50個(gè)最常改變的鄰近基因的富集分析,其中50個(gè)鄰近基因也是從cBioportal得到的結(jié)果,也就是基于Figure 7E,網(wǎng)站改版后暫時(shí)無(wú)法復(fù)現(xiàn),接下來(lái)看到Table 2;
Table2分析
Table 2是通過(guò)TRRUST預(yù)測(cè)CXC家族成員的轉(zhuǎn)錄因子,網(wǎng)站網(wǎng)址為:TRRUST (https://www.grnpedia.org/trrust/),我們一樣打開(kāi)一下網(wǎng)頁(yè):
點(diǎn)擊中間的SEARCH,在出來(lái)的頁(yè)面拉到下方,然后如下圖設(shè)置:
輸入CXC家族成員之后,點(diǎn)擊提交,得到結(jié)果如下:
將表格整理就可以放入文章中,點(diǎn)擊表格中紅框的數(shù)字,可以直接跳轉(zhuǎn)到相應(yīng)詳情頁(yè)面,這里就不給大家展開(kāi)啦,最后到了Figure 9;
Figure9分析
Figure 9是不同表達(dá)的CXC趨化因子與免疫浸潤(rùn)細(xì)胞豐度(TIMER)的相關(guān)性,我們打開(kāi)TIMER網(wǎng)站(https://cistrome.shinyapps.io/timer/):
我們以CXCL1為例,選擇TIMER首頁(yè)的GENE模塊,點(diǎn)擊進(jìn)入下方頁(yè)面進(jìn)行設(shè)置:
設(shè)置完成后點(diǎn)擊Submit提交,得到了下方的結(jié)果:
按照上面的步驟依次分析剩下的CXC成員,然后拼成Figure 9,這樣就大功告成啦!等等等等,好像還有一個(gè)表格:
Table4分析
這個(gè)表格其實(shí)也可以在TIMER進(jìn)行分析,我們點(diǎn)擊TIMER模塊中的Survival,然后進(jìn)行如下設(shè)置(這里我以CXCL1和CXCL2為例):
設(shè)置完成后,在右邊就可以看到相應(yīng)的分析結(jié)果了:
然后整理成表格就完成啦!這樣我們文章的復(fù)現(xiàn)操作就此結(jié)束!
這篇零代碼的文章,用的很多數(shù)據(jù)庫(kù)都是在我們生信全書(shū)上篇中講解過(guò)的網(wǎng)站,有了好工具,關(guān)鍵的還是怎么組成一個(gè)好的故事,當(dāng)然,思路也是很重要,當(dāng)然文章復(fù)現(xiàn)過(guò)程中還有很多細(xì)節(jié)需要大家去進(jìn)一步細(xì)化,這些都是打磨的工作,相信難不倒大家。一篇文章復(fù)現(xiàn)完了,也不是就此結(jié)束,我們可以思考下,還有哪些網(wǎng)站的哪些分析可以加進(jìn)來(lái),讓數(shù)據(jù)更加豐富呢?
聯(lián)系客服