超詳細2021年3分+ceRNA純生信文章套路復現(xiàn)!大家好!今天我們來復現(xiàn)2021年3月發(fā)表在Frontiers in Genetics 上的一篇ceRNA純生信文章。ceRNA套路可咸可甜,影響因子可高可低,不會過時喲。本篇文章作者花樣湊數(shù)據(jù)真真做的很好。讓我們一起來品品吧。
- 仙桃學術(https://www.xiantao.love/products)
- R & Rstudio:clusterProfiler,
- Venn(http://bioinformatics.psb.ugent.be/webtools/Venn/)
- STRING (http://string-db.org)
- Cytoscape: STRING; MCODE; CytoHubba
- GEPIA (http://gepia.cancer-pku.cn/)
- Metascape (http://metascape.org/gp/index.html#/main/step1)
- Mirtarbase (http://mirtarbase.cuhk.edu.cn/php/search.php#target)
- Starbase (http://starbase.sysu.edu.cn/)
- Oncolnc (http://www.oncolnc.org/)
- Firehose database (http://firebrowse.org/)
- LncBase Predicted v.2 database (http://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=lncbasev2/index-predicted)
- GSEA (https://www.gsea-msigdb.org/gsea/index.jsp)
- Cmap(Connectivity Map)(https://portals.broadinstitute.org/cmap/) (https://clue.io/)
- PubChem (https://pubchem.ncbi.nlm.nih.gov/)
本文共10張圖片和3個表格,我們跟隨作者的腳步,一一進行。Fig.1 作者向我們展示了本文的流程圖,可以理解為基礎文章中的模式圖。作者通過GEO數(shù)據(jù)庫篩選自己想要的且合適的GSE50161,結合TCGA數(shù)據(jù)庫TCGA-GBM,共兩個數(shù)據(jù)集。一般我們會選擇2-4個數(shù)據(jù)集,一個作為篩選數(shù)據(jù)集,1-3個作為驗證數(shù)據(jù)集。本文思路:- 用兩個數(shù)據(jù)集篩選共表達基因【挑】;
- 進行GO/KEEGG,MCODE,篩選hub基因(8個);
- Hub基因差異表達和生存分析,進一步篩選具有預后的hub基因(5個);
- 通過5個hub基因反向預測調(diào)控其的miRNA,并篩選hub miRNA(has-9-5p);
- 通過hub miRNA預測與其有交互作用的lncRNAs,并篩選hub lncRNA(10個);只有CRNDE具有降低GBM OS的作用;
- mRNA-miRNA-lncRNA做成ceRNA模式;
- 此外,作者用篩選到的具有預后hub基因中的三個做了單基因GSEA分析和治療藥物預測。
Attention:對于生信套路,【雪球說生信】講的非常細喲。想要好好搞生信的童鞋千萬不要錯過,重點是免費免費免費的課程喲。
現(xiàn)在我們進入復現(xiàn)環(huán)節(jié) Fig.2 篩選GSE50161和TCGA共表達差異基因 → 【表達差異(挑)】做差異基因,挑是第一步,挑的好后面的模塊做的才會好。挑著一步就算是老司機也要費不少時間的喲。幸運的是我們現(xiàn)在有【仙桃學術】助力,【挑】有很多工作可以【仙桃學術】來實現(xiàn):如差異分析和差異基因是否預后意義。寫在前面:GEO數(shù)據(jù)庫的GEO2R功能拯救了很多不會R語言的學員,我們大師兄深深感受到了大家的渴望,開發(fā)出了比GEO2R更友好的數(shù)據(jù)集檢索&分析板塊。真真強烈推薦?。?!進入仙桃學術→ 數(shù)據(jù)集檢索(做自己的課題需要用自己的疾病/基因檢索) → 挑選樣本(可以隨機選擇樣本喲) → 進入樣本庫 → 分組 → 進行差異分析。
點擊說明 → 查看差異分析結果及圖表會發(fā)現(xiàn),GEO2R有的功能和圖,【仙桃學術】都有,包括樣本信息,標準化處理后展示,PCA圖,UMAP圖,差異分析結果情況,很香的火山圖和熱圖。重重重點是:圖具有【細節(jié)修改】這一友好功能。覺得圖不夠美觀,點【細節(jié)修改】;想要展示自己篩選的基因,點【細節(jié)修改】。爽歪歪有沒有?。?!Fig.2A火山圖可直接使用,但美化下比較好:說明→細節(jié)修改或分析工具→數(shù)據(jù)集模塊→火山圖進入。GEO數(shù)據(jù)集相應的數(shù)據(jù)會在歷史記錄和【分析工具】的【數(shù)據(jù)集模塊】展示,并助大家一臂之力,得到自己既想要又美觀高大尚的圖喲
Fig.2B 熱圖展示了所有差異基因,目前仙桃學術數(shù)據(jù)集模塊最多可以展示200個差異基因,【表達差異(挑)】的復雜熱圖可展示600個差異基因;我們就以top600差異基因為例來調(diào)整熱圖。下載GSE50161差異分析結果和表達矩陣 → 查看正常樣本位置,正常樣本位置需放在前面 → 獲取top600差異基因表達譜數(shù)據(jù) → 制作復雜熱圖。
提取top600差異基因表達譜數(shù)據(jù)并設置復雜熱圖相應的參數(shù)
進入仙桃學術,選擇差異分析(挑)→復雜熱圖 → 下載示例數(shù)據(jù) →根據(jù)示例數(shù)據(jù)調(diào)整GSE50161數(shù)據(jù)(見上圖)→ 可視化展示對于Fig.2CD 我們有神操作喲,進入【仙桃學術】,選擇差異分析→非配對樣本分析→疾病選擇TCGA-GBM(TPM數(shù)據(jù))→點擊確認,然后在說明文檔【數(shù)據(jù)下載】→打開百度云超鏈接→下載TPM數(shù)據(jù)下載的數(shù)據(jù)包括175個樣本信息,有三種類型:原發(fā)性腫瘤,復發(fā)性腫瘤和正常樣本,文中作者對于樣本信息進行了篩選,只取原發(fā)性腫瘤和正常樣本。多數(shù)分析工具和在線數(shù)據(jù)庫(NetworkAnalyst)是對counts數(shù)據(jù)進行差異分析,所以對于TCGA FPKM和TPM數(shù)據(jù)進行差異分析還是繞不開R語言;解螺旋官網(wǎng)有很多R語言相關課程,在這里建議掌握簡單的數(shù)據(jù)清洗;后續(xù)工作再在工具中進行。效率更高喲TCGA-GBM差異分析我直接在R語言進行處理,差異分析結果展示(框中為我們后續(xù)分析需要的數(shù)據(jù)及上下調(diào)基因標識):按照【仙桃學術】火山圖制作要求,從TCGA-GBM差異分析數(shù)據(jù)中提取火山圖所需數(shù)據(jù);然后用分離工具里的【表達差異(挑)】→ 【火山圖】進行作圖Fig.2EF韋恩圖制作:分別提取GSE50161和TCGA-GBM上下調(diào)基因 → 基礎繪圖 →韋恩圖方法一:Calculate and draw custom Venn diagrams(http://bioinformatics.psb.ugent.be/webtools/Venn/):以下調(diào)基因為例缺點:下載后的數(shù)據(jù)所有的基因在同一列,不夠體貼;韋恩圖顯示不全,需下載后調(diào)整。方法二:仙桃學術;以上調(diào)基因為例,可以以同樣的方式制作共表達下調(diào)基因韋恩圖。根據(jù)韋恩圖制作示例數(shù)據(jù)制作韋恩圖所需數(shù)據(jù):將GES50161上調(diào)基因和TCGA-GBM上調(diào)基因放在一個表格里即可。韋恩圖制作:仙桃學術支持制作6組數(shù)據(jù)集的韋恩圖。直接用【仙桃】默認參數(shù)制作的韋恩圖就很美觀啦,不過為了配合作者的風格,我們對參數(shù)做了下調(diào)整,詳細步驟標注在下圖中。我們在這里展示下共表達基因,這種格式顯然比較舒服,后期提取共表達基因也會比較方便:復制黏貼就搞定了。Attention:TCGA前期數(shù)據(jù)處理借助于R語言比較好,建議學習一點數(shù)據(jù)清洗和差異分析的代碼,需要的時候換下數(shù)據(jù)集就出來結果啦,其它的部分再用分析工具。本圖把得到的有統(tǒng)計學意義的差異基因,又分為上下調(diào)基因進行GO/KEGG分析,得到的圖就會翻倍喲。一眼望去:圖多,美容豐富。上下調(diào)基因GO/KEGG分析為同樣的方式,我們這里以上調(diào)基因為例進入【仙桃學術】 → 【功能聚類(圈)】中的GO/KEGG富集分析 → 復制韋恩圖中GSE50161和TCGA-GBM上調(diào)基因共表達基因至分子列表中,點擊確認。參數(shù)里的【富集分析】一般選擇默認,【全部GO/KEGG】已經(jīng)最全了。
下載GO/KEGG分析結果 → 選擇文獻中展示結果 → 復制GO/KEGG ID
GO/KEGG可視化:必須做完GO/KEGG富集分析,才能做可視化,因為可視化用的是上一步GO/KEGG富集分析的結果。這步與上步不同的是,上步是獲取上調(diào)基因富集到
了哪些生物過程,分子生物學功能,細胞學組分和通路??梢暬钦故靖患降?,我們想要的,感興趣的和有價值的分析結果??梢暬襟E詳見下圖:
注:GO是基因本體論聯(lián)合會建立的一個數(shù)據(jù)庫,旨在建立一個適用于各種物種的、對基因和蛋白功能進行限定和描述的,并能隨著研究不斷深入而更新的語義詞匯標準。GO注釋分為三大類,分別是:分子生物學功能(Molecular Function,MF)、生物學過程(Biological Process,BP)和細胞學組分(Cellular Components,CC),通過這三個功能大類,對一個基因的功能進行多方面的限定和描述。
我們以相同的方式獲得KEGG-UP和GO/KEGG-DOWN可視化結果
Attention:Fig.3D作者放錯圖了,操作時要注意哈
這一步主要是通過STRING數(shù)據(jù)庫和Cytoscape結合完成;早期我們需要在STRING數(shù)據(jù)庫網(wǎng)頁上傳共表達基因后,導出數(shù)據(jù)到Cytoscape進行繪圖和美化;現(xiàn)在不需要進去STRING數(shù)據(jù)庫了,Cytoscape就可以直接獲取STRING數(shù)據(jù)庫的數(shù)據(jù)了,只需要安裝STRING插件。此外建議安裝下STRING 富集分析插件,這樣的話GO/KEGG分析都可以在Cytoscape完成喲。提取GSE50161和TCGA-GBM所有共表達基因(上調(diào)+下調(diào))list →打開Cytoscape→network頁面→STRING→STRING protein query→復制黏貼共表達基因→生成網(wǎng)絡圖點擊搜索后,會出現(xiàn)下面的對話框,這里主要是:a. 對有疑問的基因做一個選擇;b. 可信度調(diào)整:0.4為中可信度,還可以根據(jù)自己的結果再在后面步驟中做調(diào)整。
上圖中點擊【Import】就出來下面漂亮的【STRING】元素的圖啦。圖中包含了很多信息,我們有設置Cytoscape的單元課,對Cytoscape感興趣的童鞋可以系統(tǒng)學下;但通過以上三步也可以完成一張比較漂亮的圖。
MCODE分析:這部分我們直接上圖哈
Fig.4AB 選擇第一個cluster→新建一個網(wǎng)絡→調(diào)整參數(shù)
調(diào)整參數(shù)時,右側(cè)框框中可以設置STRING數(shù)據(jù)庫相應的參數(shù),與在線數(shù)據(jù)局一樣的哈,圖片調(diào)整還會用到【layout tool】在下圖的左下角,可以縮小和放大node的尺寸,以便獲得更美觀的圖;圖片中node太多時,比較好用。直接在Cytoscape進行:選擇所有的node → 右側(cè)STRING參數(shù)框 nodes界面點擊【功能富集】,確認后頁面下方就會展示富集結果;這里不止是GO/KEGG結果,還會包括其它數(shù)據(jù)庫的富集結果。獲取cluster1(MCODE1)基因list :將MCODE1的nodes(基因)全部導出仙桃學術:GO/KEGG分析;GO/KEGG可視化,方法同F(xiàn)ig.3 這里不再贅述同樣的方法獲得Fig.4C-J
這就是我們常見的基因差異,單個基因在腫瘤和正常組織中表達有什么不一樣很直觀的展示出來;生存分析:作者選取的是四分位數(shù),其它還有中位數(shù)、自定義比例,仙桃學術還有神仙操作:最小p值。作者還就篩選到的5個基因進行GO富集分析。需要指出的是:目前就5個基因進行GO富集分析的在線數(shù)據(jù)庫較少,但Metascape這個在線數(shù)據(jù)庫可以。真真是:不管是黑貓白貓,能抓住老鼠的就是好貓。差異分析和生存分析大家都比較熟悉了,這塊我們直接上圖哈Fig.5 A-E (我們以ITGA5為例)
方法一
GEPIA (http://gepia.cancer-pku.cn/) 圖片可直接用于發(fā)表,GEPIA這個數(shù)據(jù)庫比較好用,相信大家也比較熟悉哈了,我們直接上圖哈
2.生存分析
仙桃學術(https://www.xiantao.love/products) 我們還是以ITGA5為例1.差異分析
2. 生存分析
我們以同樣的方式復現(xiàn)Fig.5 C-E進入Metascape(http://metascape.org/gp/index.html#/main/step1)→三步走(加載基因list → 選擇物種 → 進行分析)cytoscape → STRING → 基因富集(但結果與方法一差別較大),重點是我們掌握一種新方法。Fig.6 5個差異表達基因(mRNA)反向預測miRNAmiRTarbase(http://mirtarbase.cuhk.edu.cn/php/index.php)→ search內(nèi)輸入基因名→下載結果
Starbase(http://starbase.sysu.edu.cn/)→ miRNA-mRNA → 更改【target】Starbase數(shù)據(jù)庫界面友好,操作方便,比較推薦。合并miRTarbase和Starbase數(shù)據(jù)庫結果并保存
制作miRNA_target nodes表格和miRNA_target屬性表格Cytoscape→載入miRNA_靶基因和屬性表格 → 生成網(wǎng)絡并美化
Fig.7 用cytoscape插件cytohubba篩選與5個mRNA相關的miRNAs,并通過在線數(shù)據(jù)庫Oncolnc分析篩選后的miRNA預后情況;→ 其中一個miRNA具有預后價值。Cytoscape插件cytohubba是常用的篩選hub基因的一個插件,用起來很不錯喲Fig.7A 在Fig.6的基礎上進行cytohubba篩選hub miRNA首先選擇目標網(wǎng)絡(Fig.6)→ 點擊【Calculate(計算)】→ 選擇nodes(基因),可以像作者一樣選擇TOP9 miRNA(圖片中選擇TOP14是包括mRNA在內(nèi));也可以選擇自己感興趣的基因,在⑦【特定的nods】里輸入自己感興趣的基因 → 點擊【submit】,即可獲得hub 基因,并生成新的網(wǎng)絡。
選中top14 hub 基因,生成新的網(wǎng)絡(Fig.7A),調(diào)整基因位置至美觀(Fig.7A展示)進入FIREHOSE(http://gdac.broadinstitute.org/)
點擊GBM那一行的【browse】,即可進入GBM具體數(shù)據(jù)顯示頁面
在【view expression profile】輸入has-9-5p,點擊搜索小圖標,進入has-9-5p分析頁面
遺憾的是Has-mir-9-5p基因名稱試了好多個都不行我們用其它基因(如:EGFR)展示一下,首先我們看到了EGFR在泛癌中表達情況;點擊【filter】顯示紫色框框中選項;點擊【select none】;選擇【GBM】;點擊【submit】。即可獲得EGFR在GBM中的表達差異
EGFR在GBM中的表達差異展示
Oncolnc數(shù)據(jù)庫頁面非常簡潔,我們進入后只需在框框中輸入基因名稱,點擊【submit】即可進入基因在各個腫瘤中的情況列表進入Oncolnc(http://www.oncolnc.org/)→輸入hsa-9-5p → 提交Has-9-5p在21個腫瘤中的表達情況和生存分析情況 → 找到GBM所在行 →點擊【Yes Please!】→ 進入has-9-5p生存分析頁面
首先會讓輸入高低組比例,我們輸入50:50(即中位數(shù))→點擊【submit】即可顯示Has-9-5p生存分析情況。
此處作者選的是中位數(shù);也可以根據(jù)自己的數(shù)據(jù)自定義
Oncolnc數(shù)據(jù)庫還很友好的列出了has-9-5p高表達組和低表達組的生存時間的狀態(tài)。Fig.8 由miRNA預測lncRNA,并用GEPIA數(shù)據(jù)庫進行差異表達和預后分析 → lncRNA CRNDE 具有預后價值作者通過Starbase和LncBase Predicted v.2兩個數(shù)據(jù)庫分別預測has-9-5p上游的lncRNA;然后取交集;進而篩選出更準備的lncRNA.Starbase(http://starbase.sysu.edu.cn/)→ miRNA-lncRNA → 更改【miRNA】為has-mir-9-5p → 更改【target】為all → 點擊【Quick Search】→ 點擊【Download】下載數(shù)據(jù)
LncBase Predicted v.2(http://carolina.imis.athena-innovation.gr/diana_tools/web/index.php?r=lncbasev2%2Findex-predicted)→ 輸入目標miRNA → 自動搜索并顯示結果(簡潔快速)→ 下載數(shù)據(jù)
兩個數(shù)據(jù)庫下載數(shù)據(jù)展示:
Lncbase數(shù)據(jù)庫下載的數(shù)據(jù)不太友好,它把ensemble號與基因名放在一起了;不過好在excel有【分列】功能
分列獲取基因名:選中【ensemble號與基因名】→ 點擊菜單欄【數(shù)據(jù)】里的【分列】→ 【(】作為分列標識 → 獲得 【Gene_ID】和【Gene_Name)】兩列 → 用同樣的方式對【Gene_Name)】進行分列處理 → 得到藍色框框中【Gene_Name】列。大功告成。取兩個數(shù)據(jù)庫來源的基因制作韋恩圖
方法一
Calculate and draw custom Venn diagrams(http://bioinformatics.psb.ugent.be/webtools/Venn/):
分別復制starbase和lncbase數(shù)據(jù)庫基因list,并命名(左圖);然后點擊【submit】就可以獲得韋恩圖(右圖)啦仙桃學術(https://www.xiantao.love/products)1. 整理數(shù)據(jù):分別復制starbase和lncbase數(shù)據(jù)庫基因list,黏貼進excel中
2. 選擇仙桃學術-分析工具 → 基礎繪圖 → 韋恩圖→上傳Fig.8A數(shù)據(jù) → 調(diào)整參數(shù) → 點擊【確認】→ 韋恩圖就好啦
Fig.8BC復現(xiàn) 本部分復現(xiàn)方法詳細步驟見Fig.5,此處我們直接上圖GEPIA(http://gepia.cancer-pku.cn/detail.php)2. 生存分析(同F(xiàn)ig.5)
仙桃學術(https://www.xiantao.love/products)1.差異表達(同F(xiàn)ig.5)
2.生存分析(同F(xiàn)ig.5)
Attention:相信做過GSEA的童鞋都受過GSEA數(shù)據(jù)制作的毒打,我也覺得很是麻煩,所以我們直接用【仙桃學術】哈。Fig.9A需要用Cytoscape。單基因差異分析:生信工具_分析工具中的【表達差異挑(挑)】→【差異分析】→【單基因差異分析】→疾病選擇【TCGA-GBM】→【分子】里輸入“PTX3”,其他參數(shù)默認 → 點擊【確認】→ 【結果】出顯示分析結果。下載在歷史記錄里。
下載PTX3單基因差異分析結果&展示 → 提取PTX3 GSEA分析數(shù)據(jù)
PTX3 GSEA分析 和 數(shù)據(jù)下載&展示(操作方法及步驟同F(xiàn)ig.3)
PTX3 GSEA可視化(操作方法及步驟同F(xiàn)ig.3)按照以上步驟復現(xiàn)Fig.9 B-D
提取GSEA富集分析結果 → 制作網(wǎng)絡圖(Cytoscape)(Fig.9A)
1. 提取三個基因富集分析結果
2. 準備網(wǎng)絡表格:excel復制黏貼即可
3. 打開Cytoscape并導入網(wǎng)絡表格(同F(xiàn)ig.4)
注:Cytoscape僅支持同時上傳兩個node列4. 在Cytoscape 網(wǎng)絡圖界面添加兩個node(has-9-5p和CRNDE)并命名:在網(wǎng)絡圖中單擊右鍵→【add】→【node】→ 選中添加的node →單擊右鍵 → 【edit】→ 【renamed node】→ 【輸入has-9-5p/CRNDE】5. node table自定義一列type → 分別標注 CRNDE, has-9-5p,(PTX3/MMP9/STX1A),通路為lncRNA, miRNA, mRNA和pa(pathway)→ 在【style】里更改node顏色 → 調(diào)整nodes 位置,即可得到美美的Fig.9A啦。Fig.10 根據(jù)三個基因預測治療GBM的三個藥物Cmap(https://portals.broadinstitute.org/cmap),用三個基因預測藥物
制作三個基因的signature:需要的是基因的探針I(yè)D獲取基因探針I(yè)D并制作grp文件:打開GSE50161 差異分析結果 → 發(fā)現(xiàn)有探針列和基因列 → 點擊【查找和替換】并輸入STX1A進行查找即可獲得STX1A的探針值 → 同樣的方式獲得MMP9和PTX3的探針值 → 將三個基因的探針值按照上下調(diào)基因分別復制黏貼到兩個新的excel,保存后把后綴改成“.grp”即可。
點擊【Query】→【quick query】→ 根據(jù)網(wǎng)頁提示上傳上下調(diào)文件 → 點擊【execute query(執(zhí)行搜索)】→ 進入結果頁面 → 點擊【查看結果】會直接下載結果 → 打開文件 → 查找并標記作者選擇的5個藥物。
pubchem(https://pubchem.ncbi.nlm.nih.gov/)獲取藥物結構并展示,我們以Clemizole為例。
1. 文本框輸入clemizol → 點擊搜索圖標 → 進入clemizol信息頁面,第一個就是我們想要找的,點擊進入 →2. Clemizole詳細信息頁面,有pubchem CID(ID號),結構展示(作者向我們展示的是3D結構),分子式等
Bacitracin結構暫時沒有,其它3個藥物可以用相同的方式在pubchem數(shù)據(jù)庫驗證。最后,我們來看下table,table的信息來自于圖片,作者吧同一個結果分別用圖和表分別表示,花樣展示數(shù)據(jù)。Table2 Fig6 cytohubba計算結果的排名及scoreTable 3 藥物預測結果展示 為Fig.10的補充1. 作者共使用了12個在線數(shù)據(jù)庫和R語言來給我們展示了一篇具有豐富結果的ceRNA純生信文章。從分析策略上來看,本文始終圍繞著【挑圈聯(lián)靠】進行,我們直接上圖:
2. 整個流程下來,除了TCGA-GBM tpm數(shù)據(jù)差異分析,ceRNA基因預測和Cytoscape,其它部分【仙桃】均能實現(xiàn),一站式搞定喲。
好啦!我們完美的復現(xiàn)了一篇ceRNA的文章,是不是沒有想象中那么難了,快快行動起來吧。
歡迎大家關注解螺旋生信頻道-挑圈聯(lián)靠公號~