GSEA分組分析
@[toc]
1. 根據(jù)基因文件進(jìn)行處理篩選
2. 文件內(nèi)容補(bǔ)充及改名
3. GSEA軟件使用
GSEA單基因分析
這段時(shí)間有空為了某人學(xué)習(xí)了一下不屬于我的領(lǐng)域的東西——GSEA分析(基因富文本分析),下面總結(jié)最近所學(xué)GSEA分析的步驟及方法。
對于已有的基因文件,一般是xslx或者是csv格式(不要問基因文件哪來的,外行人的我猜測應(yīng)該是可以從某某網(wǎng)站下載),而這個(gè)文件一般排序都是亂的且只有一列,所以這個(gè)時(shí)候就要進(jìn)行分列并排序了。如圖為基因文件原始格式:
接下來進(jìn)行分列操作:
因?yàn)閿?shù)據(jù)全部都在第一列,所以選中整個(gè)第一列
點(diǎn)擊數(shù)據(jù)-分列
彈出分列窗口之后點(diǎn)擊下一步,然后這里根據(jù)表格的形式選擇對應(yīng)的分隔符號,我這里選擇Tab鍵就可以了,點(diǎn)擊下一步,然后點(diǎn)擊完成
接下來根據(jù)你需要分析的基因進(jìn)行表達(dá)量大小的排序:
選中你需要分析的基因那一列,這里我以HEATR1基因?yàn)槔?/p>
然后點(diǎn)擊數(shù)據(jù)-排序
確定選擇擴(kuò)展選定區(qū)域選項(xiàng)
點(diǎn)擊排序即可
接下來進(jìn)行數(shù)據(jù)轉(zhuǎn)置操作:
因?yàn)榇藭r(shí)的數(shù)據(jù)行和列是反的,不利于我們進(jìn)行GSEA分析,因此需要進(jìn)行轉(zhuǎn)置。
新建一個(gè)空白表格
復(fù)制剛剛分列的表格內(nèi)的全部內(nèi)容
在空白表格以轉(zhuǎn)置的格式粘貼
如圖即為分列-排序-轉(zhuǎn)置后的表格,瞬間清爽許多。
至此已經(jīng)完成一半了,繼續(xù)往下看。
因?yàn)椴襟E1所得到的文件GSEA軟件并不能識別,為了能讓GSEA軟件識別,需要在表格第一行增添2空白行
同樣還需要在第二列增添一列空白列,完成行和列增添后的表格如圖所示
接著按照如下格式在空白行、空白列中增添內(nèi)容。這里解釋一下12197代表的是表格的每行的基因個(gè)數(shù)(行基因數(shù)),30表示每列的樣本個(gè)數(shù)(列樣本數(shù))。#1.2是固定格式。然后在第二列也就是30下面填入Description,Description下面填入NA,這也是固定格式。
接下來對以上文件進(jìn)行保存,選擇另存為,保存類型一定要選擇文本文件(制表符分隔)(*.txt),文件名則切換輸入法為英文,然后在文件名里面先輸入雙引號,雙引號里面填你需要的名字并加上.gct。比如我甜的格式就是:
"cell_heatr1_high_low_gct.gct"
(命名的時(shí)候盡量都用下劃線_而盡量少用中劃線-,因?yàn)橛行┚幊陶Z言不識別中劃線,而下劃線基本都可以被識別。還有的人也許喜歡選擇保存類型之后就隨便的命名然后直接更改文件的后綴,這種方法大概率在后期文件導(dǎo)入到GSEA軟件時(shí)會(huì)出現(xiàn)導(dǎo)入失敗,盡量別用這種方法)
至此,GSEA所需的gct文件就已經(jīng)完成了。接下來制作cls表型文件,制作格式如下圖所示:
這里解釋一下,在你對HEATR1基因的30個(gè)樣本排序之后,你需要自己設(shè)置一個(gè)表達(dá)量的閾值,高于這個(gè)閾值的則為高表達(dá),低于這個(gè)閾值的則為低表達(dá),這也就是cls表型文件最下面的名稱的由來
最后另存為,保存類型一定要選擇文本文件(制表符分隔)(*.txt),文件名則切換輸入法為英文,然后在文件名里面先輸入雙引號,雙引號里面填你需要的名字并加上.cls。比如我甜的格式就是:
"cell_heatr1_high_low_cls.cls"
首先導(dǎo)入文件,點(diǎn)擊左上角的Load data
導(dǎo)入方式有三種,一般按照喜好自己選擇,這里我使用方式1,點(diǎn)擊Browse for files,選擇之前制作好的gct文件和cls文件,導(dǎo)入成功如下圖所示:
接著點(diǎn)擊左上角的Run GSEA,在彈出的窗口中,首先選擇表達(dá)數(shù)據(jù)集Expression dataset,可以看到只有我們導(dǎo)入的gct文件,所以選擇它即可
然后選擇基因背景文件Gene sets dataset,我這里以kegg通路演示,具體根據(jù)你的需要來選擇。
然后是置換檢驗(yàn)的步數(shù)Number of permutations,默認(rèn)選擇1000,一般不進(jìn)行修改,需要改的話根據(jù)你的需求自己改
接下來選擇表型文件Phenotype labels,表型文件直接選擇剛剛導(dǎo)入的即可,第3步選擇分組對比,這里隨便選一個(gè)即可,比如我選了Low分組,那么我后期得到的正向通路就會(huì)和Low基因比較正相關(guān)。
接下來選擇是否要將基因轉(zhuǎn)換為gene symbols格式,這里選擇不轉(zhuǎn)換
接下來選擇置換檢驗(yàn)的類型,一般樣本量比較少時(shí)選擇gene_set,該選項(xiàng)會(huì)影響結(jié)果的p值,所以選的時(shí)候注意一下
接下來是芯片平臺Chip platform選擇,因?yàn)槲覀儾晦D(zhuǎn)換gene symbols文件,因此這里可以不要選擇,如果要轉(zhuǎn)化則要選擇。該參數(shù)主要用來選擇gene symbol與探針、或者gene ID相互對應(yīng)的注釋文件,當(dāng)上邊Collapse dataset to symbols參數(shù)設(shè)置不是No_Collapse時(shí),此參數(shù)必須選擇。這里,我們輸入為gene symbol,因此不選
最后是基本設(shè)置,具體設(shè)置見下圖
最后點(diǎn)擊最下面綠色的箭頭run即可,最終結(jié)果就會(huì)在剛剛設(shè)置的文件路徑下。如圖所示
單基因分析步驟和分組基因步驟不同的地方就兩點(diǎn),其余的步驟參考分組分析。
基因表型文件Phenotype labels設(shè)置不同,具體操作見圖片
至此,這里就設(shè)置好了
接下來是第二處不同,也就是基因排序參數(shù)的修改,一般選擇pearson,代表是基于其他基因與該基因的相關(guān)系數(shù)大小排序。(如有需要可自行更改其它排序方法)
接下來是第二處不同,也就是基因排序參數(shù)的修改,一般選擇pearson,代表是基于其他基因與該基因的相關(guān)系數(shù)大小排序。(如有需要可自行更改其它排序方法)
別的地方和分組分析都一樣,設(shè)置完之后運(yùn)行即可
聯(lián)系客服