昨天那篇兩分半的文章(沒看過就點這里),有好多人覺得現(xiàn)在沒法發(fā)了,但這篇文章就是今年八月份發(fā)表的,所以也不是什么“最近”發(fā)不了啦。但這也需要有一定的運氣的。不管這樣的思路是不是能發(fā)出什么文章,但如果只有這樣的數(shù)據(jù)挖掘分析,其實并不是很有價值就對了,因為基本上都是各說各話,各找各媽。
如果在這個基礎(chǔ)上,有一定的實驗驗證的話,發(fā)個一兩分的應(yīng)該還是可以的。什么驗證?比如免疫組化,驗證一下是不是樣本中有這樣的表達(dá)現(xiàn)象啊,或者做個qPCR驗證驗證,這都是比較快速的驗證方法。今天我們就把這篇文獻(xiàn)到底是怎么做的,一步步分析一遍。
首先,在這篇文獻(xiàn)里,大家如果認(rèn)真看的話,會發(fā)現(xiàn)我平時教大家挖便宜數(shù)據(jù)的時候,都讓大家去下載的GEO上的GDS數(shù)據(jù),就是那種有熱圖的。那些,可以直接在GEO的Analysis Tool里面進(jìn)行分析。但這篇文章用的是GSE的數(shù)據(jù),有什么區(qū)別呢?
首先我們講GEO的數(shù)據(jù)有這么幾種:GDS,GSM,GSE和GPL。GSM是單個樣品的表達(dá)數(shù)據(jù),這個樣品可能是某個芯片里的一個樣本。GPL是表達(dá)檢測所用的平臺,換句話說就是檢測方法,用的是基因芯片還是qPCR,還是蛋白芯片,基因芯片用的是哪個公司的那種芯片。GDS當(dāng)然是我們最熟悉的,某個題目下的多個樣本表達(dá)的集合,由于使用的實驗平臺是一致的,所以可以形成熱圖。GSE比較特殊,是一個實驗中多個芯片的組合,可能是用的一樣的平臺,可能是不同的平臺。
好了,我們首先搜一下這個GSE的數(shù)據(jù)。
打開后,我們會看到這個芯片的數(shù)據(jù),所使用的平臺,包含的樣本情況等等。接著,我們要下載這個“Series Matrix File(s).txt”文件。
雖然是txt文件,但其實很大。
用Excel打開后,會看到這樣的數(shù)據(jù),開頭幾行是對這個GSE的注釋,而下面是基因名和表達(dá)量,基因名其實都是所用平臺的基因名,所以我們需要搜索找到GPL的注釋文件。
打開剛才的GSE21815界面中的GPL的鏈接,可以看到里面有對所有這些基因的對應(yīng)基因名、基因ID、NM號以及探針序列之類的所有注釋。就下載下來就可以了。
把對應(yīng)的基因名復(fù)制下來,替換到剛才的表格中。
接著,把GSE數(shù)據(jù)的表格中的數(shù)據(jù)部分復(fù)制下來,貼到一個新建的txt文件里,這需要蠻多時間,但只有這樣我們才能用Morpheus來分析,雖然文獻(xiàn)里所采用的GeneSpring也還好啦,但是操作不是很方便,所以我不喜歡用,我們還是用Morpheus吧(不知道怎么用就點這里)。
導(dǎo)入到Morpheus后,進(jìn)行分析,按照文獻(xiàn)里所說的,用T檢驗來分析,就可以得到這樣的和文獻(xiàn)里差不多的芯片熱圖了。
…華麗麗的分割線…
李莫愁博士:今天就先說到這里吧,說多了大家估計大概大家也接受不了。和文獻(xiàn)里的這個對比一下,是不是差不多了?我隨機挑了個比較了下(上面是文獻(xiàn)中的,下面是我分析的):
明天繼續(xù)來接著將得到的數(shù)據(jù)他們是怎么來進(jìn)行GO、Pathway和PPI分析的吧。今天就先策到這里吧。
聯(lián)系客服