我們的數(shù)據(jù)挖掘課程中,有一個(gè)課是主講如何從geo數(shù)據(jù)庫中下載想要的數(shù)據(jù),并用R語言進(jìn)行分析。我們可以得到各種圖,如韋恩圖、熱圖、火山圖、go和kegg條形圖和氣泡、蛋白互作圖等,我們得到這些數(shù)據(jù)之后,如何整理一篇文章出來呢,有時(shí)候,甚至不需要用所有的結(jié)果就可以完成一篇4分的文章,我們來舉個(gè)例子。
這是“神刊”Scientific Report上面的文章,研究的是非酒精性脂肪性肝病(NAFLD)相關(guān)基因以及通路,作者選用了GEO數(shù)據(jù)庫中的三套數(shù)據(jù),GSE31803, GSE49541和GSE63067。
文章分別分析了三組GSE中NAFLD與正常肝組織的差異基因,分別得到8503, 1538, 以及94個(gè)差異基因。
去除重復(fù)基因以及沒有確定基因名稱的值后,GSE31803和GSE4954取前100個(gè),GSE63067取前93個(gè)(本身不足100個(gè)),取交集,得到韋恩圖。
隨后,文章分別對三套數(shù)據(jù)的差異基因做了GO分析中的生物學(xué)過程分析,根據(jù)-Log(p-value) 值從小到大來排列,列出前20個(gè),這個(gè)值越大代表p Value越小,越顯著,個(gè)人感覺從長到短排列看起來更舒服,下圖是其中一套數(shù)據(jù)的GO分析中的BP,即生物學(xué)過程。
GO分析圖怎么做,前面的推文講到過,可以返回去看一下。
在這三套數(shù)據(jù)中,分子代謝過程(small molecule metabolic process)為共同富集的生物學(xué)過程,文章中還列出了兩兩共同的生物學(xué)過程,這些生物學(xué)過程可能在疾病發(fā)展過程中起重要作用。
同樣的套路,文章分析了KEGG,列出了前20的通路,然后找三組共同的通路,分析的方法與GO幾乎一樣,DAVID里面可以下載富集的數(shù)據(jù),以下是其中一套數(shù)據(jù)的結(jié)果。
最后,文章做了一個(gè)最簡單的驗(yàn)證,如何驗(yàn)證?猜都能猜到,就是用臨床樣本做一下定量PCR,文章中選取了15例正常樣本和10例脂肪肝樣本,對8個(gè)至少兩兩共同的差異基因進(jìn)行檢測,然后與數(shù)據(jù)庫中分析的結(jié)果進(jìn)行比較,列出結(jié)果一致的基因,相當(dāng)于實(shí)驗(yàn)與數(shù)據(jù)挖掘結(jié)果相互驗(yàn)證了。
這篇文章簡單不簡單?確實(shí)簡單,但也確實(shí)發(fā)到了4分雜志上。
文章雖簡單,至少可以給我們點(diǎn)提示,就是GEO上找到的Series,單一的分析其中一個(gè)可能創(chuàng)新性不足,這樣我們就可以多找?guī)讉€(gè)數(shù)據(jù)集,找出差異基因,取交集進(jìn)行分析,增加文章的創(chuàng)新性和可信度。
好了,就介紹到這里,大家快回去試試吧,下一次介紹一下如何利用GEO2R在GEO里面找差異基因!
聯(lián)系客服