富集分析工具匯總
文章名字:SURVEY AND SUMMARY
Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists
一、摘要
曾經(jīng)的基因的功能研究,往往都是一兩個(gè)基因,這樣研究較為簡(jiǎn)單。隨著測(cè)序技術(shù)的發(fā)展,各種組學(xué)的突飛猛進(jìn),目前功能基因的研究數(shù)量較多。大量功能基因的研究成為挑戰(zhàn),很多的富集分析的軟件被開(kāi)發(fā)出來(lái)大概可以分為三類(lèi),大約一共有68個(gè)生信富集分析的工具。由于工具較多,對(duì)于研究者來(lái)說(shuō)對(duì)理解每個(gè)軟件的算法和優(yōu)缺點(diǎn)比較困難,因此書(shū)寫(xiě)這篇文章目的在于幫助研究者能夠根據(jù)自己的問(wèn)題選擇最為合適的生信富集分析工具。
二、背景介紹
高通量測(cè)序時(shí)代,使得對(duì)全基因組范圍內(nèi)的基因進(jìn)行整體研究分析成為可能,這樣會(huì)產(chǎn)生大量的感興趣的基因。從感興趣的基因組篩選有意義的基因也成為一件挑戰(zhàn)和令人沮喪的事情。好在GO數(shù)據(jù)庫(kù)和其他一些富集分析的軟件出現(xiàn),02年到03年間DAVID、EASE等軟件出現(xiàn)、05年14個(gè)類(lèi)似的軟件出現(xiàn),到現(xiàn)在大約一共有68個(gè)富集分析的軟件。
目前對(duì)于研究者而言因?yàn)楦患治鰶](méi)有統(tǒng)一的方法、也沒(méi)有黃金標(biāo)準(zhǔn),因此存在以下幾點(diǎn)問(wèn)題。
對(duì)已有的工具選擇越來(lái)越難。
理解和比較各個(gè)軟件的算法越來(lái)越難。
由于軟件太對(duì),好的軟件和算法容易被忽略。
容易導(dǎo)致重復(fù)性工作。
找到最為合適的工具太難。
三、公開(kāi)的富集分析的工具
富集分析主要包括三部分:數(shù)據(jù)注釋、數(shù)據(jù)挖掘和結(jié)果展示。對(duì)于傳統(tǒng)的富集分析主要依賴(lài)于經(jīng)典的統(tǒng)計(jì)學(xué)分析方法,例如卡方檢驗(yàn)、Fisher檢驗(yàn)、二項(xiàng)檢驗(yàn)、超幾何檢驗(yàn)等。根據(jù)其內(nèi)在的算法主要可以分為三類(lèi):奇異富集分析(SEA)、基因集富集分析(GSEA)、模塊化富集分析(MEA)等。
其中SEA主要特點(diǎn)在于需要用戶提前制定感興趣的基因集,DAVID、GoStat等。
GSEA不需要提前制定感興趣的基因集,主要是用于轉(zhuǎn)錄組數(shù)據(jù),根據(jù)實(shí)驗(yàn)組和對(duì)照組計(jì)算差異來(lái)得到剛興趣的基因,主要的的代表軟件GSEA、GapMap等。
MEA核心仍然是SEA的原理,但是其會(huì)將基因和基因的關(guān)系考慮進(jìn)入富集分析p值的計(jì)算。
四、目前仍然存在的問(wèn)題和挑戰(zhàn)
1. Realistically positioning the role of enrichment P-values in he current data-mining environment
2. Understanding the limitation of multiple testing correction on enrichment P-values
3. Cross-comparing enrichment analysis results derived from multiple gene lists
4.Setting up the ‘right’ gene reference background
5.Extending backend annotation databases
6.Efficiently mapping users’ input gene identifiers to the available annotation
7.Enhancing the exploratory capability and graphical Presentation
8.Evaluating the analytic capability of new enrichment tools
9.Choosing the most appropriate enrichment tools from the various choices
聯(lián)系客服