會(huì)不會(huì)還有小伙伴問什么是基因富集???以前不知道沒關(guān)系,你只要知道對(duì)科研很重要就好了,具體也可以看前幾天推了一篇說起基因富集:它比DAVID更新更快,更傻瓜。
但小編白癡地以為只有幾個(gè)軟件可以用來做富集分析。然鵝,不搜不知道,一搜嚇一跳,截至2009年,富集分析工具就已經(jīng)有68個(gè)了。口說無憑,上證據(jù)↓↓
Huang, D.W., B.T. Sherman and R.A. Lempicki, Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res, 2009. 37(1): p. 1-13.
(微信后臺(tái)回復(fù)“富集”,原文發(fā)給你哦)
一、摘要
曾經(jīng)的基因功能研究,往往都是一兩個(gè)基因,研究模式較為簡(jiǎn)單。隨著測(cè)序技術(shù)的發(fā)展,各種組學(xué)的突飛猛進(jìn),目前已知的功能基因數(shù)量很多。因此富集分析工具也越來越多,在本研究時(shí)已有約68個(gè)生信富集分析的工具。
富集分析軟件根據(jù)基礎(chǔ)算法大致可以分為三類:singular enrichment analysis (如:SEA),gene set enrichment analysis (如:GSEA),和 modular enrichment analysis (如:MEA)。
由于工具較多,對(duì)于研究者來說對(duì)理解每個(gè)軟件的算法和優(yōu)缺點(diǎn)比較困難,因此本文在于幫助研究者根據(jù)需求選擇富集分析工具。
二、背景介紹
高通量測(cè)序時(shí)代,使得整體研究分析全基因組的基因成為可能,如此一來,就會(huì)產(chǎn)生大量感興趣的基因。從感興趣的基因組中篩選有意義的基因也成為一件十分富有挑戰(zhàn)的事情。
好在有GO數(shù)據(jù)庫(kù)和其他一些富集分析軟件的出現(xiàn),從2002年到2003年間DAVID、EASE等軟件出現(xiàn)、2005年14個(gè)類似的軟件出現(xiàn),到現(xiàn)在大約一共有68個(gè)富集分析的軟件。
目前對(duì)于研究者而言因?yàn)楦患治鰶]有統(tǒng)一的方法、也沒有黃金標(biāo)準(zhǔn),因此存在以下幾點(diǎn)問題。
對(duì)已有的工具選擇越來越難
理解和比較各個(gè)軟件的算法越來越難
由于軟件太多,好的軟件和算法容易被忽略
容易導(dǎo)致重復(fù)性工作
找到最合適的工具太難
三、公開的富集分析工具
富集分析主要包括三部分:數(shù)據(jù)注釋、數(shù)據(jù)挖掘和結(jié)果展示。
傳統(tǒng)的富集分析主要依賴于經(jīng)典統(tǒng)計(jì)學(xué)方法,例如卡方檢驗(yàn)、Fisher檢驗(yàn)、二項(xiàng)檢驗(yàn)、超幾何檢驗(yàn)等。
根據(jù)其基礎(chǔ)算法主要可以分為三類:singular enrichment analysis (如:SEA),gene set enrichment analysis (如:GSEA),和 modular enrichment analysis (如:MEA)。
SEA:主要特點(diǎn)在于需要用戶提前制定感興趣的基因集,DAVID、GoStat等。
GSEA:不需要提前制定感興趣的基因集,主要用于轉(zhuǎn)錄組數(shù)據(jù),根據(jù)實(shí)驗(yàn)組和對(duì)照組計(jì)算差異來得到感興趣的基因。
MEA:核心仍然是SEA的原理,但會(huì)將基因和基因的關(guān)系考慮進(jìn)入富集分析p值的計(jì)算。
四、目前仍存在的問題和挑戰(zhàn)
1. Realistically positioning the role of enrichment P-values in he current data-mining environment
2. Understanding the limitation of multiple testing correction on enrichment P-values
3. Cross-comparing enrichment analysis results derived from multiple gene lists
4.Setting up the ‘right’ gene reference background
5.Extending backend annotation databases
6.Efficiently mapping users’ input gene identifiers to the available annotation
7.Enhancing the exploratory capability and graphical Presentation
8.Evaluating the analytic capability of new enrichment tools
9.Choosing the most appropriate enrichment tools from the various choices
今天就分享這么多,希望大家能夠有所收獲。
聯(lián)系客服