人類基因組究竟有多少基因兼談Salzberg最新bioRxiv研究
“人,宇宙之精靈,萬物之靈長”??茖W家,這一人類中的所謂精英群體自然擔負起了為人類的自負找尋基因證據(jù)的重任。早在上世紀六十年代,生物學家就開始了對人到底有多少基因的探索的坎坷之旅。
1964年,來自德國海德堡大學的Friedrich Vogel獨闖龍?zhí)?,孤身一人進行了歷史上對于人類基因組數(shù)目的第一次計算。為何是1964年?又到底需要多少基因才能創(chuàng)造位居萬物靈長的人類?
Vogel計算的第一個基石源于此前對于人類染色體重量的測量。Mirsky and Ris (1)通過實驗得出人類單倍體的染色體大小為2.72 × 10?12 g。綜合其他實驗結(jié)果,為簡明,Vogel選擇了3 x 10-12g作為人類單倍體基因組的重量。已知一對核苷酸的質(zhì)量為1.026 x 10-21g(GC對和AT對相差甚微),據(jù)此Vogel估算人類基因組的大小為30億個堿基對——這一估算與今天的測序結(jié)果驚人接近。
Vogel的第二個基礎來自上世紀60年代初對血紅蛋白(hemoglobin)的alpha和beta亞基的氨基酸序列的破解,結(jié)果表明它們分別有141和146個氨基酸。Vogel認為,根據(jù)斯韋德貝里法則(Svedberg's law),許多蛋白是多亞基(multi-subunit)結(jié)構(gòu),每個亞基的分子量大約是17500KDa。而如果20種氨基酸的平均分子量為128KDa,則可以計算出每個蛋白的長度大約為150個氨基酸——這也是Vogel計算的第一個基本假設。當時,克里克等人剛剛提出了密碼子(codon)的規(guī)則(2),人們知道一個氨基酸由DNA上的三個堿基編碼。綜上,Vogel計算出編碼一個人的蛋白大致需要450堿基。這一數(shù)目在今天看來,盡管是低估了,但也過得去。Vogel引用的斯韋德貝里法則的冠名者斯韋德貝里,是大名鼎鼎的膠體理論學家、1926年諾貝爾化學獎得主,大概該結(jié)果也代表了當時人類的最高認知水平吧。
如果到此為止,Vogel的這篇文章可以說是沒有什么破綻的,但大概也不會入Nature挑剔的編輯和審稿人的法眼。為計算人類基因的總數(shù),Vogel進一步作了下面兩假設:一是編碼每個基因的序列都是連續(xù)的,二是人類基因組從頭至尾全都是編碼蛋白的序列(也就是不存在所謂的非編碼區(qū))。于是,Vogel得出了人類基因組含有6.7x106個基因的結(jié)論。
這一在今天看起來有些滑稽的結(jié)果在當年確是合理且引人入勝的。要知道,Vogel做出得一結(jié)果的時候距離Sharp和Roberts發(fā)現(xiàn)內(nèi)含子尚有13年之久,且人類對于基因組中非編碼區(qū)更是一無所知??傊@些因素,都嚴重影響了Vogel的計算,導致其極其嚴重高地估了基因數(shù)目。
人類基因組的注釋著極為重要的意義,對包括外顯子測序(更多內(nèi)容請看外顯子測序課程),GWAS,醫(yī)學研究,進化及群體遺傳分析等在內(nèi)的領域都有重要價值。對人類基因組基因數(shù)目的估算也在接下來的幾十年間令各國學者趨之若鶩。
1990年,來自美國國家健康中心(NIH)和美國能源部(DOE)的在人類基因組項目報告中進行了另一次計算,作者認為每個基因的長度大概是3萬個堿基對,且認為非編碼區(qū)的長度可以忽略。最終,作者們得到的結(jié)論是10萬個基因。
后面,又有多篇paper對人類基因組的數(shù)目進行計算,結(jié)果大概是5萬-10萬個基因之間(3-5)。2000年6月,來自TIGR(The Institute for Genomic Research)的幾位科學家通過對于EST序列的分析和新算法的設計,將這一數(shù)字提高到了12萬(6)。殊不知,這也是人類對于自己基因數(shù)目的最后一次超過10萬的估計。僅半年后,這篇文章的作者們就扇了自己的臉——但沒刪自己的論文——他們通過correction的形式修改了自己的結(jié)論,將預測結(jié)果縮小到56,960 ~ 81,273。
2001年,人類基因組測序——生物界的阿波羅登月計劃——在激烈的競爭和全世界人民的關注下完成。之所以有競爭,是因為有兩家團隊獨立地展開了對人類基因組的測序。一支是包括我國學者在內(nèi)來自六個國家的國際合作項目,他們發(fā)表在Nature上的文章預測人類基因組含有3萬~4萬個基因(7)。另一邊廂,特立獨行的科學狂人克雷格·文特爾(J. Craig Ventor)由于所提出的鳥槍法(shotgun)思路不被國際合作組織采納,干脆另立門戶于1998年成立賽雷拉公司(Celera Genomics)槍挑六國聯(lián)軍,并迎頭趕上(文章同時刊發(fā)在Science上),最后得到的人類基因組大小為26,588“高可信度”(筆者注)加~12000弱支持度(week supporting evidence)基因。這兩個結(jié)果,無論哪一個,都讓人類對自己基因數(shù)目有了重新認識:它遠比人類早前的想象要小。
2004年,國際合作團隊對人類基因組序列進行了一次重要更新,將自己之前的預測由3-4萬縮小到2-2.5萬(8)。人們驚訝地發(fā)現(xiàn),自己的基因竟然少過當時剛剛完成測序的模式植物、擬南芥(Arabidopsis thaliana)——一種連運動功能都不具備的野草,也同分類學上被人類歸為低等動物、大小僅1-2毫米的秀麗隱桿線蟲(Caenorhabditis elegans)相差不多。生物學家曾經(jīng)認為生物的復雜性和基因數(shù)目成正比,但在如山的鐵證面前,自詡為萬物靈長的人類要改變下自己的思維了。
后來的研究將人的基因數(shù)繼續(xù)縮小。2009年,人類對于自己的認識達到了最為“謙卑”的狀態(tài)(9)——Mammalian Gene Collection團隊稱人類基因組只有18877個基因(10)。不過好在到2017年底,NCBI的refseq數(shù)據(jù)庫中的最新版本的人類基因組注釋還是讓人基因組的基因數(shù)目突破了20000大關(20,054個蛋白編碼基因)。而在另一家常用的數(shù)據(jù)庫Gencode里,注釋了19817個基因(11)。
5月29日,享有Bowtie之父美譽的著名生物信息學家Steven Salzberg在bioRxiv生物學預印本服務器上發(fā)布了自己團隊的最新成果:通過對9,795個RNA-seq實驗結(jié)果的整合、分析,對人類基因組進行了重新的注釋。這項成果實際上也是GTEx項目Genotype-Tissue Expression Project)的一個組成部分。
Btw:Salzberg,這位來自約翰霍普金斯大學的科學家是開放科學(open science)的忠實擁躉,近期就有大量manuscript投放到bioRxiv上,這一點在生信人早前的文章里也有報道(水熊蟲基因組烏龍事件的意義)。
作者采用的分析方法如下圖所示,其中用到的好幾個軟件都打著“Made in Salzberg Lab”的標簽。
圖片來自(11),版權(quán)CC-BY4.0
作者首先對收集得到的近10000個RNA-seq樣本進行轉(zhuǎn)錄組組裝,得到了30,467,424個轉(zhuǎn)錄本(transcript)。作者用一些列條件定義了protein coding gene,包括TPM閾值,ORF長度、在其他生物種有無BLAST hit等。通過和目前人類基因組注釋的比較,作者發(fā)現(xiàn)了1,178個新的蛋白基因。加上和Refseq有overlap的轉(zhuǎn)錄本,作者們最終得到21,232個編碼蛋白質(zhì)的基因。作者們接下來對refseq里面注釋的15,779個長非編碼RNA(lncRNA)進行了“質(zhì)量檢驗”。作者進行了ORF預測,截取含有較長ORF的lncRNA基因,對它們在其他物種中進行BLAST搜索,如果達到一定標準(E-value of 10-15,75% length)則認為是潛在的protein coding gene。又經(jīng)過其他一些檢測之后,作者最終得到了21306個編碼蛋白質(zhì)的基因。
對沒有比對到編碼蛋白基因的轉(zhuǎn)錄本,作者把它們歸為非編碼RNA。作者找到了3,819個lncRNA 基因位點(gene locus)。其中,超過三分之一是反義(antisense)轉(zhuǎn)錄本,很多來自內(nèi)含子。把這些lncRNA和之前發(fā)現(xiàn)的lncRNA加起來,作者最終得到18,484個lncRNA。再加上其他各種非編碼RNA,最終非編碼RNA的總數(shù)是21856。
作者還分析了可變剪切的情況。每個蛋白基因平均含12.5個isoform,而lncRNA只有2.6個。
借助來自不同組織器官的豐富的RNA-seq樣本,作者用DESeq2對基因的表達情況進行了分析。Breast成為protein-coding gene男女差異最大的器官。
圖片來自(11),CC-BY4.0
而testis則擁有最多上調(diào)表達的編碼蛋白的基因。
圖片來自(11),CC-BY4.0
最后,需要說明的是,基因的定義是有爭議的話題。人們起初認為能表達的就是基因,但后來的轉(zhuǎn)錄組學揭示了廣泛的非編碼區(qū)轉(zhuǎn)錄現(xiàn)象,而其中的很多轉(zhuǎn)錄本可能只是轉(zhuǎn)錄噪聲(transcription noise)。這篇preprint里,作者們以轉(zhuǎn)錄證據(jù)為起點并試圖去除這些噪聲轉(zhuǎn)錄本,再結(jié)合進化證據(jù),也就是說基因要在不同物種中有一定保守性,且在不通個體中都可以看到轉(zhuǎn)錄(作者稱為reproductivity)。基于以上三點,作者在已有的基因組注釋的基礎上對人類基因組進行了新的注釋。
雖然關于人類到底有多少(編碼蛋白)基因的爭論可以說暫告段落,但科學家們還在對更多與此相關的問題進行著火熱的研究。一方面,RNA科學家雄心勃勃地拓展著lncRNA的版圖;而另一方面,對于已知基因功能的解讀還有漫漫長路。
圖片來源:https://study.com/academy/lesson/what-are-genes-definition-types-function.html
引文
1. Mirsky AE, Ris H. The desoxyribonucleic acid content of animal cells and its evolutionary significance. J Gen Physiol. 1951;34(4):451-62.
2. Crick FH, Barnett L, Brenner S, Watts-Tobin RJ. General nature of the genetic code for proteins. Nature. 1961;192:1227-32.
3. Schuler GD, Boguski MS, Stewart EA, Stein LD, Gyapay G, Rice K, et al. A gene map of the human genome. Science. 1996;274(5287):540-6.
4. Antequera F, Bird A. Predicting the Total Number Of Human Genes. Nature Genet. 1994;8(2):114-.
5. Fields C, Adams MD, White O, Venter JC. How Many Genes In the Human Genome. Nature Genet. 1994;7(3):345-6.
6. Liang F, Holt I, Pertea G, Karamycheva S, Salzberg SL, Quackenbush J. Gene Index analysis of the human genome estimates approximately 120,000 genes. Nature Genet. 2000;25(2):239-40.
7. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature. 2001;409(6822):860-921.
8. Consortium EP. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 2004;306(5696):636-40.
9. Pertea M, Salzberg SL. Between a chicken and a grape: estimating the number of human genes. Genome Biol. 2010;11(5).
10. Team MGCP, Temple G, Gerhard DS, Rasooly R, Feingold EA, Good PJ, et al. The completion of the Mammalian Gene Collection (MGC). Genome Res. 2009;19(12):2324-33.
11. Pertea M, Shumate A, Pertea G, Varabyou A, Chang Y-C, Madugundu AK, et al. Thousands of large-scale RNA sequencing experiments yield a comprehensive new human gene list and reveal extensive transcriptional noise. bioRxiv. 2018.
更多精彩內(nèi)容,歡迎關注生信人
TCGA | 小工具 | 數(shù)據(jù)庫 |組裝| 注釋 | 基因家族 | Pvalue
基因預測 |bestorf | sci | NAR | 在線工具 | 生存分析 | 熱圖
生信不死 | 初學者 | circRNA | 一箭畫心| 十二生肖 | circos
舞臺|基因組 | 黃金測序 | 套路 | 雜談組裝 | 進化 | 測序簡史
聯(lián)系客服