人口變遷是我們解讀人類歷史的時(shí)所關(guān)注的中心問(wèn)題之一,強(qiáng)烈的群體擴(kuò)張很可能與氣候變化、社會(huì)結(jié)構(gòu)變化或科技進(jìn)步有關(guān)。新近興起的二代測(cè)序技術(shù)使得我們能夠使用全基因組數(shù)據(jù)去系統(tǒng)性地探究人群歷史,所以我們可以對(duì)影響人群有效群體大小和以遺傳結(jié)構(gòu)的不同因素重新進(jìn)行評(píng)估。近來(lái),線粒體基因組的研究顯示東亞和歐洲的母系的人口擴(kuò)張開(kāi)始于新石器時(shí)代之前,這就與農(nóng)業(yè)是人群擴(kuò)張的原始驅(qū)動(dòng)力這一假設(shè)矛盾。在此基礎(chǔ)上,我們非常有興趣去探究父系的擴(kuò)張模式。
Y染色體上有人類基因組里最長(zhǎng)的非重組區(qū)段,人類Y染色體DNA大約包含六千萬(wàn)個(gè)堿基對(duì),其中染色體兩端的5%為擬常染色體區(qū)域,在傳代過(guò)程中與X染色體相應(yīng)區(qū)段會(huì)發(fā)生重組,而主干部分的95%為非重組區(qū)域,不與任何染色體發(fā)生重組,這就使得Y染色體成為了重構(gòu)人群和父系的遺傳關(guān)系、估算重大進(jìn)化和人口事件的時(shí)間的有力工具。然而,Y染色體的測(cè)序數(shù)據(jù)還很缺乏,千人基因組雖然測(cè)序了多個(gè)族群的共千余Y染色體,但其覆蓋度太低,比如東亞樣本Y染色體的測(cè)序深度平均還不足1.4x。
依照現(xiàn)有的Y染色體譜系樹(shù),全球的男性都可以被劃分到20個(gè)主干單倍群或復(fù)合單倍群里,編號(hào)從A到T。幾乎全部的非洲之外的Y染色體在M168這個(gè)SNP上都是突變型,屬于其下的DE、C或F這三個(gè)超級(jí)單倍群,非常支持現(xiàn)代人走出非洲學(xué)說(shuō),但現(xiàn)代人走出非洲的時(shí)間卻存在分歧,有3.9萬(wàn)年、4.4萬(wàn)年、5.9萬(wàn)年、6.85萬(wàn)年、甚至達(dá)到5.7-7.46萬(wàn)年。
為了能獲得高覆蓋度的Y染色體非重組區(qū)序列并使樣本有足夠代表性,我們選取了涵蓋歐亞大陸東部常見(jiàn)單倍群O、C、D、N和Q以及歐亞西部常見(jiàn)的單倍群J、G和R的110個(gè)樣本,使用混合捕獲的方法對(duì)Y染色體的非重組區(qū)進(jìn)行測(cè)序。
結(jié)果
我們?cè)谌繕颖镜?/span>Y染色體里共發(fā)現(xiàn)了近4500個(gè)堿基置換突變,其中有4300多個(gè)SNP位點(diǎn)沒(méi)有被命名過(guò),我們以F字母(代表復(fù)旦)開(kāi)頭給這些位點(diǎn)命名。我們按照至少在100個(gè)樣本里有1x覆蓋度這個(gè)標(biāo)準(zhǔn),選取了約3.9M質(zhì)量較好的序列,在此區(qū)域內(nèi)有約3600個(gè)SNP。我們用其中的78個(gè)高質(zhì)量序列構(gòu)建了最大簡(jiǎn)約樹(shù),該進(jìn)化樹(shù)的拓?fù)浣Y(jié)構(gòu)與已有的人類Y染色體譜系樹(shù)是一致的。我們構(gòu)建了進(jìn)化樹(shù)包含了來(lái)自單倍群C、D、G、J、N、O、Q和R的樣本,因此很好地代表了出非洲的三大支系:C、DE和F。除了已知支系,我們還發(fā)現(xiàn)了許多下游的支系。進(jìn)化樹(shù)上早期的分支都是二叉的,但我們?cè)?/span>O3a-M324下也發(fā)現(xiàn)了三個(gè)星狀結(jié)構(gòu),也就是由同一個(gè)結(jié)點(diǎn)分出多個(gè)支系,這代表著強(qiáng)烈的人口擴(kuò)張事件。
我們使用貝葉斯方法和1x10-9突變/每年這一家系突變率計(jì)算了進(jìn)化樹(shù)上每一次分支事件的時(shí)間。現(xiàn)代人出非洲后的第一次分支事件,也就是單倍群DE和單倍群CF分開(kāi)的時(shí)間是5.41萬(wàn)年(95%的CI:5.06-5.82),落在了之前研究所給出的范圍內(nèi)。在選取的3.9M的區(qū)域內(nèi),我們?cè)?/span>DE/CF和C/F分支之間只發(fā)現(xiàn)了3個(gè)SNP位點(diǎn),這表明DE、C和F很可能是在一千年內(nèi)相繼產(chǎn)生的。自單倍群F和C分開(kāi)之后,在1.8萬(wàn)年的時(shí)間內(nèi)我們都沒(méi)有看到F支系里有大的分支事件,表明F支系經(jīng)歷了強(qiáng)烈的瓶頸效應(yīng)。值得注意的是全部的初級(jí)單倍群,也就是G, J, N, O, Q和R都是在末次冰期前(約2萬(wàn)年前)分支出來(lái)的,并且大部分現(xiàn)在已知的歐亞大陸東部支系是在舊石器時(shí)代晚期(1萬(wàn)年前)產(chǎn)生的。進(jìn)化樹(shù)上7千年前的分支都是二叉的,這表明在舊石器時(shí)代緩慢的群體增長(zhǎng)率、瓶頸效應(yīng)或遺傳漂變淘汰了大部分曾經(jīng)存在過(guò)的支系。
在我們構(gòu)建的Y染色體進(jìn)化樹(shù)上最驚人是在O3-M324下發(fā)現(xiàn)了三個(gè)星狀擴(kuò)張,既是在M117下游、M134xM117復(fù)合單倍群的下游以及002611下游,我們將其依次命名為Oα、Oβ和Oγ。鑒于我們?cè)谶x擇樣本進(jìn)行高通量測(cè)序的時(shí)候就已考慮了樣本的全面性和代表性,那么星狀擴(kuò)張就表明這些父系支系在很短的時(shí)間內(nèi)(500年內(nèi))成功擴(kuò)張。這三個(gè)支系在現(xiàn)在的大部分東亞族群里的頻率都很高,總共占到了現(xiàn)今全部漢族的40%,其中Oα占到16%、Oβ占11%、Oγ能占到14%,也就是說(shuō)現(xiàn)在大約有3億男性是新石器時(shí)代晚期三個(gè)男人的父系后裔。這三個(gè)支系的擴(kuò)張時(shí)間分別是5400、6500和6800年前,而中國(guó)北方全面轉(zhuǎn)入農(nóng)業(yè)階段的時(shí)間也正好是6800年前,也與黃河中游的6900-4900年前的仰韶文化、黃河上游6000-4900年的馬家窯文化以及黃河下游7400-6200年前的北辛-6200-4600年前的大汶口文化等的時(shí)間相契合。由此,我們認(rèn)為這三個(gè)在新石器時(shí)代晚期快速擴(kuò)張的支系奠定了東亞的父系遺傳基礎(chǔ)。因這次測(cè)序的漢族里的M117+的樣本全部是在Oα的擴(kuò)張支系里的,M117+及其下游支系又在藏緬族群里有中等甚至非常高的頻率分布,如果我們能夠進(jìn)一步厘清其他族群里的M117+是何時(shí)與漢族中的此支系分開(kāi)的,以及這些族群里的M117+是否也屬于擴(kuò)張的Oα支系等問(wèn)題,那么對(duì)于理解漢藏語(yǔ)系的起源和早期演變歷史有著極其重要的意義。
我們的研究還表明像單倍群O-M175、C-M130等有過(guò)強(qiáng)烈人口擴(kuò)張的Y染色體支系早在2萬(wàn)年前就已到達(dá)東亞,這些單倍群在來(lái)東亞之后才開(kāi)始其新石器時(shí)代的擴(kuò)張,也就是說(shuō)中國(guó)的農(nóng)民是本土擴(kuò)張的,與中國(guó)農(nóng)業(yè)的本土起源是一致的。這與歐洲的情形不一樣,歐洲的農(nóng)業(yè)是由中東的農(nóng)民擴(kuò)張而帶入的,同樣地,歐洲現(xiàn)有的大部分Y染色體支系也是由中東農(nóng)民貢獻(xiàn)的。
Citation: Yan Shi, Wang Chuan-Chao, Zheng Hong-Xiang, Wang Wei, Qin Zhen-Dong, Wei Lan-Hai, Wang Yi, Pan Xue-Dong, Fu Wen-Qing, He Yun-Gang, Xiong Li-Jun, Jin Wen-Fei, Li Shi-Lin, An Yu, Li Hui, Jin Li (2014)Y Chromosomes of 40% Chinese Descend from Three Neolithic Super-Grandfathers. PLoS ONE 9(8): e105691.
聯(lián)系客服