本次主要介紹一下DNA的甲基化和羥甲基化的高通量測序。DNA的甲基化是在DNA的序列不變的條件下,在其中某些堿基上加上甲基的這樣一個過程。
DNA甲基化的結(jié)果,一般是使甲基化位點(diǎn)的下游的基因表達(dá)量變少。
這個(甲基化)分析方法當(dāng)中的核心化學(xué)反應(yīng),是用亞硫酸氫鹽來處理DNA。DNA當(dāng)中,沒有甲基化或羥甲基化的C堿基,就會被轉(zhuǎn)化成U堿基。我們來看這個轉(zhuǎn)化的過程,在弱酸性條件下,亞硫酸氫根會結(jié)合到?jīng)]有甲基化的C堿基的6位。而甲基化了的C堿基不會和亞硫酸氫根發(fā)生這個反應(yīng)的。
然后,用堿來處理。結(jié)合了亞硫酸氫根的非甲基化的C,就被脫氨基,并且脫亞硫酸根。然后,就被轉(zhuǎn)化成U堿基。
那么,甲基化或者羥甲基化的C堿基,因?yàn)橹皼]有和亞硫酸氫根起反應(yīng),所以現(xiàn)在用堿來處理,它也不會發(fā)生脫氨基反應(yīng)。所以,它還保持了是“C”。用亞硫酸氫鹽來處理DNA,可以讓99%左右的非甲基化的C堿基變成U。也就是說這種方法的的轉(zhuǎn)化效率非常高,轉(zhuǎn)化效率達(dá)到了99%。
它的優(yōu)點(diǎn),就可以讓我們接下來通過高通量測序的方法,可以精確地看到單個堿基的甲基化的水平。經(jīng)過亞硫酸氫鹽轉(zhuǎn)化過的DNA,再經(jīng)過PCR,PCR新合成出來的鏈,U堿基的位置,就會被替換成了“T”。那么在接下來的測序過程中,測到的也是T堿基。而甲基化的C,因?yàn)闆]有被亞硫酸氫鹽所轉(zhuǎn)化,所以,在接下來的測序過程中,被測到的,還是“C”堿基。這樣,通過測序,看一個位置是“C”,還是“T”。如果它保持是“C”,就說明這個位置是被甲基化、或者羥甲基化了。如果測到的是“T”,就說明這個位置是沒有被甲基化、或者羥甲基化。
甲基化的建庫過程。
第一種,用Illumina公司的Truseq DNA建庫方法,來做甲基化測序。
因?yàn)镮llumina Truseq DNA建庫試劑盒當(dāng)中,它所提供的接頭,那么這個接頭上的C堿基都是已經(jīng)經(jīng)過甲基化修飾了。所以,用這些接頭做出來的文庫,在用亞硫酸氫鹽做轉(zhuǎn)化的過程當(dāng)中,它的(接頭上的)C還是保持是C ,不會被轉(zhuǎn)成U。帶了這些接頭的文庫分子,就可以和測序芯片上的草皮DNA發(fā)生互補(bǔ)雜交。并且進(jìn)一步發(fā)生橋式PCR反應(yīng)。生成測序用的DNA的簇(Cluster)。但是,這個方法有一個缺點(diǎn),就是在用亞硫酸氫鹽處理DNA文庫的時侯,90%以上的DNA鏈會斷掉。這樣,已經(jīng)建好的文庫,其中90%分子會被破壞掉。也就是說文庫的豐富度就會損失90%以上。那么,相應(yīng)的它有它的好處,它的好處就是,在這個建庫過程當(dāng)中用的PCR循環(huán)數(shù)較少。所以它PCR擴(kuò)增效率不同,所引起的文庫不均一程度也就較低。也就是我們通常所說的PCR bias較少。
第二種建庫方法。為了解決文庫豐富度受到損失的這個問題,EpiCentre公司開發(fā)了EpiGnome方法,方法的操作過程如圖。
第1步,亞硫酸氫鹽先處理DNA,把未甲基化的C都轉(zhuǎn)變成U。
第2步,把帶標(biāo)簽1的隨機(jī)引物加入,進(jìn)行第一次的復(fù)制。得到第1條的復(fù)制鏈。
第3步,是消化掉過量的引物。
第4步,是加入帶末端終止堿基、并帶標(biāo)簽2的隨機(jī)引物。這個引物的作用是讓第1復(fù)制鏈延伸,并且加上標(biāo)簽2。
第5步是加入建庫的PCR引物,進(jìn)行PCR。通過PCR,把Index序列和成簇引物序列加入到鏈的兩側(cè)。得到真正的文庫。
這個方法的優(yōu)點(diǎn)是,把亞硫酸氫鹽處理的過程,放在了建庫之前。這樣建成的庫的豐富程度會比較高。但是這個方法也有缺點(diǎn),缺點(diǎn)就是要做較多的PCR循環(huán),那么有了比較多的PCR循環(huán)之后,PCR產(chǎn)物的擴(kuò)增均一性是不太好的。也就是說PCR bias會比較大。
上述兩種方法,各有優(yōu)缺點(diǎn)。
在Illumina的HiSeq 2000或者2500平臺上進(jìn)行測序,如果文庫是堿基平衡的文庫,也就是說,每個特環(huán)當(dāng)中,A/C/G/T四種堿基的比例,各占25%左右的話,測序儀對堿基的判讀會比較好。但是如果缺少了一種或者幾種堿基,測序儀對堿基的判讀就會出問題。測序得到的數(shù)據(jù)質(zhì)量就會下降。并且效的數(shù)據(jù)產(chǎn)量也會降低。因?yàn)榧谆膸熘薪?jīng)過亞硫酸氫鹽處理,絕大多數(shù)的C都變成了T。所以,這個文庫中是嚴(yán)重地缺少C堿基的,也就是四種堿基的比例是嚴(yán)重不平衡的。這樣在用HiSeq 2000或2500測序儀來測甲基化文庫的過程當(dāng)中,文庫測序得到的數(shù)據(jù)質(zhì)理就較差。并且經(jīng)過PF過濾得到的有效的數(shù)據(jù)產(chǎn)量也會較低。
為了彌補(bǔ)甲基化文庫的堿基不平衡性,一般情況下,在上機(jī)過程當(dāng)中,是摻入大比例的基因組文庫,或者PhiX文庫,來補(bǔ)充比較多的C堿基,一般會摻30%的PhiX文庫、或者基因組文庫。
在摻入30%的PhiX文庫的條件下,一條HiSeq 2000 V3 PE100的Lane,大概可以得到20G 左右的甲基化文庫數(shù)據(jù)。也就是說,在HiSeq 2000或者2500平臺上,甲基化文庫的測序數(shù)據(jù)產(chǎn)量,一直都不是很高。質(zhì)量也比較低。
接下來,我們說一下區(qū)分“羥”甲基化和甲基化的測序方法。
在用單純的亞硫酸氫鹽法來測的過程當(dāng)中,甲基化和差甲化的C堿基都不能被轉(zhuǎn)化成U堿基,所以單純的亞硫酸氫鹽法是無法區(qū)分甲基化或羥甲基化的C堿基的。
為了區(qū)分甲基化和羥甲基化,科學(xué)家想出了兩種辦法。
第一種辦法,是通過高釕酸鉀(KRuO4)來氧化羥甲基化的C。羥甲基化的C可以被轉(zhuǎn)化成甲?;腃堿基,而甲酰化的C堿基,是可以被亞硫酸氫鹽轉(zhuǎn)化成U的。
而甲基化的C,不會被轉(zhuǎn)化成U。這樣就把原來的羥甲基化的C和甲基化的C給區(qū)分開來了。
經(jīng)研究表明,用高釕酸鉀氧化的方法來氧化羥甲基化的C,其轉(zhuǎn)化效率是94%左右。也就是說,每100個羥甲基化的C中,有94個會被高釕酸鉀轉(zhuǎn)化成甲?;腃。并進(jìn)一步被亞硫酸氫鹽轉(zhuǎn)化成U。同時,原來的甲基貨攤C,只有2.1%會被轉(zhuǎn)化成甲酰化的C。
第二鐘區(qū)分羥甲基化C的方法,是用糖基把羥甲基化的C給保護(hù)起來。然后用TET蛋白(Ten-eleven translocation methylcytosine dioxygenase 1),把甲基化的C轉(zhuǎn)化成羥基化的C。
進(jìn)一步將羥甲基化的C轉(zhuǎn)化成甲?;腃和羧基化的C。甲酰化的C和羧基化的C都可以被亞硫酸氫鹽轉(zhuǎn)化成U。而之前被糖基化保護(hù)起來的羥甲基化的C,是不會被TET蛋白轉(zhuǎn)化成甲?;腃或者羧基化的C的。在亞硫酸氫鹽的處理過程中,它還保持是C。并且在之后的PCR擴(kuò)增產(chǎn)物中,也表現(xiàn)為C。這樣,就可以把羥甲基化的C,和甲基化的C,給區(qū)分開來。
用這個方法,沒有甲基化的C,99.6%都被轉(zhuǎn)化成了U。甲基化的C,97.7%都被轉(zhuǎn)化成了U。而羥甲基化的C,只有8%被化成了U。也就是說92%的羥甲基化的C得到了糖基的保護(hù),還保持了C。上述,就是目前2個區(qū)分羥甲基化的C和甲基化C的方法。
在甲基化文庫建程當(dāng)中,亞硫酸氫鹽對未甲基化的C的轉(zhuǎn)化效率并不是100%,一般是在99%左右。為了對實(shí)驗(yàn)的轉(zhuǎn)化效率進(jìn)行質(zhì)量控制。一般會在轉(zhuǎn)化實(shí)驗(yàn)當(dāng)中加入內(nèi)參對照品。一般情況下,是用甲基化酶缺陷型的大腸桿菌,所生產(chǎn)出來的完全沒有被甲基化的λ(噬菌體)DNA,或者pUC19(質(zhì)粒)DNA做內(nèi)參。來看一次實(shí)驗(yàn)當(dāng)中C的轉(zhuǎn)化效率。一般情況下,實(shí)驗(yàn)當(dāng)中是加入1%的完全沒有甲基化的λ DNA做內(nèi)參。
同樣道理,也可以通過用甲基化酶處理過的,CpG島完全被甲基化的DNA,來跟蹤甲基化DNA對亞硫酸氫鹽轉(zhuǎn)化的抵抗效果。
最后,我們來談一下,甲基化測序后的數(shù)據(jù)處理。
因?yàn)閬喠蛩釟潲}處理過后,絕大部分的C都被轉(zhuǎn)化成了T。這樣,測出來的序列在和基因組進(jìn)行對比的時侯,直接對比是對比不上的。為了要進(jìn)行比對,就要把基因組的堿基做兩種轉(zhuǎn)變。
第一種轉(zhuǎn)變是把基因組上所有的C都改到T,再來和測序測到的序列來對比。這樣,就可以把原來的鏈給對比上。
第二種轉(zhuǎn)變,是把基因組上所有的G都變成A,這樣才能和經(jīng)過PCR得到的原樣本鏈睥互補(bǔ)鏈對比得上。這樣做的原因,是原樣本鏈的互被鏈,它上面絕大部分的G,都被變成了A。所以,只有把(參考)基因組上的G,也都改成A,這樣才能對比得上。比對上之后,再來看哪些堿基是沒有被轉(zhuǎn)化的。這樣,就可以確認(rèn)這些堿基的甲基化修飾情況了。
聯(lián)系客服