研究生物基因轉錄體的方法有許多種,而使用次代定序儀系統(tǒng)進行轉錄體定序是目前相當熱門的一種方式,科學家們使用 RNA-seq 分析轉錄體表現主要期望能夠獲得三種重要信息:
1. 了解整個轉錄體構造、splicing 位置以及批注基因的功能。
2. 將所有轉錄體的表現量多寡定量。
3. 找出 alternative splicing 的可能性方式。
相較于使用轉錄體反應 DNA-RNA 雜合為基礎的 RNA microarray,可以直接地得知轉錄體的方向性,但目前 RNA-seq 所常用的制備方法必須反轉錄成 cDNA,因此缺少了轉錄體序列的方向性,而分析上針對這個問題所作的解決方式為,例如:利用轉譯的蛋白質基因預測 open reading frame、利用 3’端定序量常較 5’端多的 bias、以及藉由真核生物 splicing 位置方向來做判斷。但即使如此,發(fā)展能區(qū)分出方向性的 RNA-seq 制備方式是很重要的,這是因為當面對較小基因體的物種,如微生物或低等真核生物時,基因會密集的出現在 DNA 的正負股上,而無法確認方向性會造成評估基因表現量上的誤判,另外,當轉錄體表現時,也有機會產生負股調控基因的轉錄體,這些轉錄體并不轉譯,但與蛋白質表現量卻息息相關。
目前被用來制備 strand-specific RNA-seq library 的方式五花八門,容易會讓操作者困惑不知該選用何種方法為佳,因此 2010 年 9 月 Levin 等人于 Nature Methods 上發(fā)表了一篇文章統(tǒng)整了這些制備方式,筆者使用同一來源的 RNA 作為材料,用不同的制備方式制造 cDNA library,爾后使用 illumina 定序系統(tǒng)獲得序列數據再分析,而評斷這些制備方式孰優(yōu)孰劣的標準在于:
1. Library complexity-這些 reads 的獨特性高低、
2. Strand specificity-將 reads mapping 到已知方向性的 transcripts 上觀察方向正確性
3. Eveness and continuity of coverage at annotated transcripts-觀察 reads 們在基因上的 coverage 是否夠平均分布
4. Performance at 5’ and 3’ ends, defined as agreement with known end annotation-將reads mapping 到已知方向性transcripts 上觀察 5’、3’ end 的表現。
圖 a.
圖 b.
筆者將不同制備方式所呈現出的結果以統(tǒng)計的方式做分析,最后得到的結論為:在 cDNA second strand 合成時導入 dUTP,爾后再于 library 完成后裂解掉帶有 dUTP 的那股以獲得具方向性 library 的方法為最好的方式,統(tǒng)計上在 library complexity 方面 (圖 a),可以看到 dUTP 在 SE 以及 PE 部份都有 42%、84%的高復雜度,甚至與 control 差不多,而在 strand specific 方向正確性方面 (圖 b-gray bar),包括了 dUTP method共有四種制備方式在此都表現得不錯,大約只有 0.47-0.63%轉錄自負股,與已知的 genes annotation 是吻合的。再來,在序列 Evenness 與 continuity of coverage 方面 (圖 b-blue bar),使用 dUTP method 占第二名 (0.76)。
圖 c.
圖 d.
最后,在 5’、3’ end performance 上 (圖 c),使用 dUTP method 在基因兩端的 reads 數上覆蓋率為 62%與73%。將 dUTP method 制備出的 library 與 control library 做比較后 (圖 d.) 發(fā)現,兩者呈現高度的相關性,也因此根據以上統(tǒng)計后的數值,以及制備流程的方便性,dUTP method 是在制備 strand-specific mRNA library上比較合適的方式。
參考文獻:
Levin JZ, Yassour M, Adiconis X, Nusbaum C, Thompson DA, et al. (2010) Comprehensive comparative analysis of strand-specific RNA sequencing methods. Nat Methods 7: 709-715.
聯系客服