鏈讀測序(Linked-read sequencing)通過將相同的barcode與長DNA片段(10-100kb)的序列連接在一起,能夠消除其中的一些錯讀,從而改進宏基因組組裝。但目前還不清楚在使用鏈讀測序時參數的選擇對組裝的質量的影響如何。
近日,香港浸會大學研究人員發(fā)表文章 "通過鏈讀測序對宏基因組組裝全面研究"。
模擬數據和模擬菌群中的分析結果表明,模擬數據(simulated data)中讀取深度(C)與組裝序列的長度呈正相關,但對組裝序列的質量影響不大,模擬菌群的研究中讀取深度(C) 對組裝序列的質量以及被注釋為基因組草圖的bin的比例有輕微影響。
另一方面,宏基因組組裝質量受 CR(每個短讀長片段的平均深度)和 CF(由長DNA片段計算的基因組的平均物理深度)的影響。對于相同的讀取深度,較深的 CR 會產生更多的基因組草圖,而較深的 CF 會提高基因組草圖的質量。
還發(fā)現μFL (未加權的DNA片段的平均長度)對組裝有邊際效應,而NF/P(每個分區(qū)的片段數)對局部組裝涉及到的偏離目標讀數(off-target reads)有影響,即較低的NF/P值會通過減少off-target序列的錯讀而有更好的組裝效果。
總體而言,與Illumina的短讀長相比,使用鏈讀改善了組裝中重疊群的N50,但與PacBio CCS的長讀長相比則沒有改善。
背 景
人體微生物群是一個復雜的系統,在生理活動和疾病中起著重要的作用。對微生物群中的微生物基因組進行測序可以幫助我們研究其功能。
然而,微生物基因組序列很難獲得,微生物群中的絕大多數微生物不能被分離出來進行單個測序。目前的宏基因組項目中使用短讀長測序對混合的微生物基因組進行測序。
這些結果在基因組組裝過程中是有錯讀的,導致微生物基因組的完整性和重疊群的連續(xù)性結果不理想。長讀長測序已經被用來嘗試減輕這些問題,如Nicholls等人和Sevim等人的研究。特別是Moss等人的研究,其成果優(yōu)化了納米孔測序的長讀長文庫制備方案,并獲得了更完整的細菌基因組。
但實際應用中,長讀長測序是昂貴的。雖然鏈讀序列(linked-reads)的基因組組裝的質量無法與PacBio CCS的長讀長相提并論,但其低成本和高堿基質量的優(yōu)點是值得去使用的。
方 法
01
三組鏈讀序列數據集的來源及構成
模擬數據(simulated data):
從MBARC-26數據集中下載了23個細菌和3個古細菌菌株,按豐度分類,L-sim,低豐度微生物,摩爾濃度<10-15;M-sim,中等豐度微生物,10-15 < 摩爾濃度 < 10-14;H-sim,高豐度微生物,摩爾濃度 > 10-14
模擬菌群(mock community):
(ATCC MSA-1003)是一個由20個菌株組成的池,同樣按豐度分類,L-mock,低豐度微生物;M-mock,中等豐度微生物;H-mock,高豐度微生物;UH-mock,超高豐度微生物。
人類腸道菌群:
一份來自健康的中國人糞便樣本
02
DNA提取、文庫制備和測序
對于模擬菌群,從ATCC 20菌株交錯的混合基因組材料中提取DNA,不進行大小選擇。
對于人類腸道菌群,用Qiagen QiAaMP糞便迷你試劑盒提取DNA,去掉5kb以下的DNA片段。
脈沖場凝膠電泳后,按照廠商的說明制備10x Chromium文庫。使用Illumina XTen雙端2x150bp測序。人類腸道微生物組的DNA也被用于標準的Illumina XTen短序列測序。
03
DNA長片段重建和鏈讀序列二次抽樣
Long Ranger v2.2.1用于糾正barcode堿基錯誤,計算PCR重復率,并完成barcode感知的鏈讀序列比對。
使用BWA-MEM v0.7.17比對短序列和沒有barcode的鏈讀序列。根據映射得到的具有共同的barcode的短序列的坐標重建DNA長片段。
鏈接序列首先按barcode排序,然后按它們的映射坐標排序。如果最近的barcode序列大于50kb,則終止延伸長DNA片段。每個片段必須包括至少兩個具有共同barcode的成對序列,并且最小長度為2kb。
04
宏基因組組裝
對于鏈讀序列的組裝,沒有 barcode 的鏈讀序列首先由 metaSPAdes v3.11.1使用默認參數組裝為“seed”重疊群,并通過BWA-MEM v0.7.17與重疊群比對。
最后使用 Athena-meta v1.3 通過匯集在 scaffold 中的兩個“seed”重疊群里共享相同 barcode 的序列進行局部組裝。
05
組裝效果評估
MaxBin v2.2.4將長于1kb的重疊群分組到bins中,并通過CheckM v1.0.12評估其完整性和污染率。
Quast v5.0.0統計了基礎信息,如重疊群的N50、NG50、NGA50、總比對長度(total aligned length)和基因組覆蓋率(genomic coverage)。
Kraken v0.10.6基于內置數據庫MiniKrakenDB為bins做物種注釋。每個bins都作為一個基因組草圖,被分類為高質量的(完整性>90%,污染率<5%),中等質量的(完整性≥50%,污染率<10%),低質量的(完整性<50%,污染率<10%)
主要結果
來自人類腸道菌群和Illumina短序列鏈讀序列二次抽樣的組裝效果統計
ILLU,Illumina短序列的組裝
SC-all,模擬菌群和人類腸道菌群總共的兩個測序lane鏈讀序列
在鏈讀測序中,有四個關鍵參數可能會影響宏基因組組裝,如下圖。
這些參數中有幾個是相互依賴的。例如,輸入DNA的量越大,CF和NF/P都會增加,CR就會降低;CF和CR的絕對值是由總讀取深度(C)增加多少來設置的,因為CR×CF=C。
L-sim,模擬數據中的低豐度微生物,青色
M-sim,模擬數據中的中等豐度微生物,藍色
H-sim,模擬數據中的高豐度微生物,紅色
L-mock,模擬菌群中的低豐度微生物
M-mock,模擬菌群中的中等豐度微生物
H-mock,模擬菌群中的高豐度微生物
UH-mock,模擬菌群中的超高豐度微生物
“-”表示測序lane的倒數,例如MSCR4/MSCF4表示四分之一測序lane的序列被二次采樣
MSCR-,模擬菌群中的短序列
MSCF-,模擬菌群中的長DNA片段
MSC-1,模擬菌群和人類腸道菌群總共的一個測序lane鏈讀序列
SC-all,模擬菌群和人類腸道菌群總共的兩個測序lane鏈讀序列
相關閱讀:
參考文獻:
聯系客服