編譯:橙子,編輯:十九、江舜堯。
原創(chuàng)微文,歡迎轉(zhuǎn)發(fā)轉(zhuǎn)載。
自2009年問世以來,單細胞RNA測序一直推動生物醫(yī)學研究的進步,特別是發(fā)育生物學和干細胞研究。而且多個超高通量單細胞RNA-seq系統(tǒng)引起了人們的關注,但尚未對這些單細胞RNA-seq系統(tǒng)進行系統(tǒng)的比較分析。在此,本文學者使用相同的細胞系和生物信息學分析方法對三大基于微滴技術(shù)的超高通量單細胞RNA測序系統(tǒng)----inDrop,Drop-seq和10X Genomics Chromium進行比較分析,重點關注每個系統(tǒng)的顯著特征和合適的應用方向。
論文ID
簡介
目前,有三種廣泛應用的基于微滴的高通量scRNA-seq系統(tǒng),即inDrop,Drop-seq和10X Genomics。每個微滴都有一個納升的體積,以適應單細胞反應。微流體管道布局非常簡單,主要由微通道引入或收集試劑和樣品組成,在一次運行中,微滴可以實現(xiàn)快速的分隔和封裝,其頻率可達每秒數(shù)十萬液滴,并且很容易規(guī)?;a(chǎn)。
圖1 微流體設計
inDrop,Drop-seq和10X Genomics原理
圖2 InDrop,Drop-seq和10X Genomics RNA-seq系統(tǒng)
相同點:
inDrop,Drop-seq和10X Genomics使用相似的原理產(chǎn)生微滴,且磁珠引物具有相同的結(jié)構(gòu),包括PCR柄、細胞條形碼、特異性分子標記(UMI)和poly-T。
差異點:
①inDrop系統(tǒng)磁珠引物包含光裂解序列和T7啟動子。
②磁珠材料:10X和inDrop系統(tǒng)使用的磁珠是水凝膠制成的,Drop-seq使用的是脆性樹脂。
③10 X Genomics磁珠和inDrop磁珠可以固定整個珠子的引物,而Drop-seq磁珠只能在表面攜帶引物。
④通常,微滴和細胞以低濃度引入,以減少形成雙重態(tài)的機會;也就是說,兩個細胞或兩個珠子被封裝在一個微滴中。包封后,10X Genomics整粒磁珠溶解,將所有的引物釋放到溶液中,提高mRNA的捕獲效率。inDrop通過uv照射,通過裂解來激活引物。Drop-seq使用表面連接的引物來捕獲mRNA分子。
⑤反轉(zhuǎn)錄位點:10X Genomics和inDrop是在微滴內(nèi)進行,相反,Drop-seq只捕獲轉(zhuǎn)錄本,沒有進行反轉(zhuǎn)錄。
⑥cDNA擴增方式:inDrop使用CEL-seq,而10X Genomics和Drop-seq遵循template-switching,類似于流行的Smart-seq。
⑦文庫制備時間:inDrop的微滴外轉(zhuǎn)錄,文庫制備時間延長至24小時以上,而Drop-seq和10X Genomics均可在一天內(nèi)完成。
結(jié)果
微流體設計
學者使用淋巴母細胞系GM12891,每種方法2-3個重復,平均測序深度約為50000。分析比較細胞捕獲效率、有效讀取比例、細胞條形碼錯誤率和轉(zhuǎn)錄本檢測靈敏度。
數(shù)據(jù)處理方法
每個系統(tǒng)都有自己的數(shù)據(jù)處理方法。但是,由于測序序列的結(jié)構(gòu)差異,不同系統(tǒng)數(shù)據(jù)處理方法不能直接處理其他系統(tǒng)生成的數(shù)據(jù)。此外,分析方法在一些關鍵過程中使用不同的策略,如基因標記。所有這些差異可能會導致基因定量的偏好性,為了解決這個問題,學者開發(fā)了可適用于三個分析平臺的生物信息分析方法(https://github.com/beiseq/baseqDrops),生成統(tǒng)一可用的UMI技術(shù)的數(shù)據(jù)矩陣。
文庫大小及質(zhì)量評估
文庫大小決定了scRNA-seq單個實驗運行的最大容量。三個系統(tǒng)理論文庫大小為1.47*105(inDrop), 1.6*107(Drop-seq)和7.34*105(10X)。但是,有效的實際文庫大小可能小于理論值。通過分析每個系統(tǒng)的多次運行之間的文庫大小差異來估算有效文庫的比例。其中inDrop,比例約為30%,Drop-seq約為10%,10X約為40%,但是這種分析方法不適合較大文庫。粗略估計有效文庫大小inDrop為5*104,Drop-seq至少有1*106,10X為3*105(圖5A)。
同一磁珠同一條形碼是這三個系統(tǒng)的關鍵,然而,由于DNA合成化學的不完善,差異堿基添加是不可避免的,因此,同一磁珠內(nèi)的條形碼序列可能不一致。這種錯誤的存在將導致檢測到的單細胞數(shù)量劇增,這需要仔細校正。對于每個有效的條形碼,校正后的讀碼率(包含原始條形碼序列中的錯誤)占校正后總讀碼率的比例被計算為條形碼錯誤率,它反映了磁珠DNA引物的總體質(zhì)量。10X磁珠條形碼中差異堿基少,在其他兩個系統(tǒng)中,超過一半條形碼包含明顯的差異堿基。具體來說,大約10%的Drop-seq磁珠條形碼中含有一個堿基缺失,這也需要在數(shù)據(jù)分析時格外小心(圖5B)。
學者進一步分析了UMI的堿基組成,可以反映其合成和使用偏好性。因為poly-T對mRNA的poly-A的親和力,所有的系統(tǒng)都表現(xiàn)出對poly-T的偏好性。學者還在inDrop中發(fā)現(xiàn)了polyC的富集,在Drop-seq和10X中發(fā)現(xiàn)了poly-G的富集(圖5 C)。
有效條形碼的主要過濾標準是基于原始reads的總數(shù)量,這在很大程度上反映了原始細胞mRNA的豐度。對于10X,曲線陡然下降表示健康細胞和其他細胞的read計數(shù)有明顯的差異;inDrop有一個類似的現(xiàn)象,但較為平緩;然而,對于Drop-seq,在read計數(shù)曲線上沒有明顯的變化。這可能與三大系統(tǒng)磁珠材料及制作有關(圖5 D)。
數(shù)據(jù)處理流程和結(jié)果
每個有效的條形碼reads首先與人類基因組比對,分析整個reads在基因組的分布情況(圖6A)。Drop-seq和10X有大約65%的reads比對到UTR(主要是3’UTR)和外顯子區(qū)域,在inDrop只是大約45%。對比對到基因區(qū)的reads進行標記,就可以獲取到檢測基因的數(shù)目(圖6B)。利用檢測到的基因又可以佐證reads的偏好性(圖6C)。三大系統(tǒng)的reads主要來自mRNA的3'端,與它們的文庫構(gòu)建方法一致。Drop-seq數(shù)據(jù)呈雙峰分布,可能是由于cDNA分子兩端使用了相同的PCR錨定序列。
學者根據(jù)總UMIs(轉(zhuǎn)錄本)來對條形碼進行過濾 (圖6D)。UMI閾值為1000,大多數(shù)條形碼滿足條件,這表明估計的細胞數(shù)量是合理的。為了進一步排除由條形碼錯誤引起的,學者檢查了相似條形碼之間轉(zhuǎn)錄本的表達譜。如果條形碼的表達譜與其鄰近條形碼有明顯的不同,就丟棄這個條形碼(圖6E)。通過這些步驟,在每個實驗中獲得了不同數(shù)量的細胞(圖6F)。10X有效reads的比例為75%,inDrop 為25%,Drop-seq 為30% (圖6 G)。
基因檢測和UMI靈敏度
基因檢測的靈敏度是決定scRNA-seq的基本指標。它反映了捕獲單個mRNA分子,進行逆轉(zhuǎn)錄、第二鏈合成和預擴增方法的總體效率,進一步影響和決定了基因表達定量的準確性。使用相同的細胞系,可以簡單地用UMIs和基因數(shù)目估算靈敏度(圖7A)。隨著reads的增加,條形碼的UMI和基因數(shù)量逐漸飽和。學者發(fā)現(xiàn),對UMI 數(shù)據(jù)進行l(wèi)og值轉(zhuǎn)換后于檢測到的基因數(shù)目相關性較高,說明測序深度可能會影響UMIs的數(shù)量和檢測到的基因數(shù)目。10X靈敏度最高,可在3000個基因中平均捕獲17000個轉(zhuǎn)錄組;Drot-seq檢測到2500個基因的8000個轉(zhuǎn)錄組;InDrop可檢測到1250個基因的2700個轉(zhuǎn)錄組(圖7B)。
技術(shù)噪音及準確性
技術(shù)噪音反映了實驗隨機性帶來的變異,包括逆轉(zhuǎn)錄時轉(zhuǎn)錄本的丟失和PCR擴增的偏好性。準確性可以通過技術(shù)重復之間轉(zhuǎn)錄組的一致性來評估。單細胞RNA-seq的一個主要目的是根據(jù)基因表達譜將細胞聚類成不同的亞群,通常用于發(fā)現(xiàn)和表征新的細胞類型或狀態(tài)。較大的技術(shù)噪音會扭曲細胞間細微的生物差異,從而降低細胞分組的分辨率。為了降低技術(shù)噪聲,人們做了很多努力。
雖然本文使用同質(zhì)細胞系,但仍然存在固有的生物噪音。本文假設生物噪音在樣本之間是一致的,而技術(shù)噪聲主導著數(shù)據(jù)集的變異。管家基因(生物噪音最低)和其他基因的噪音水平分布相似,表明生物噪聲與技術(shù)噪聲相比處于較低水平,因此,總變化量應反映技術(shù)噪音水平。
為了驗證UMIs在降低PCR擴增噪音方面的效果,學者使用UMI計數(shù)和raw reads計數(shù)進行分析,以量化基因的表達,結(jié)果表明,10X和Drop-seq的技術(shù)噪聲水平低于inDrop(圖7C)。在這三種系統(tǒng)中,利用UMI來預估基因表達譜可以降低技術(shù)噪聲,證實了UMI在降低噪音方面的有效性。而且測序深度加深,使用UMI可能會進一步降低噪音。還可以利用UMI的變異系數(shù)來預估基因水平上的技術(shù)噪音(圖7D)。一般來說,10X Genomics平臺的噪音最少,然后是Drop-seq和inDrop。
圖 7 靈敏度和技術(shù)噪音
低測序深度下的靈敏度和精確度
通過加大測序深度可以檢測到低表達轉(zhuǎn)錄本。然而,在多樣本實驗中,有成本和靈敏度之間的權(quán)衡。從經(jīng)驗上講,高通量scRNA-seq實驗中,單個細胞可以獲取1萬到10萬條reads,而對于常規(guī)的scRNA-seq,單個細胞可以獲取1億條reads。前期研究表明,低深度測序(常規(guī)深度的1%)也可以提供細胞狀態(tài)的信息。本文對測序數(shù)據(jù)進行隨機采樣,分析其靈敏度和精度的變化(圖8A,B)。UMI和基因數(shù)目擬合曲線有助于確定大多數(shù)適合應用的測序深度。對于更敏感檢測的方法,可以用更少的reads檢測相同水平的UMIs表示。reads數(shù)少于10K時,三大系統(tǒng)都可以達到1000個UMIs閾值。
除了靈敏度外,精確度還決定了系統(tǒng)的分辨率,也表明技術(shù)噪音的水平。發(fā)現(xiàn)三大系統(tǒng)的精度都隨著讀深度(>20000有效reads)的增加而迅速飽和(圖8C)。
圖8 低測序深度下的靈敏度和精確度
基因定量偏好性
為了全面比較不同系統(tǒng)所獲取的轉(zhuǎn)錄本,學者利用PCA和tSNE進行降維分析(圖9A)。幾乎所有的細胞都根據(jù)其來源被分離和聚集。雖然同一次運行的細胞內(nèi)存在生物和技術(shù)上的變異,導致測序reads、基因和UMI的差異性,但不同系統(tǒng)之間的偏好性仍然超過了這些變異水平。由于重復是按不同的批次和天數(shù)進行處理的,因此批處理影響也不明顯。在同一系統(tǒng)中,不同批次的數(shù)據(jù)呈現(xiàn)出非常均勻的分布。
細胞分散聚類表明在基因水平上存在系統(tǒng)特異性定量偏差,可能與三個主要因素有關:表達豐度(歸一化為UMIs / million);基因長度;GC含量。因此,學者從每種方法中選擇前100個標記基因,分析這些因素的影響(圖9B-9D)。發(fā)現(xiàn)10X略傾向于較短的基因和GC含量較高的基因,而Drop-seq能更好地檢測到GC含量較低的基因。
總之,所有的方法在不同批次的技術(shù)重復中顯得非常一致,說明用同一方法組合不同數(shù)據(jù)集的有效性。然而,不同的研究方法在基因長度和GC含量方面存在明顯的偏好性。
圖9 基因定量的偏好性
討論
為了減少實驗設計和數(shù)據(jù)分析中的偏差,學者使用統(tǒng)一的細胞系和數(shù)據(jù)處理方法,比較了inDrop、Dropseq和10X單細胞RNA-seq系統(tǒng)。對于每個系統(tǒng),進行數(shù)千個單細胞測序,使用統(tǒng)一的數(shù)據(jù)處理方法對幾個關鍵參數(shù)進行定量分析,明確了各個系統(tǒng)的特點。在排除人為因素和系統(tǒng)技術(shù)噪音之后,這三個系統(tǒng)都會生成用于單細胞表達譜分析的有效數(shù)據(jù)。細胞分型顯示分析不具有批量效應,但明顯的聚類偏好性與選擇的系統(tǒng)相關。這表明在技術(shù)上使用來自不同系統(tǒng)的數(shù)據(jù)集進行分析具有挑戰(zhàn)性,應該避免。
在本研究中,學者選擇了質(zhì)量高度可控的淋巴母細胞系進行分析,希望在技術(shù)評價方面盡量減少樣品質(zhì)量對所得結(jié)果的影響,然而,使用原代細胞,特別是那些mRNA含量低的細胞,將更有意義。為了擴大研究范圍,學者使用10X系統(tǒng)對HEK293細胞系進行分析,并加入了三個系統(tǒng)原始開發(fā)者制作的一些數(shù)據(jù)集,結(jié)果顯示10X具有更高的靈敏度,從各種細胞中檢測到的UMIs大約是inDrop和Drop-seq的兩倍,inDrop結(jié)果比學者的要好,學者認為這種差異是由于不同批次生產(chǎn)的磁珠造成的。
三大系統(tǒng)磁珠都是由特定的制造商專屬制作,可能很難在小型實驗室中生產(chǎn)。因此,磁珠質(zhì)量對于逆轉(zhuǎn)錄和進一步反應的穩(wěn)健性和均一性尤為重要。此外,每個磁珠上的條形碼序列的保真度和純度也是影響生物信息學的關鍵因素,應盡量減少人為因素。
本文比較研究表明,10X系統(tǒng)一般具有較高的靈敏度和精度,技術(shù)噪音較小。10X系統(tǒng)作為一個較為成熟的商業(yè)化系統(tǒng),應該進行廣泛的優(yōu)化,在一定程度上體現(xiàn)在制造磁珠的材料及條碼設計和質(zhì)量控制上。與10X相比,Drop-seq在靈敏度和精度上有所下降,但實驗成本上有很大的優(yōu)勢。自2015年推出以來,Drop-seq廣受歡迎,構(gòu)建整個系統(tǒng)的成本不到3萬美元。Drop-seq的實驗成本約為每個cell 0.10美元,因此,Drop-seq對于個體實驗室來說是一個合理的選擇。
在某種程度上,inDrop可以被認為是10X系統(tǒng)的開源版本。它們都使用水凝膠磁珠,磁珠上的引物都是可釋放的,以方便捕獲轉(zhuǎn)錄本,儀器成本與10X系統(tǒng)相當,但每個細胞的成本大約是10X的一半。學者將inDrop的低性能歸因于其過量的cDNA擴增,以及系統(tǒng)尚未完全優(yōu)化。作為一個開源系統(tǒng),inDrop可以采用其他化學方法針對不同類型的RNA-seq進行更改。inDrop具有良好的靈活性,能夠滿足用戶的需求,系統(tǒng)可用于非標準方法或技術(shù)開發(fā)。
結(jié)論
根據(jù)三大系統(tǒng)的特性,文章提出了一個指導方針,以便為超高通量單細胞研究選擇合適的基于微滴的scRNA-seq系統(tǒng)。一般來說,這三種系統(tǒng)都能獲取較好的轉(zhuǎn)錄本檢測效率,而且效率越高,實驗成本越高。根據(jù)經(jīng)驗,10X系統(tǒng)目前是大多數(shù)研究的選擇。當樣本充足時,Drop-seq的成本更高。相反,當檢測低豐度轉(zhuǎn)錄本,或者需要自定義時,inDrop會是更好的選擇。
更多推薦
1Theranostics | 日本大阪大學:一種用于單細胞熒光顆粒酶B測定分析的微流控平臺 (1區(qū) IF=8.063)
聯(lián)系客服