【新智元導(dǎo)讀】最近,來自美國威斯康辛大學(xué)王岱峰研究團(tuán)隊(duì),提出了一種全新的多模態(tài)數(shù)據(jù)處理方法JAMIE,可用于單細(xì)胞多模態(tài)數(shù)據(jù)分析,如數(shù)據(jù)對(duì)齊、嵌入和添補(bǔ)。
近年來,隨著單細(xì)胞技術(shù)的迅速發(fā)展,我們得以測量了單個(gè)細(xì)胞的各種特征從而獲取單細(xì)胞多模態(tài)數(shù)據(jù)(比如scRNA-seq,scATAC-seq,Patch-seq)。這些數(shù)據(jù)有助于我們深入了解細(xì)胞功能和分子機(jī)制。比如研究人員近來多通過機(jī)器學(xué)習(xí)方法來分析單細(xì)胞多模態(tài)數(shù)據(jù)間的關(guān)系,進(jìn)而理解細(xì)胞類型和疾病所涉及的生物學(xué)機(jī)制。 但是單細(xì)胞多模態(tài)數(shù)據(jù)的獲取常常成本高昂,并且模態(tài)缺失時(shí)有發(fā)生。而現(xiàn)有的機(jī)器學(xué)習(xí)方法通常需要完全匹配的多模態(tài)數(shù)據(jù)才能進(jìn)行數(shù)據(jù)填補(bǔ)和嵌入,不適用于模態(tài)缺失的情形。為了解決這個(gè)問題,美國威斯康辛大學(xué)麥迪遜分校王岱峰實(shí)驗(yàn)室開發(fā)了一種基于聯(lián)合變分自動(dòng)編碼器的開源機(jī)器學(xué)習(xí)方法——Joint Variational Autoencoders for Multimodal Imputation and Embedding(JAMIE)。JAMIE可用于單細(xì)胞多模態(tài)數(shù)據(jù)整合分析,如數(shù)據(jù)對(duì)齊、嵌入,和對(duì)丟失數(shù)據(jù)進(jìn)行添補(bǔ),從而更好的預(yù)測細(xì)胞類型及功能。此工作于近日發(fā)表于《自然–機(jī)器智能》(Nature Machine Intelligence)。論文地址:https://www.nature.com/articles/s42256-023-00663-z
項(xiàng)目地址:https://github.com/daifengwanglab/JAMIE
JAMIE訓(xùn)練了一種可重復(fù)使用的聯(lián)合變分自編碼器模型,將可用的多模態(tài)數(shù)據(jù)分別投影到相似的潛空間中,從而增強(qiáng)了單模態(tài)模式的推斷能力。
如圖1所示,為了執(zhí)行跨模態(tài)填補(bǔ),JAMIE將數(shù)據(jù)饋入編碼器,然后將潛空間結(jié)果通過相反的解碼器進(jìn)行處理。JAMIE將自編碼器的可重復(fù)使用和靈活的潛空間生成與對(duì)齊方法的自動(dòng)對(duì)應(yīng)估計(jì)相結(jié)合,從而能夠處理不完全對(duì)應(yīng)的多模態(tài)數(shù)據(jù)。
- 輸入數(shù)據(jù)預(yù)處理。以雙模態(tài)為例,假設(shè)模態(tài)對(duì)應(yīng)數(shù)據(jù)矩陣分別為和。注意這里特征維度和可以不同,樣本數(shù)目和也可以不同。預(yù)處理對(duì)每個(gè)矩陣的每一行都?xì)w一化成均值0和方差1。如果有對(duì)應(yīng)數(shù)據(jù),用戶可以提供模態(tài)相關(guān)矩陣來改進(jìn)性能,其中 表示模態(tài)中的第個(gè)樣本和模態(tài)中的第個(gè)樣本完全對(duì)應(yīng),表示沒有已知的對(duì)應(yīng)關(guān)系,表示有部分的對(duì)應(yīng)關(guān)系。
- 利用聯(lián)合變分自編碼器學(xué)習(xí)每個(gè)模態(tài)的相似潛空間: 和 ,其中(默認(rèn),用戶可調(diào)節(jié))是潛空間維度。訓(xùn)練過程中,JAMIE最小化如下?lián)p失函數(shù):
其中第一項(xiàng)計(jì)算變分自編碼器推斷出的分布與多元標(biāo)準(zhǔn)正態(tài)分布之間的Kullback-Leibler (KL)散度,有助于保持潛空間的連續(xù)性;第二項(xiàng)強(qiáng)制對(duì)應(yīng)樣本的相似性;第三項(xiàng)是重構(gòu)數(shù)據(jù)矩陣和原始數(shù)據(jù)矩陣之間的平均平方誤差和;第四項(xiàng)利用推斷的跨模態(tài)對(duì)應(yīng)關(guān)系來調(diào)整生成的潛空間。各項(xiàng)的具體表達(dá)方式見論文原文。第二、三、四項(xiàng)的相對(duì)第一項(xiàng)的權(quán)重可由用戶自行調(diào)節(jié),JAMIE也提供了可適用于常用情況的默認(rèn)權(quán)重。下述表格展示了JAMIE與當(dāng)前最先進(jìn)方法的模型和適用范圍的對(duì)比。JAMIE將幾種不同的整合和插補(bǔ)方法的特征統(tǒng)一到一個(gè)單一的架構(gòu)中,因此能夠進(jìn)行缺失模態(tài)插值,從而具有非組學(xué)數(shù)據(jù)兼容性、且能處理只有部分對(duì)應(yīng)關(guān)系的多模態(tài)數(shù)據(jù)的優(yōu)點(diǎn)。
表1. 各種多模態(tài)整合和缺失模態(tài)填補(bǔ)方法的比較。JAMIE在一個(gè)單一的架構(gòu)中統(tǒng)一了來自多種不同整合和插補(bǔ)方法的特征。NLMA:非線性流形對(duì)齊[15],UnionCom[7],CCA:典型相關(guān)分析[15, 16],BABEL[5]。多模態(tài)數(shù)據(jù)的整合和表型預(yù)測
對(duì)多模態(tài)數(shù)據(jù)的整合可以改進(jìn)分類性能、增進(jìn)對(duì)表型知識(shí)和復(fù)雜生物機(jī)制的理解。給定兩個(gè)數(shù)據(jù)集、和對(duì)應(yīng)關(guān)系,JAMIE可以根據(jù)訓(xùn)練好的編碼器和生成潛空間數(shù)據(jù)、,并基于、進(jìn)行聚類或者分類。基于潛空間數(shù)據(jù)的聚類具有幾個(gè)優(yōu)勢(shì),如將兩種模態(tài)都納入到特征生成。然后,JAMIE可以預(yù)測樣本對(duì)應(yīng)關(guān)系,并如細(xì)胞類型預(yù)測。對(duì)于部分標(biāo)注的數(shù)據(jù)集,同一聚類的細(xì)胞們應(yīng)該具有相似的類型。JAMIE在生成潛空間數(shù)據(jù)的過程中就進(jìn)行了分離了不同類型數(shù)據(jù)的特征,因此通常不需要復(fù)雜的聚類或分類算法就可以達(dá)到較好的效果。對(duì)于高維數(shù)據(jù),JAMIE使用UMAP[32]進(jìn)行細(xì)胞類型聚類可視化。跨模態(tài)數(shù)據(jù)填補(bǔ)目前跨模態(tài)填補(bǔ)的很多方法不能展示它們學(xué)習(xí)到了用于填補(bǔ)目的的潛在生物機(jī)制。對(duì)比于前饋網(wǎng)絡(luò)或線性回歸方法,JAMIE能基于更嚴(yán)格的數(shù)學(xué)基礎(chǔ)更好的學(xué)習(xí)到潛在的生物機(jī)制來預(yù)測缺失數(shù)據(jù)。圖2展示了JAMIE用于跨模態(tài)數(shù)據(jù)填補(bǔ)的流程。JAMIE先是針對(duì)訓(xùn)練數(shù)據(jù)訓(xùn)練編碼和解碼模型。對(duì)于新數(shù)據(jù) ,JAMIE首先利用數(shù)據(jù)學(xué)習(xí)到的編碼器將其投影到潛空間得到 ,然后通過聚合潛空間特征的方法得到 ,最后通過對(duì)應(yīng)的解碼器將解碼成缺失模式的數(shù)據(jù)。JAMIE使用潛空間預(yù)測細(xì)胞的對(duì)應(yīng)關(guān)系,這可能有助于理解數(shù)據(jù)特征和表型之間的關(guān)系。
圖2. JAMIE跨模態(tài)插補(bǔ)
為了解釋訓(xùn)練的模型,JAMIE采用了SHAP(SHapley Additive exPlanations)[18]。SHAP通過對(duì)模型生成的個(gè)體預(yù)測進(jìn)行樣本調(diào)制來評(píng)估各個(gè)輸入特征的重要性。這可以用于各種有趣的應(yīng)用。如果目標(biāo)變量可以通過表型輕松分離,SHAP可以確定進(jìn)一步研究的相關(guān)特征。此外,如果我們進(jìn)行填補(bǔ),SHAP可以揭示模型學(xué)到的跨模態(tài)聯(lián)系。給定模型和樣本,學(xué)習(xí)到SHAP值,使得,其中是背景特征向量。如果,則SHAP值的總和和背景輸出將等于,其中每個(gè)與對(duì)模型輸出的影響成比例。另一種有用的技術(shù)是選擇一個(gè)關(guān)鍵指標(biāo)用于分類(例如,LTA[7,19])或填補(bǔ)(例如,填補(bǔ)特征與測量特征之間的對(duì)應(yīng)關(guān)系),并在模型中逐個(gè)移除(用背景值替代)每個(gè)特征來評(píng)估該指標(biāo)。然后,如果關(guān)鍵指標(biāo)變得更糟,這表明被移除的特征對(duì)于模型的結(jié)果更為重要。JAMIE采用了四個(gè)常用的單細(xì)胞多模態(tài)數(shù)據(jù)集進(jìn)行驗(yàn)證。
(1)來自MMD-MA的分支流形的高斯分布采樣生成的模擬多模態(tài)數(shù)據(jù)(300個(gè)樣本,3個(gè)細(xì)胞類型);
(2)來自小鼠視覺皮層(3,654個(gè)樣本,6個(gè)細(xì)胞類型)和小鼠運(yùn)動(dòng)皮層(1,208個(gè)樣本,9個(gè)細(xì)胞類型)的單個(gè)神經(jīng)元細(xì)胞的Patch-seq基因表達(dá)和電生理特征特征數(shù)據(jù);
(3)來自人類發(fā)育中的大腦(21個(gè)孕周,覆蓋人類大腦皮層的7種主要細(xì)胞類型)中8,981個(gè)樣本的10x單細(xì)胞多組學(xué)基因表達(dá)和染色質(zhì)可及性數(shù)據(jù);
(4)來自COLO-320DM結(jié)腸腺癌細(xì)胞系的4,301個(gè)細(xì)胞的scRNA-seq基因表達(dá)和scATAC-seq染色質(zhì)可及性數(shù)據(jù)。
評(píng)估發(fā)現(xiàn),JAMIE明顯優(yōu)于其他方法(如圖三的MMD-MA的分支流形模擬數(shù)據(jù)結(jié)果比較,和圖四小鼠視覺皮層數(shù)據(jù)結(jié)果比較)并優(yōu)先考慮了多模態(tài)填補(bǔ)的重要特征,同時(shí)在細(xì)胞分辨率層面上提供了潛在的新機(jī)制洞見。圖3. 模擬多模態(tài)數(shù)據(jù)結(jié)果比較:a、原始空間的UMAP,按細(xì)胞類型上色。b、JAMIE潛在空間的UMAP。c、JAMIE和現(xiàn)有技術(shù)(CCA[15,16],LMA[15],MMD-MA[8],NLMA[15]和UnionCom[7])在使用所有可用的對(duì)應(yīng)信息進(jìn)行細(xì)胞類型分離時(shí)的比較。x軸為更接近真實(shí)均值的樣本比例,y軸為LTA[7,19]值。d、模態(tài)1中測量值和插補(bǔ)值之間相似性(1-JS距離)的累積分布。黑線對(duì)應(yīng)不同細(xì)胞類型的平均相似性,而每個(gè)彩線分別對(duì)應(yīng)一個(gè)細(xì)胞類型的相似性。
圖4. 在小鼠視皮層中的基因表達(dá)和電生理特征結(jié)果比較:a、原始空間的UMAP,按細(xì)胞類型上色。b、JAMIE潛在空間的UMAP。c、JAMIE和現(xiàn)有技術(shù)(CCA[15,16],LMA[15],MMD-MA[8],NLMA[15]和UnionCom[7])在使用所有可用的對(duì)應(yīng)信息進(jìn)行細(xì)胞類型分離時(shí)的比較。x軸為更接近真實(shí)均值的樣本比例,y軸為LTA[7,19]值。d、模態(tài)1中測量值和插補(bǔ)值之間相似性(1-JS距離)的累積分布。黑線對(duì)應(yīng)不同細(xì)胞類型的平均相似性,而每個(gè)彩線分別對(duì)應(yīng)一個(gè)細(xì)胞類型的相似性。
總而言之,JAMIE 是一種用于單細(xì)胞多模態(tài)數(shù)據(jù)整合預(yù)測的新型深度神經(jīng)網(wǎng)絡(luò)模型。它適用于復(fù)雜、混合或部分對(duì)應(yīng)的多模態(tài)數(shù)據(jù),通過一種依賴于聯(lián)合變分自編碼器(VAE)結(jié)構(gòu)的新穎潛在嵌入聚合方法來實(shí)現(xiàn)。除了上述的優(yōu)越性能外,JAMIE 還具有高效的計(jì)算能力和較低的內(nèi)存使用需求。此外,預(yù)訓(xùn)練模型以及學(xué)習(xí)到的跨模態(tài)潛在嵌入可以在下游分析中進(jìn)行重復(fù)使用。當(dāng)然對(duì)于較大的數(shù)據(jù)集,訓(xùn)練變分自編碼器(VAEs)需要耗費(fèi)大量時(shí)間。因此,JAMIE 中的自動(dòng) PCA 等先前特征選擇方法有助于減輕時(shí)間要求。由于VAE使用重建損失,數(shù)據(jù)預(yù)處理也至關(guān)重要,以避免大量或重復(fù)的特征對(duì)低維嵌入特征產(chǎn)生不成比例的影響。對(duì)于特定的跨模態(tài)插補(bǔ),必須仔細(xì)考慮訓(xùn)練數(shù)據(jù)集的多樣性,以避免對(duì)最終模型產(chǎn)生偏差并對(duì)其泛化能力產(chǎn)生負(fù)面影響。JAMIE 還可以潛在地?cái)U(kuò)展到對(duì)來自不同來源而不是不同模態(tài)的數(shù)據(jù)集進(jìn)行對(duì)齊,例如在不同條件下的基因表達(dá)數(shù)據(jù)。
論文作者Noah Cohen Kalafut(計(jì)算機(jī)系博士生),黃翔(高級(jí)研究員),王岱峰(PI)隸屬于威斯康辛大學(xué)麥迪遜分校生物統(tǒng)計(jì)和醫(yī)學(xué)信息學(xué)系、計(jì)算機(jī)科學(xué)系和威斯曼研究中心。通訊作者為王岱峰教授。
成立于1973年的威斯曼中心半世紀(jì)以來一直致力于推進(jìn)人類發(fā)育,神經(jīng)發(fā)育障礙和神經(jīng)退行性疾病方面的研究。
https://www.biorxiv.org/content/10.1101/2022.10.15.512388v2https://github.com/daifengwanglab/JAMIE