今天給大家介紹一篇發(fā)表在Nature reviews. Drug discovery的綜述,該綜述中闡述了基于圖像的畫像分析在藥物發(fā)現上的應用?;趫D像的畫像分析(Image- based profiling)是一種將生物圖像中的豐富信息減少為多維畫像的分析策略。通過為相關模式挖掘畫像分析,可以揭示出未知的生物學活性,這對于藥物發(fā)現過程中的識別與疾病相關的可篩選表型、了解疾病機制并預測藥物活性、毒性或相互左右等許多步驟都是有用的。機器學習的方法可以更好地利用基于圖像的信息,從而加速藥物發(fā)現。
背景
篩選(Screening)是現代藥物發(fā)現的主要方法,通過檢測對某種疾病的影響來測試一些潛在藥物。設計可篩選試驗包括:(1)設計模擬疾病狀況的模型系統(tǒng);(2)刺激以產生與疾病相關的反應;(3)讀取反映疾病功能相關的最接近可量化特征。
畫像分析(profiling)是篩選的替代策略,用畫像(特征的集合)表示樣本,并根據這種表示對樣本進行預測。目的是捕獲大多沒有驗證出與疾病相關的特征。因此,它可能揭示未知的生物學作用。畫像分析通常依賴與篩選試驗相似的模型系統(tǒng),但能夠用更全面的特征表示這些模型系統(tǒng)。
構建畫像分析有多種方式,其中基于圖像的分析可以更好地捕獲更多生物學信息?;趫D像的畫像分析可能得出化合物的作用機制(MOA)和未知的脫靶活動。而這要求大量從表型特征中得出可行見解的解釋工作,傳統(tǒng)的分析方法非常繁瑣,難以篩選完整的庫。機器學習模型的參與可以簡化這些工作。
2
基于圖像的畫像分析
基于圖像的畫像分析需要的不是專門的設備或試劑,而是代表不同病例(例如患者的類別)或治療條件(例如化學系統(tǒng)、遺傳系統(tǒng)、時間點或生物系統(tǒng)的其他擾動)的生物樣本圖像(圖1)。從本質上講,任何圖像集都可以用于基于圖像的畫像分析,圖1的工作流程需要根據所使用的樣本、干擾、染色和成像方式進行調整。有兩種方法可以選擇染色條件和生物學模型系統(tǒng):
(1)自定義的(customized):使用被認為與某疾病屬性相關的模型系統(tǒng)和熒光標記,具有可靠性。
(2)無偏差的(unbiased):使用無關所研究疾病的更通用的模型系統(tǒng)(如特定的培養(yǎng)細胞系)和染色集,可以檢測很大部分的生物通路變化。
圖1 基于圖像的畫像分析流程
畫像分析的表型發(fā)現和篩選
畫像分析的表型發(fā)現和篩選中,首先通過準備一些代表疾病狀態(tài)和健康狀態(tài)的生物樣本集的策略(識別疾病相關的表型)(表1),然后捕獲基于圖像的畫像分析,并識別患病樣本與健康樣本之間的可重現的表型差異,用機器學習和輔助信息濾除混淆的信號和噪聲;以此發(fā)現與疾病相關的新表型以及產生對某疾病新機制的見解。最后用已識別處理的表型來(a)測試大量化學藥品以逆轉疾病,或(b)從健康狀態(tài)的化學擾動中虛擬查詢現有的基于圖像的特征數據集細胞以識別那些其干擾產生負相關的細胞表型。
先導物(lead)生成
前導物生成是篩選的下一步,將數百個篩選命中結構(hits)縮小到幾個潛在候選對象。生成過程中分別進行命中結構擴展和前導物優(yōu)化以實現化合物的分類和修飾?;趫D像的畫像分析快速、靈敏并且涵蓋了廣泛(盡管不全面)的生物學范圍。通過采取機器學習策略,在活性預測實驗、預測毒性上都是可行且經濟高效的。這樣可以大大減少初篩的工作,從而從根本上改變典型的藥物發(fā)現過程。
作用機制(MOA)的識別
闡明藥物的MOA可以更深入地了解其生物學活性,增加其臨床批準的機會,并可以設計新藥,驅動通過不同目標區(qū)分不利影響與有利影響。
擴展的基于圖像的畫像分析包含許多可立即記錄各種疾病和作用機制(MOA)信息的功能組合(重疊或不重疊)。用差分加權可以更好地提取目標特征,隨著畫像分析的擴展會產生“維數詛咒”,可以通過加權聚合和/或由機器學習產生的更強大的表示的組合特征來解決,這些特征可以具有不同級別的監(jiān)督(圖2)。
圖2 在表型空間改善基于圖像的畫像分析判別能力的計算策略
圖2顯示了鑒定一組化合物作用機理(MOA)例子。每個測試樣品(化合物)在表型空間中表示為一個點,其中點之間的距離反映了用該化合物處理過的細胞圖像的相似性。采用最近鄰居策略無法區(qū)分許多MOA類別。圖2 a-c所示的策略可用于快速查看給定數據集中的聚類樣本,如果將這些策略用于為每個樣品分配MOA類,則該方法將被稱為“半監(jiān)督”,因為在創(chuàng)建此共享空間之后,將使用與已知MOA化合物(如果有)非常接近的化合物進行MOA分配。
除“維數詛咒”外,畫像分析還有一系列內在挑戰(zhàn):如批次效應和板布局效應之類的技術偽像、與疾病無關的各種遺傳或樣本偏差以及化合物的多藥理學。
可以使用特征調整、變換和歸一化技術來增加信噪比,從而減輕維數詛咒(圖2 b)。但是,這些技術僅影響放置樣本的共享表示空間,而不能彌補無監(jiān)督方法混淆樣本偏差信號的脆弱性或共享表示空間中的多藥理學。
機器學習領域尤其是深度學習推動了基于圖像的畫像分析的新潮流。不同于簡單的權重學習,自監(jiān)督的方法側重于從同一對象的不同文檔(擾動、樣本或細胞類型)中學習信息(圖2 c);自監(jiān)督將所有樣本定位在更單一的共享表示空間中;包含的樣本越多,該共享表示空間將同時捕獲更多的機制和生物學過程,從而增加表示的判別能力。高級監(jiān)督方法的輸出層產生每個預定義任務的表示形式(圖2 d)。
參考資料
Chandrasekaran, S.N., Ceulemans, H., Boyd, J.D. et al. Image-based profiling for drug discovery: due for a machine-learning upgrade?. Nat Rev Drug Discov 20, 145–159 (2021).
https://doi.org/10.1038/s41573-020-00117-w
聯系客服