今天,生物醫(yī)學研究人員可以通過使用機器學習進行基于圖像的分析,有效地對顯微鏡圖像中的數千個細胞進行分類。計算生物學家 Anne Carpenter 是開發(fā)這些自動化工具的先驅。你不能通過封面來判斷一本書,也就是,你不能以貌取人,至少我們是這么了解人的。然而,對于細胞來說,令人驚訝的是,事實并非如此。使用類似于計算機識別面部的機器學習方法,生物學家可以表征顯微圖像堆棧中的單個細胞。通過測量數以千計的可視化細胞特性——標記蛋白的分布、細胞核的形狀、線粒體的數量——計算機可以從細胞圖像中挖掘出識別細胞類型和疾病相關特征的模式。這種基于圖像的分析通過改進對可改變細胞特征的化合物的篩選來加速藥物發(fā)現。Anne Carpenter 是麻省理工學院和哈佛大學博德研究所成像平臺的計算生物學家和高級主管,是這種研究方法的先驅。她開發(fā)了 CellProfiler,這是一種廣泛使用的開源軟件,用于從細胞圖像中測量表型(可觀察到的特征集)。自 2005 年發(fā)布以來,它已被 12,000 多篇出版物引用。下載地址:https://cellprofiler.org/它最初是作為細胞生物學家培訓期間的一個業(yè)余項目——Carpenter 稱之為「一小段代碼來做她需要的事情」,隨著時間的推移,它變成了其他研究人員發(fā)現也有用的工具箱?!府斘医咏┦亢蟮淖詈箅A段時,我發(fā)現我更愿意通過制造工具來幫助其他人完成他們很酷的生物學,而不是追求我自己特定的生物學問題,」她說?!高@就是我最終留在計算機科學領域的原因。」
作為麻省理工學院的研究員,Carpenter 獲得了美國國立衛(wèi)生研究院 MIRA 獎、美國國家科學基金會頒發(fā)的 CAREER 獎和美國細胞生物學學會頒發(fā)的 2020 年女性細胞生物學中期職業(yè)獎等榮譽。Carpenter 在接受量子雜志采訪時談到了將復雜的生物學轉化為可計算解決的問題的樂趣,在一個井中篩選 200 種疾病的藥物的雄心勃勃的努力,以及謙虛、好奇并能夠與學科外的人交流的研究人員,如何創(chuàng)造 一種提高計算生物學和機器學習多樣性的文化。為清楚起見,對采訪進行了濃縮和編輯。Carpenter 和她實驗室的聯合負責人 Shantanu Singh 組建了一個研究團隊,重點關注候選人的技能、好奇心和溝通能力?!冈跊]有明確嘗試的情況下,我的實驗室比頂級機構的計算實驗室的平均水平要多樣化得多,」她說。
計算機科學家已將他們的技能應用于生物學,但你選擇了從生物學進入軟件工程的不太常見的路徑。是什么激勵了你?
這種轉變是必然的。21 世紀初,我在伊利諾伊大學厄巴納-香檳分校攻讀細胞生物學博士學位期間,一直在研究染色質(真核細胞中 DNA 和蛋白質的復合物)如何響應通過雌激素受體的信號。這需要捕獲數千張顯微鏡圖像。手動完成需要幾個月的時間。我決定如果我能弄清楚如何使顯微鏡自動化就太好了。我沒有接受過正規(guī)的計算機科學方面培訓?;舜蠹s一個月的時間來弄清楚如何對顯微鏡進行編程,但這為我節(jié)省了兩個月的時間,以一種非常無聊的方式手動收集圖像。它還帶來了一個新的挑戰(zhàn):我現在有大量的圖像要分析。我花了更多的時間來復制和粘貼代碼,邊走邊想。然而,一旦我開始玩圖像分析,我就被迷住了。能夠將凌亂的、定性的生物學轉化為精確的、定量的數字,真是太令人滿意了。我決定尋找一個博士后職位,在那里我可以通過研究高通量成像來加速生物學。在最近的一篇文章中,你將生物學描述為「混亂」但也是「邏輯難題」。你能多談一點嗎?
生物學是相當混亂的。真的很難弄清楚任何事情。你會希望 A 激活 B,B 激活 C,然后 C 抑制 D,依此類推。但實際上,細胞中有很多奇怪的、不精確的關系——比如反饋、多重輸入、替代途徑——正在發(fā)生。然而,我也相信生物學是一個邏輯難題。我們能做的最好的事情就是嘗試約束我們正在測試的模型系統。然后我們可以擾亂它,測量輸入和輸出,等等。我們可以通過對生物學施加很多限制,將生物學變成一個不那么混亂的東西。在懷特黑德研究所 (Whitehead Institute) 做博士后期間,你開始研究最終成為 CellProfiler 的東西。你是怎么做的?
我意識到我的項目需要一些重要的新代碼,所以我就投入其中,并通過反復試驗學習了一些編程。但是我仍然需要幫助來實現一些經典的圖像處理算法。我讀過一篇論文,說,「這正是我需要的」——但我不知道如何將論文的方程轉換為代碼。我給麻省理工學院計算機科學與人工智能實驗室的研究生名單發(fā)了一封電子郵件,問:「有人想幫助我嗎?我有一些獎學金?!?Thouis (Ray) Jones 做出回應,并在一個周末實施了核心算法。它們非常具有革命性,并且構成了 CellProfiler 如此成功的核心:最終用戶可以使用這些算法。通過大規(guī)模量化各種細胞的表型差異,CellProfiler 可用于「基于圖像的分析」。你是如何想到這個主意的?
人們會來找我們說:「這是我喜歡的細胞類型。這是我的特殊抗體,用于標記細胞中的某些蛋白質。你能告訴我有多少蛋白質存在于細胞核中嗎?」當然,通過圖像分析,我們可以測量他們要求的任何東西。但是看著圖像,我會說:「你是否也注意到蛋白質的質地正在發(fā)生變化?或者它實際上更多地位于原子核的邊緣而不是內部?我們看到這個染色劑和那個染色劑之間的共定位。并且細胞的整體形狀正在發(fā)生變化。這在生物學上有意義嗎?」生物學家在桌子上留下了太多的信息!那時,我受到了 2004 年 Science 論文的啟發(fā),研究人員對用各種化合物處理的細胞進行了基于圖像的分析。他們表明,用功能相似的化合物處理的細胞往往看起來很相似——這些化合物對細胞有相似的影響。這是令人振奮的。難道這些不起眼的、美麗的細胞圖像真的能提供足夠的定量信息來告訴我們這些細胞用什么藥物治療過嗎?那篇論文真正開創(chuàng)了基于圖像的分析領域。論文鏈接:https://www.science.org/doi/10.1126/science.1100709
這個分析涉及什么?
我們盡可能測量關于細胞外觀的一切。我們建立在基本觀察的基礎上,即細胞的結構和整體外觀反映了它的歷史——它是如何被環(huán)境對待的。如果圖像反映了細胞的狀態(tài),那么如果我們可以量化這些并放大它們,那么尋找這些模式應該非常有用。你從那里拿的?
我們設計了 Cell Painting 來幫助將盡可能多的信息打包到一個單一的檢測中,而不是依賴生物學家決定專門染色的任何內容。Cell Painting 分析使用六種熒光染料來揭示八種細胞成分或細胞器:細胞核、核仁、細胞質 RNA、內質網、線粒體、血漿(細胞)膜、高爾基復合體和 F-肌動蛋白細胞骨架。這就像顯微鏡學家最喜歡的染料清單,因為它們顯示了對各種壓力源(如藥物或基因突變)作出反應的細胞部分。U2OS 和 A549 細胞中的 Cell Painting 分析。(來源:www.nature.com)
盡管如此,我還是沒想到基于圖像的分析會像基于 RNA 轉錄本或蛋白質的分析一樣強大。在單個實驗中,你可以測量數千個轉錄本或數百個蛋白質。然而,對于給定的圖像,我們只有少數染色劑。早期,我失眠了很多次,試圖排除偽影并改進方法,看看它是否真的值得。但是接下來的十年左右,基于以分析方式使用圖像的發(fā)現帶來了一次又一次的發(fā)現。今天,機器學習可以從圖像中提取大量信息。這些算法是 2005 年推出的 CellProfiler 原始版本的一部分嗎?
一點也不。CellProfiler 的功能是通過讓經典圖像處理算法測量圖像的屬性來將圖像轉換為數字。直到后來,機器學習才以三種方式發(fā)揮作用。首先,機器學習可以找到細胞和其他亞細胞結構的邊界。深度學習算法現在更準確,但生物學家也更容易應用——這是兩全其美的。其次,假設 CellProfiler 為每個單元提取一千個特征。如果你想知道細胞是否具有轉移性,并且這是你可以通過肉眼識別的表型,你可以使用監(jiān)督機器學習來教計算機基于這些特征轉移細胞和非轉移細胞是什么樣子。第三種方式是最近的發(fā)展。與其使用 CellProfiler 來識別細胞然后提取它們的特征,你只需將整個圖像的所有原始像素光彩(glory)交給深度學習神經網絡,它就會提取所有類型的特征,這些特征不一定能很好地映射到生物學家對相關特征的先入為主的想法,例如細胞大小或細胞核中可能染成紅色的物質。我們發(fā)現這種特征提取非常強大。在這些圖像中的每一個中,細胞都用一種或多種染料處理過,這些染料可以染色特定的細胞特征。通過記錄一千多個這些特征的精確位置,CellProfiler 和其他工具可以識別單個細胞的類型和它們可能顯示的病理狀態(tài)。你是如何在機器學習中裝備自己的,這個領域對生物學家來說似乎非常陌生和令人生畏?
如果你告訴大學時代的 Anne,「22 年后,你將領導一個專注于人工智能的研究小組」,我會說你瘋了。如果沒有與機器學習專家(尤其是 Jones)交朋友,就不可能實現向機器學習的轉變。他和我在麻省理工學院完成培訓后,我們于 2007 年在布羅德研究所共同建立了一個實驗室,我們就機器學習如何幫助生物學家進行了很多頭腦風暴。使這些想法得以滲透和發(fā)展的原因是我們倆都跳過了柵欄,熟悉了雙方的術語和力量,即生物學和計算機科學。這確實是一種富有成效的伙伴關系。不再只是 Jones 了。我的小組大約來自生物學方面和計算方面的人員各一半。你們在促進跨學科工作方面取得了很多成功。
我喜歡把人們聚集在一起。我的實驗室歡迎有好奇心和不同想法的人——這與「有毒的技術兄弟」文化相反,在那里「我們很重要,我們做我們的事,除非你想被嘲笑,否則不要問問題?!巩斘乙庾R到作為一名女性在計算機科學領域很難的時候,我立即意識到,在一般的科學領域成為少數族裔要困難得多。我們關注此人是否具有與團隊相輔相成的技能和興趣,他們是否對自己領域之外的領域感到好奇,以及他們是否可以與沒有經過相同培訓的人進行良好的溝通。在沒有明確嘗試的情況下,我的實驗室比頂級機構的計算實驗室的平均水平要多樣化得多。從我的校友中發(fā)起的大多數獨立實驗室都是由女性或少數群體的人領導的。我想知道有多少人不認為他們是種族主義者或性別歧視者,但在招聘時他們會說,「這個人說話像我一樣,他理解我們的語言和行話,他理解我們的領域」,更不用說“他是那種我想和他喝杯啤酒的人?!鼓憧梢钥吹竭@將如何最終形成一個在人口統計數據和領域專業(yè)知識和經驗方面均相同的群體。如今,你的團隊專注于開發(fā)基于圖像的分析工具以加速藥物發(fā)現。你為什么選擇這個?
幾條證據有助于鞏固這一使命。其中一項來自 2014 年的「頭對頭」實驗,表明基于圖像的配置文件可能與轉錄配置文件一樣強大。論文鏈接:https://www.pnas.org/content/111/30/10911我們在 2017 年的 eLife 論文中描述了另一個,我們在細胞中過度表達了幾百個基因,發(fā)現其中一半對細胞形態(tài)有影響。通過根據成像數據對基因進行分組,你可以在一個漂亮的聚類分析中看到生物學家花了數十年時間將各種信號通路拼湊起來的原因:在這里,所有與癌癥相關的 RAS 通路相關的基因;在那里,Hippo 通路中調節(jié)組織生長的基因,等等。論文鏈接:https://elifesciences.org/articles/24060
看著那個可視化,并意識到我們在一次實驗中為這組基因重建了很多生物學知識——也許是幾周的工作——對我來說真的很了不起。這讓我們決定投入更多的時間和精力來開發(fā)這條研究軌跡。在 2018 年的《Cell Chemical Biology》論文中,Janssen Pharmaceutica 的研究人員挖掘了舊實驗中的圖像——他們只測量了他們關心的一件事——并發(fā)現這些圖像中通常有足夠的信息來預測公司進行的其他化驗的結果。大約 37% 的檢測結果可以通過機器學習使用他們周圍的圖像來預測。這真的引起了大藥廠的注意!用計算查詢代替大規(guī)模藥物檢測每次可以節(jié)省數百萬美元。論文鏈接:https://doi.org/10.1016/j.chembiol.2018.01.015
在我于 2019 年幫助成立的一個聯盟中,十幾家公司和非營利合作伙伴正在努力創(chuàng)建一個龐大的細胞繪畫數據集,其中的細胞經過超過 12 萬種化合物處理,受到 2 萬次遺傳干擾。目標是通過在潛在藥物進入臨床試驗之前確定其作用機制來加速藥物發(fā)現。有哪些基于圖像的分析如何幫助發(fā)現新藥的例子?
Recursion Pharmaceuticals 是在使用基于圖像的分析方面走得最遠的公司,有四種藥物化合物進入臨床試驗。我在他們的科學顧問委員會任職。他們的基本方法是,讓我們擾亂一個已知會導致人類疾病的基因,然后看看細胞會發(fā)生什么。如果細胞以任何可測量的方式發(fā)生變化,我們能否找到一種藥物,使看起來不健康的細胞恢復健康?他們更進一步。甚至無需在細胞上測試藥物,他們就可以根據先前顯示化合物對細胞影響的測試,通過計算預測哪些疾病表型可能會被哪些化合物減輕。我知道這個策略是有效的,因為我的實驗室一直在我們剛剛預印的項目中研究同樣的事情,盡管使用了相對原始的計算技術。論文鏈接:https://www.biorxiv.org/content/10.1101/2021.07.29.454377v1
我一直在與麻省理工學院的 Paul Blainey 和布羅德研究所的 J.T. Neal 研究這種遺傳條形碼技術,它可以讓我們在細胞中混合一堆遺傳擾動,然后使用條形碼來找出哪個細胞得到了哪種遺傳試劑。這使我們能夠在一個孔中混合 200 種正常和 200 種突變的人類蛋白質,我們可以用藥物治療這些蛋白質。對于每口井,我們都在測試這種藥物是否對這 200 種疾病中的任何一種都有用。因此,它比進行 200 次單獨的藥物篩查便宜 200 倍。我們獲得了內部資金來對 80 種藥物進行試點,并正在尋求資金來測試大約 6,800 種藥物。如果我們做得好,可能在大約一年后,這個實驗的結果會表明醫(yī)生可以在閱讀我們的論文后為這些疾病開出真正的藥物。是什么讓你對生物醫(yī)學研究中基于圖像的分析的未來感到興奮——也許更廣泛地說,關于人工智能在該領域的未來?
我們已經處于使用現有機器學習方法改進藥物發(fā)現過程的地步。但我可以預見未來,超越當前基于圖像的分析的能力,你將開始以指數級、跨越式發(fā)展。我們使用的所有機器學習算法都是為社交媒體開發(fā)的,用于識別人臉,為金融機構開發(fā)用于識別異常交易——諸如此類。我認為將更多的注意力放在生物領域和細胞圖像上,可以真正推動事情更快地向前發(fā)展。參考內容:https://www.quantamagazine.org/anne-carpenters-ai-tools-pull-insights-from-cell-images-20211102/