作者:Amy Maxmen
機器之心編譯
參與:黃小天、李澤南
生物醫(yī)療是機器學習技術應用對接的重要領域之一。近日,Nature 報道了谷歌運用深度學習技術(主要是卷積神經(jīng)網(wǎng)絡)在該領域取得的新突破。谷歌通過分析眼球的視網(wǎng)膜圖像,可以預測一個人的血壓、年齡和吸煙狀況,而且初步研究表明,這項技術在防范心臟病發(fā)作上很有成效。深度學習技術正改變著生物醫(yī)療學家處理分析圖像的方式,甚至有助于發(fā)現(xiàn)從未觸及的現(xiàn)象,有望開辟一條新的研究道路。
眼睛通常被認為是心靈的窗口——但是谷歌研究者卻將其看作人體健康的指示器,他們正借助深度學習技術分析眼球的視網(wǎng)膜圖像來預測一個人的血壓、年齡和吸煙狀況。谷歌的計算機收集視網(wǎng)膜血管信息,并且一項初步研究表明機器可以使用這些信息預測一個人是否有心臟病發(fā)作的風險。
這項研究依賴于一種稱為卷積神經(jīng)網(wǎng)絡的深度學習算法,它正在改變生物學家分析圖像的方式??茖W家正使用該方法尋找基因組突變,并預測單細胞布局中的變異。谷歌的這一方法在上年 8 月的預印版中已有所描述(R. Poplin et al. https://arxiv.org/abs/1708.09843;2017),它成為了深度學習應用浪潮的一部分,使得圖像處理更容易,更有用——甚至可以識別被忽略的生物現(xiàn)象。
谷歌研究院的工程學主管 Philip Nelson 說:「從前把機器學習技術應用到生物學領域并不現(xiàn)實,現(xiàn)在可以了;更令人興奮的是,機器還可以看到人之前無法發(fā)現(xiàn)的東西?!?/span>
卷積神經(jīng)網(wǎng)絡允許計算機高效而全息地處理圖像,而無需分割它。借助于算力與存儲的巨大提升,該方法最初在 2012 年左右初顯成效;比如,F(xiàn)acebook 利用這類深度學習技術識別圖像中的人臉。但是科學家卻努力把神經(jīng)網(wǎng)絡應用到生物學,部分原因是由于領域之間的文化區(qū)別。谷歌母公司 Alphabet 旗下的生物科技公司 Calico 的首席計算官 Daphne Koller 說:「一群聰明的生物學家和一群同樣聰明的計算機科學家出現(xiàn)在一個房間,他們會以兩種截然不同的語言和思維方式彼此交流?!?/span>
科學家同樣也不得不識別何種研究可被執(zhí)行,研究使用的神經(jīng)網(wǎng)絡須經(jīng)過大型數(shù)據(jù)集的訓練方可做出預測。當谷歌想要使用深度學習發(fā)現(xiàn)基因組突變時,科學家不得不把 DNA 字母鏈轉(zhuǎn)化為計算機可識別的圖像,接著他們在 DNA 片段上訓練神經(jīng)網(wǎng)絡,這些片段已與參考基因組對齊,并且其突變已知。最終的結(jié)果是 DeepVariant,該工具發(fā)行于上年 12 月,可發(fā)現(xiàn) DNA 序列上的小變異。至少在測試中,DeepVariant 的表現(xiàn)與傳統(tǒng)工具一樣好。
在位于西雅圖的艾倫研究所中,細胞生物學家正在使用卷積神經(jīng)網(wǎng)絡將光學顯微鏡捕獲的細胞平坦灰色圖像轉(zhuǎn)換成 3D 圖像,其中一些細胞的細胞器被標記為彩色。這種方法免去了細胞染色的需要——這一過程需要很多時間和復雜的實驗室設備,還可能會損壞細胞。上個月,該研究小組提交的論文中詳述了僅使用少量數(shù)據(jù)(如細胞輪廓),來預測更多細胞部分的形態(tài)和位置的技術細節(jié)(G. R. Johnson et al.Preprint,bioRxiv http://doi.org/chwv; 2017)
「現(xiàn)在我們看到的是機器學習可以使用圖像來完成生物學任務,」Broad Institute of MIT and Harvard 圖像平臺負責人 Anne Carpenter 說道。在 2015 年,她的跨學科團隊開始使用卷積神經(jīng)網(wǎng)絡來處理細胞圖像;現(xiàn)在,Carpenter 說道,神經(jīng)網(wǎng)絡正在處理研究中心內(nèi)大約 15% 的圖像數(shù)據(jù)。她認為這種方法將成為該中心在未來幾年內(nèi)的主要數(shù)據(jù)處理方式。
其他人則對使用卷積神經(jīng)網(wǎng)絡探索微妙的生物學現(xiàn)象,進而提出此前無法想象的問題而感到興奮?!缚茖W界最有趣的短語不是『找到了!』而是『這很奇怪——發(fā)生了什么?』」Nelson 說道。
「這樣的偶然發(fā)現(xiàn)可以推動疾病研究,」艾倫研究所的執(zhí)行董事 Rick Horowitz 說道。「如果深度學習可以找出單個細胞中微妙的癌化征兆,它就可以幫助我們改進腫瘤分類,這又可能帶來癌細胞傳播的新理論?!?/span>
生物學界的其他機器學習擁躉已經(jīng)將目光投向了新的前沿領域,現(xiàn)在,卷積神經(jīng)網(wǎng)絡正在用于圖像處理?!笀D像非常重要,化學和分子數(shù)據(jù)也同樣重要,」德國環(huán)境健康研究中心計算生物學家 Alex Wolf 說道。Wolf 希望神經(jīng)網(wǎng)絡最終能夠分析基因表達?!肝艺J為在未來幾年里這類技術會出現(xiàn)很大的突破,」他說道,「從而讓生物學家能夠更廣泛地使用神經(jīng)網(wǎng)絡技術?!?/span>
論文:Predicting Cardiovascular Risk Factors from Retinal Fundus Photographs using Deep Learning
論文鏈接:https://arxiv.org/abs/1708.09843
摘要:傳統(tǒng)上,醫(yī)學發(fā)現(xiàn)是通過觀察關聯(lián)性,隨后設計試驗驗證假設得出的。但是,在真實數(shù)據(jù)中特征、紋理、顏色、數(shù)值、形態(tài)等因素在圖像中觀察和量化出關聯(lián)非常困難。在本文中,我們使用深度學習,一種可以自行學會特征的機器學習技術,來探索視網(wǎng)膜眼底圖像中的新知識。通過來自 284,335 名患者的數(shù)據(jù),我們訓練出了一個模型,同時又經(jīng)過了來自 999 名患者,12,026 份獨立數(shù)據(jù)驗證集的驗證,我們的算法可以預測出此前被認為在視網(wǎng)膜眼底圖像里無法預測的心血管風險指標,如年齡(3.26 歲以內(nèi))、性別(0.97AUC)、吸煙狀況(0.71AUC)、HbA1c(1.39% 以內(nèi))、收縮壓(11.23mmHg 以內(nèi)),以及主要不良心臟事件(0.70AUC)。我們進一步證明,該模型可用于生成解剖學上多種類型的分析預測,如視神經(jīng)盤和血管,這為未來的研究打開了新路。
原文鏈接:https://www.nature.com/articles/d41586-018-00004-w
聯(lián)系客服