最近,四川宜賓、云南楚雄接連發(fā)生地震,再次掀起人們對(duì)地震的恐慌。預(yù)測(cè)地震自古以來(lái)都是地震科學(xué)工作者的奮斗目標(biāo)。在深度學(xué)習(xí)如此火爆的今天,人們不禁想到,強(qiáng)大的深度學(xué)習(xí)能否用于地震預(yù)測(cè)?
去年 8 月,《Nature》上發(fā)表了一篇題為《Deep learning of aftershock patterns following large earthquakes》的火爆論文。該論文由哈佛和谷歌的數(shù)據(jù)科學(xué)家聯(lián)合撰寫,論文一作所屬單位是哈佛大學(xué)地球與行星科學(xué)系。
該論文展示了如何利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)余震。研究者指出,他們利用神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)余震位置方面的準(zhǔn)確率超越了傳統(tǒng)方法。
但很快,這一方法就遭到了深度學(xué)習(xí)從業(yè)者的質(zhì)疑。一位名叫 Rajiv Shah 的數(shù)據(jù)科學(xué)家表示,論文中使用的建模方法存在一些根本性的問題,因此實(shí)驗(yàn)結(jié)果的準(zhǔn)確性也有待考究。這名數(shù)據(jù)科學(xué)家本著嚴(yán)謹(jǐn)?shù)木裨谕ㄟ^實(shí)驗(yàn)驗(yàn)證之后聯(lián)系了原作和《Nature》,卻沒得到什么積極的回復(fù)。
于是,Rajiv Shah 在 medium 上寫了一篇博客揭露論文中存在的根本性缺陷以及《Nature》的不作為,后來(lái)這件事又在 Reddit 上引起了廣泛的討論。下面我們回顧一下事件的始末。
文章有點(diǎn)長(zhǎng),目錄預(yù)覽:
《Nature》原論文介紹
Rajiv Shah 博客揭露問題
論文作者的回復(fù)
Reddit 熱評(píng)精選
谷歌&哈佛團(tuán)隊(duì)利用深度學(xué)習(xí)預(yù)測(cè)余震,準(zhǔn)確率空前
這篇名為《Deep learning of aftershock patterns following large earthquakes》的論文展示了如何利用深度學(xué)習(xí)技術(shù)預(yù)測(cè)余震。
論文指出,解釋和預(yù)測(cè)余震的空間分布非常困難。庫(kù)侖破裂應(yīng)力變化可能是解釋余震空間分布最常用的判據(jù),但其適用性一直存在爭(zhēng)議。于是,研究者使用了深度學(xué)習(xí)方法來(lái)確定一種基于靜態(tài)應(yīng)力的準(zhǔn)則,該準(zhǔn)則無(wú)需提前假設(shè)破壞的方向就能預(yù)測(cè)余震的位置。
研究者在超過 131,000 個(gè)主震-余震對(duì)上訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),然后在一個(gè)包含 30000 多個(gè)主震-余震對(duì)的獨(dú)立測(cè)試集上測(cè)試其預(yù)測(cè)余震位置的準(zhǔn)確率。
研究者利用 ROC 曲線來(lái)衡量神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)余震位置在測(cè)試數(shù)據(jù)集上的準(zhǔn)確率。為了構(gòu)建這些曲線,他們繪制了一個(gè)二元分類器的真陽(yáng)性率與該分類器所有可能閾值的假陽(yáng)性率。ROC 的曲線下面積用來(lái)度量模型在所有閾值下的測(cè)試性能(如圖 1 所示)。
圖 1:主震-余震對(duì)示例
下圖 2 的測(cè)試結(jié)果表明,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)余震位置的準(zhǔn)確率(AUC 為 0.849)高于經(jīng)典的庫(kù)侖破裂應(yīng)力變化(AUC 為 0.583)。
圖 2:模型性能比較。
論文鏈接:https://www.nature.com/articles/s41586-018-0438-y
論文全文:https://sci-hub.tw/https://www.nature.com/articles/s41586-018-0438-y
Rajiv Shah 博客揭露論文根本缺陷
以下是 Rajiv Shah 題為《Stand Up for Best Practices: Misuse of Deep Learning in Nature』s Earthquake Aftershock Paper》的博客內(nèi)容。
機(jī)器學(xué)習(xí)炒作的危害
AI、深度學(xué)習(xí)、預(yù)測(cè)建模、數(shù)據(jù)科學(xué)等方面的從業(yè)者數(shù)量在過去的幾年里急劇增長(zhǎng)。這個(gè)混合了多種知識(shí)且曾被認(rèn)為有利可圖的領(lǐng)域正在成為一個(gè)快速發(fā)展的行業(yè)。隨著人們對(duì) AI 的熱情持續(xù)高漲,機(jī)器學(xué)習(xí)增強(qiáng)、自動(dòng)化和 GUI 工具的浪潮將促進(jìn)預(yù)測(cè)模型構(gòu)建者人數(shù)的持續(xù)增長(zhǎng)。
但問題是,盡管使用預(yù)測(cè)模型的工具變得越發(fā)簡(jiǎn)單,但預(yù)測(cè)建模所需的知識(shí)還不是一種大眾化的商品。錯(cuò)誤可能是違反直覺且微妙的,你一不小心就會(huì)得出錯(cuò)誤的結(jié)論。
我是一名數(shù)據(jù)科學(xué)家,與數(shù)十位數(shù)據(jù)科學(xué)專家共事,每天目睹這些團(tuán)隊(duì)努力構(gòu)建高質(zhì)量模型。最好的團(tuán)隊(duì)通力合作,檢查他們的模型以找出問題。有很多問題可能難以被檢測(cè)到,這樣就會(huì)得到有問題的模型。
挑毛病的過程一點(diǎn)也不好玩,需要承認(rèn)那些振奮人心的結(jié)果「好得不真實(shí)」,或者他們的方法不是正確的方法。換句話說,這是一門嚴(yán)謹(jǐn)?shù)膶W(xué)科,與那些登上頭條的性感數(shù)據(jù)科學(xué)炒作沒多大關(guān)系。
糟糕的方法得到糟糕的結(jié)果
大約在一年前,我讀到了《Nature》上的一篇論文,論文作者聲稱他們利用深度學(xué)習(xí)預(yù)測(cè)余震達(dá)到了前所未有的準(zhǔn)確率。讀過之后,我對(duì)他們的結(jié)果產(chǎn)生了深深的懷疑。他們的方法根本不具備一個(gè)嚴(yán)謹(jǐn)預(yù)測(cè)模型的諸多特征。
因此我開始深挖。與此同時(shí),這篇論文成了爆款,而且得到了廣泛認(rèn)可,甚至出現(xiàn)在 TensorFlow 的版本更新公告中,用于說明深度學(xué)習(xí)的應(yīng)用。
然而,我在深挖過程中發(fā)現(xiàn)了論文的重大缺陷,即導(dǎo)致不真實(shí)準(zhǔn)確率得分的數(shù)據(jù)泄漏(data leakage)以及模型選擇(當(dāng)一個(gè)較為簡(jiǎn)單的模型可以提供相同水平的準(zhǔn)確率時(shí),完全不必構(gòu)建一個(gè) 6 層的網(wǎng)絡(luò))。
測(cè)試集的 AUC 比訓(xùn)練集高得多……這不正常。
如上所述,這些都是很微小但卻非常基礎(chǔ)的預(yù)測(cè)模型錯(cuò)誤,可能導(dǎo)致整個(gè)實(shí)驗(yàn)結(jié)果無(wú)效。數(shù)據(jù)科學(xué)家在工作中會(huì)學(xué)著識(shí)別并避免此類問題。我認(rèn)為作者只是忽視了這一點(diǎn),因此我與她取得了聯(lián)系,以告知她這些問題來(lái)提高分析結(jié)果。但她沒有回復(fù)我的郵件。
他們充耳不聞,我不能
那么我接下來(lái)該做什么呢?我的同事建議我發(fā)篇 twitter 就算了,但我想站出來(lái),為那些好的建模實(shí)踐發(fā)聲。我認(rèn)為理性的推理和良好的實(shí)踐會(huì)比較有說服力,因此我開始了一場(chǎng)為期六個(gè)月的研究,并寫下我的結(jié)果分享給《Nature》。
分享了我的結(jié)果之后,我在 2019 年 1 月收到了《Nature》的一份通知,稱雖然擔(dān)心數(shù)據(jù)泄漏和建模選擇可能會(huì)使實(shí)驗(yàn)無(wú)效,但他們認(rèn)為沒必要糾正錯(cuò)誤,因?yàn)椤窪evries 等人的主要目的是將機(jī)器學(xué)習(xí)作為一種工具來(lái)深入了解自然界,而不是設(shè)計(jì)算法的細(xì)節(jié)。」而作者給出了更嚴(yán)厲的回應(yīng)。
僅僅用「失望」來(lái)表達(dá)我的感受是遠(yuǎn)遠(yuǎn)不夠的。這可是一篇重要論文(《Nature》發(fā)的?。?,這助長(zhǎng)了 AI 的炒作之風(fēng),尤其是在其使用了有缺陷的方法之后還是得到了發(fā)表。
就在這周,我偶然看到了 Arnaud Mignan 和 Marco Broccardo 發(fā)表的關(guān)于這篇余震預(yù)測(cè)論文的文章。這兩位數(shù)據(jù)科學(xué)家也注意到了論文中的缺陷。
Arnaud Mignan 和 Marco Broccardo 的論文:A Deeper Look into 『Deep Learning of Aftershock Patterns Following Large Earthquakes』: Illustrating First Principles in Neural Network Physical Interpretability
論文鏈接:https://link.springer.com/chapter/10.1007/978-3-030-20521-8_1
我把我的分析和可復(fù)現(xiàn)代碼貼在了 GitHub 上。
GitHub 鏈接:https://github.com/rajshah4/aftershocks_issues
你可以親自運(yùn)行分析,看看問題所在
支持預(yù)測(cè)建模方法,但論文存在根本缺陷
我想說清楚的一點(diǎn)是:我的目的并不是詆毀余震預(yù)測(cè)論文的作者。我相信他們不是惡意的,我覺得他們的目標(biāo)可能只是想展示機(jī)器學(xué)習(xí)如何應(yīng)用于余震。Devries 是一位有成就的地震科學(xué)家,她只是想在自己的研究領(lǐng)域中使用最新的方法,并從中發(fā)現(xiàn)了令人興奮的結(jié)果。
但問題是:他們的見解和結(jié)果是基于有根本缺陷的方法?!高@不是一篇機(jī)器學(xué)習(xí)論文,而是關(guān)于地震的論文?!惯@樣評(píng)價(jià)是不夠的。如果你使用預(yù)測(cè)建模方法,那結(jié)果的質(zhì)量是由建模質(zhì)量決定的。如果你做的是數(shù)據(jù)科學(xué)工作,那你的科學(xué)嚴(yán)謹(jǐn)性岌岌可危。
在這個(gè)領(lǐng)域,人們對(duì)使用最新技術(shù)和方法的論文有著極大的興趣。而一旦有問題,收回這些論文又比較困難。
但如果我們?cè)试S有基本問題的論文或項(xiàng)目繼續(xù)推進(jìn),那會(huì)對(duì)所有人都不利。它破壞了預(yù)測(cè)建模領(lǐng)域。
請(qǐng)反對(duì)不好的數(shù)據(jù)科學(xué),公布那些糟糕的發(fā)現(xiàn)。如果他們不行動(dòng),那就去推特發(fā)帖子,公布你發(fā)現(xiàn)的結(jié)果,讓大家能夠知道。如果我們希望機(jī)器學(xué)習(xí)領(lǐng)域繼續(xù)發(fā)展并保持信譽(yù),那我們需要的是良好的實(shí)踐。
論文作者回應(yīng)
上文中,Rajiv Shah 對(duì)論文作者的回應(yīng)僅用了一個(gè)詞:嚴(yán)厲。而 Reddit 網(wǎng)友發(fā)現(xiàn),作者的回復(fù)可以說是很不客氣了。在下面這篇寫給《Nature》編輯的回復(fù)中,論文作者在最后一段甚至這么表述:「我們是地震科學(xué)家,你是誰(shuí)?」
以下是作者回復(fù)原文:
我們很高興人們下載我們的數(shù)據(jù)并運(yùn)行代碼。但這些具體的評(píng)論并不值得在《Nature》上發(fā)表。他們并不了解這個(gè)領(lǐng)域;事實(shí)上,這些觀點(diǎn)要么是錯(cuò)的,要么是完全忽略了科學(xué)的要點(diǎn),同時(shí)又想方設(shè)法讓自己的觀點(diǎn)處于一種居高臨下的地位。
總之,這些評(píng)論可以分為三點(diǎn):1)「數(shù)據(jù)泄漏」的想法可能會(huì)夸大結(jié)果;2)隨機(jī)森林方法的表現(xiàn)類似于神經(jīng)網(wǎng)絡(luò);3)我們學(xué)習(xí)的是一個(gè)簡(jiǎn)單的信號(hào)。下面,我們將依次解決這幾個(gè)問題。
1)對(duì)「數(shù)據(jù)泄漏」夸大結(jié)果的擔(dān)憂在科學(xué)背景下毫無(wú)意義。如論文中所說的,我們根據(jù)不同的主震隨機(jī)劃分訓(xùn)練/測(cè)試數(shù)據(jù)集,并根據(jù)簡(jiǎn)單、固定的 time-window 方法選擇余震。
評(píng)論者正確地指出,這種方法意味著在一些訓(xùn)練/測(cè)試樣本中,會(huì)出現(xiàn)主震 B 被包含在主震 A 的余震序列中的情況。如果斷章取義地來(lái)看,這似乎會(huì)夸大結(jié)果。但如果你考慮了具體的科學(xué)方法,就會(huì)發(fā)現(xiàn)根本不是這樣的。
例如,假設(shè)主震 A 被分配到訓(xùn)練數(shù)據(jù)集,主震 B 被分配到測(cè)試數(shù)據(jù)集,但主震 B 被包括在主震 A 的余震中。神經(jīng)網(wǎng)絡(luò)會(huì)在主震 A 的余震序列上接受部分訓(xùn)練(使用主震 A 引起的應(yīng)力變化作為輸入)。由于主震 B 包含在主震 A 的余震中,網(wǎng)絡(luò)可能會(huì)在一些相同的余震上進(jìn)行測(cè)試,但使用主震 B 引起的應(yīng)力變化作為輸入。
網(wǎng)絡(luò)把建模的應(yīng)力變化映射至余震,這種映射對(duì)于訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集中的樣本來(lái)說是完全不同的,盡管它們?cè)诘乩砩现丿B。訓(xùn)練數(shù)據(jù)集中沒有任何信息會(huì)幫助網(wǎng)絡(luò)在測(cè)試數(shù)據(jù)集中表現(xiàn)良好,相反,測(cè)試數(shù)據(jù)集會(huì)要求網(wǎng)絡(luò)解釋它在訓(xùn)練數(shù)據(jù)集中見過的相同余震,但這些余震的主震不同。如果主震相似,的確會(huì)損害網(wǎng)絡(luò)在測(cè)試數(shù)據(jù)集上的性能。
由于這種「數(shù)據(jù)泄漏」,評(píng)論者稱我們夸大了神經(jīng)網(wǎng)絡(luò)的性能。如上所述,我們隨機(jī)將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集,并早早地留出了測(cè)試數(shù)據(jù)集。這是一種標(biāo)準(zhǔn)的方法。在最后的評(píng)估中,最大剪應(yīng)力變化、米塞斯屈服準(zhǔn)則(von-Mises yield criterion)和神經(jīng)網(wǎng)絡(luò)在測(cè)試數(shù)據(jù)集上都表現(xiàn)相似(AUC 得分為 0.85)。
神經(jīng)網(wǎng)絡(luò)的良好性能、最大剪應(yīng)力變化和米塞斯屈服準(zhǔn)則是本論文的中心結(jié)果之一。神經(jīng)網(wǎng)絡(luò)有可能在地震觸發(fā)中發(fā)揮作用。迄今為止,最大剪應(yīng)力變化和米塞斯屈服準(zhǔn)則尚未在地震觸發(fā)文獻(xiàn)中廣泛使用。
2)評(píng)論者說這篇論文會(huì)「給人一種誤解,即只有深度學(xué)習(xí)能夠?qū)W習(xí)余震」。在論文中,我們使用神經(jīng)網(wǎng)絡(luò)作為工具來(lái)深入了解余震模式;但我們并沒有認(rèn)為其它機(jī)器學(xué)習(xí)方法是無(wú)用的。
神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林通常在淺顯或不可感知的機(jī)器學(xué)習(xí)任務(wù)上表現(xiàn)相似。這并不奇怪。論文中有一個(gè)深刻的結(jié)果:神經(jīng)網(wǎng)絡(luò)學(xué)到了一個(gè)與簡(jiǎn)單的基于物理的應(yīng)力量高度相關(guān)的位置預(yù)測(cè)。就算另一種機(jī)器學(xué)習(xí)方法也可以提供這些見解,也不能否認(rèn)這個(gè)結(jié)果。這就好像在說「我們?cè)谟勉U筆而不是鋼筆寫著同樣的內(nèi)容」,科學(xué)還沒有進(jìn)步。
3)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)簡(jiǎn)單的模式是論文的要點(diǎn)。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了一個(gè)與非常簡(jiǎn)單卻很少使用的量高度相關(guān)的模式——最大剪應(yīng)力和偏應(yīng)力張量的第二個(gè)不變式。如上所述,我們?cè)谡撐闹袑?duì)此進(jìn)行了大量討論,因?yàn)檫@就是論文的要點(diǎn)。
評(píng)論者沒有專業(yè)背景。我們是地震科學(xué)家,我們的目標(biāo)是使用深度學(xué)習(xí)方法來(lái)深入了解余震位置模式。我們實(shí)現(xiàn)了這一目標(biāo),但那些評(píng)論者沒有,如果《Nature》選擇發(fā)表那些評(píng)論,我們將會(huì)非常失望。
Reddit 熱評(píng)精選
在 Rajiv Shah 發(fā)表自己的分析結(jié)果之后,一位網(wǎng)友將此事發(fā)到了 reddit 平臺(tái)上,引發(fā)了眾多討論。
熱評(píng) 1:相比評(píng)論者(Rajiv)的言論,作者的回復(fù)更居高臨下。
評(píng)論者認(rèn)為更簡(jiǎn)單的方法可以達(dá)到差不多的效果,強(qiáng)調(diào)了進(jìn)行適當(dāng)控制變量實(shí)驗(yàn)的必要性。作者回復(fù)的最后一段基本上在說「我們是地震科學(xué)家,你是誰(shuí)?」,并告訴《Nature》如果發(fā)表這些評(píng)論他們會(huì)很失望。
為什么評(píng)論者的這些擔(dān)憂不值得在《Nature》上發(fā)表?為什么這些評(píng)論要被限制?發(fā)表它們不是會(huì)促進(jìn)更健康的科學(xué)討論嗎?如果我在為機(jī)器學(xué)習(xí)大會(huì)審查這篇論文,我也會(huì)有類似的擔(dān)憂。至少需要一些控制變量實(shí)驗(yàn)吧。
熱評(píng) 2:論文的論點(diǎn)有些奇怪,Rajiv 的批評(píng)可以更具體
個(gè)人認(rèn)為,Rajiv 犯的一個(gè)錯(cuò)誤是指出更簡(jiǎn)單的模型可以做同樣的工作,這讓他的批評(píng)焦點(diǎn)變得不明確。這個(gè)問題并不會(huì)使論文無(wú)效,它更適合單獨(dú)寫一篇文章來(lái)討論,就像 Mignan 和 Broccardo 所做的那樣。
不過,在作者的回復(fù)中,論文的論點(diǎn)有些令人困惑:他們的論點(diǎn)似乎是「剪應(yīng)力的最大變化和米塞斯屈服準(zhǔn)則是有用的量,因?yàn)樯窠?jīng)網(wǎng)絡(luò)得出的準(zhǔn)確率與它們相同」。如果這些基于非機(jī)器學(xué)方法的 AUC 分?jǐn)?shù)只能相對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)解釋,那準(zhǔn)確地實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)非常重要。
總之,我認(rèn)為 Rajiv 最好這么做:1)明確指出對(duì)該研究應(yīng)做的修改,例如更新 AUC 分?jǐn)?shù)并在論文中解釋方差值;2)寫下他更廣泛的評(píng)論并發(fā)表在 arXiv 或類似的網(wǎng)站上。
btw,我的博士生導(dǎo)師經(jīng)常說,像《Nature》和《Science》這樣的頂級(jí)期刊有相對(duì)較高的幾率發(fā)表那種后來(lái)無(wú)法復(fù)現(xiàn)或者被發(fā)現(xiàn)有某種缺陷的論文。它們可能是最負(fù)盛名的期刊,但這并不意味著它們是最科學(xué)嚴(yán)謹(jǐn)?shù)摹?/p>
熱評(píng) 3:《Nature》負(fù)有不可推卸的責(zé)任,不作為實(shí)在令人惱火
人們都把注意力集中在作者身上,但有網(wǎng)友指出,《Nature》本身也有責(zé)任。人們花了那么多錢才能讀他們的內(nèi)容,因此他們應(yīng)該花功夫仔細(xì)審查,避免發(fā)表錯(cuò)誤的方法。
另一位網(wǎng)友表示,Ta 被《Nature》的反應(yīng)惹火了?!禢ature》好像在說,「反正大眾也不懂這些批評(píng),所以我們什么也不用做」。至少要讓論文作者更新論文來(lái)應(yīng)對(duì)批評(píng)啊。
熱評(píng) 4:論文作者真的懂什么是數(shù)據(jù)泄漏嗎?
博客中已經(jīng)提到,這篇論文的兩大問題之一在于「數(shù)據(jù)泄漏」,那么什么是數(shù)據(jù)泄漏呢?
Reddit 熱評(píng)認(rèn)為,數(shù)據(jù)泄漏是指當(dāng)你進(jìn)行預(yù)測(cè)時(shí),使用了一些現(xiàn)實(shí)上無(wú)法用于預(yù)測(cè)的信息,比如說 2017 年做預(yù)測(cè)的時(shí)候無(wú)法獲得關(guān)于 2018 年的數(shù)據(jù)。網(wǎng)友認(rèn)為,關(guān)于地震預(yù)測(cè),使用的數(shù)據(jù)只能用來(lái)預(yù)測(cè)關(guān)于同一場(chǎng)地震的信息,而如果要預(yù)測(cè)未來(lái)的地震,你沒有相關(guān)的信息數(shù)據(jù)來(lái)訓(xùn)練模型。
網(wǎng)友 Xorlium 表示,Ta 沒看論文,因此也不太理解其它討論。但作者關(guān)于數(shù)據(jù)泄漏的回答卻似乎暴露了其沒有真正理解數(shù)據(jù)泄漏的真相。
熱評(píng) 5:他們只是為了經(jīng)費(fèi)
一位網(wǎng)友表示,「你們是地震科學(xué)家,那么你們應(yīng)該知道自己的知識(shí)和教育邊界,而機(jī)器學(xué)習(xí)并沒有包括在里面?!?/p>
這只是眾多真正的科學(xué)家走向墮落的故事之一。他們不是為了科學(xué),而是為了得到關(guān)注(發(fā)表),以此獲得更多的經(jīng)費(fèi),然后利用這些經(jīng)費(fèi)得到更多的關(guān)注。這不再是關(guān)于真理的研究。因此他們那「更加嚴(yán)厲」的回應(yīng)是出于自我防衛(wèi)。他們根本不在乎真理和真正的科學(xué)。
聯(lián)系客服