中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
學(xué)科建設(shè) | 十字路口的統(tǒng)計(jì)學(xué): 誰在應(yīng)對挑戰(zhàn)?

編者按

最近國內(nèi)統(tǒng)計(jì)學(xué)屆召開多次學(xué)科建設(shè)相關(guān)會議,故重發(fā)本報(bào)告作為一種思路參考。本報(bào)告討論了統(tǒng)計(jì)學(xué)科面臨的機(jī)遇和挑戰(zhàn),由“統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的作用/價(jià)值”、“科學(xué)和社會應(yīng)用中的挑戰(zhàn)”、“基礎(chǔ)研究”、“專業(yè)文化與社區(qū)責(zé)任”、“博士教育”五部分組成,內(nèi)容來源于2018年10月15日至10月17日在弗吉尼亞州舉行的“十字路口的統(tǒng)計(jì):數(shù)據(jù)科學(xué)時(shí)代的挑戰(zhàn)和機(jī)遇”研討會的報(bào)告。該報(bào)告由Xuming He組織并由指導(dǎo)委員會(成員為James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner)審核,由吳喜之老師翻譯,已得到委員會和譯者授權(quán)。

什么是未來?未來的數(shù)據(jù)分析能夠涉及巨大的進(jìn)步,克服真正的困難,并為科技的各個(gè)領(lǐng)域提供出色的服務(wù)。會是這樣嗎?這完全依賴于我們,依賴于我們是愿意選擇解決實(shí)際問題的坎坷道路,還是選擇由不真實(shí)的假定、武斷的準(zhǔn)則及脫離實(shí)際的抽象的結(jié)果構(gòu)成的平坦的道路。誰來應(yīng)對挑戰(zhàn)?

——JOHN W. TUKEY (1962), “FUTURE OF DATA ANALYSIS”


執(zhí)行摘要



我們的世界越來越依賴數(shù)據(jù)和計(jì)算來創(chuàng)造知識、做出關(guān)鍵決策以及更好地預(yù)測未來。數(shù)據(jù)科學(xué)已成為一個(gè)新的領(lǐng)域,通過集成和開發(fā)來自統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)及實(shí)際領(lǐng)域的想法、概念和工具來支持這些數(shù)據(jù)驅(qū)動的活動。數(shù)據(jù)科學(xué)現(xiàn)在推動著生物學(xué)、天文學(xué)、材料科學(xué)、政治科學(xué)和醫(yī)學(xué)等多元化領(lǐng)域,更不用說全球經(jīng)濟(jì)的廣闊領(lǐng)域、政府的主要活動以及日常社交和社會功能。

統(tǒng)計(jì)領(lǐng)域正處于十字路口:我們要么通過擁抱和引領(lǐng)數(shù)據(jù)科學(xué)而蓬勃發(fā)展,要么拒絕并變得無關(guān)緊要。從長遠(yuǎn)來看,要繁榮發(fā)展,我們必須重新定義、擴(kuò)展和轉(zhuǎn)變統(tǒng)計(jì)領(lǐng)域。我們必須發(fā)展并成長為從數(shù)據(jù)中收集和提取有用信息的跨學(xué)科科學(xué)。隨著各數(shù)據(jù)科學(xué)實(shí)體在校園、行業(yè)和政府中快速建立,成功轉(zhuǎn)型的機(jī)會窗口有限,我們絕不能錯過。為實(shí)現(xiàn)這個(gè)變革,我們現(xiàn)在必須通過重新構(gòu)想我們的教育計(jì)劃、重新思考教師的招聘和晉升以及加速必要的文化變遷。

我們的領(lǐng)域受益于對畢業(yè)生日益增長的需求,但一些新領(lǐng)域提供了更相關(guān)的訓(xùn)練,而至少相對而言,統(tǒng)計(jì)教育停滯不前。此外,在領(lǐng)導(dǎo)位置上缺乏統(tǒng)計(jì)人員,我們并沒有主導(dǎo)校園或其他地方的數(shù)據(jù)科學(xué)對話。如果我們現(xiàn)在不站出來,我們就有可能失去資源、人才,甚至失去統(tǒng)計(jì)的未來。今天,我們的畢業(yè)生很容易找到工作,這反映出數(shù)據(jù)科學(xué)家對市場的絕望,不應(yīng)該讓我們感到輕松。

學(xué)術(shù)院系必須采取大膽和戰(zhàn)略性的步驟來領(lǐng)導(dǎo)和推動轉(zhuǎn)型,然而,我們現(xiàn)有的大多數(shù)教師都準(zhǔn)備不足,無法引領(lǐng)道路。使問題更加復(fù)雜的是,那些尚未接觸到統(tǒng)計(jì)可以解決實(shí)際問題的天才學(xué)生正傾向于那些更明顯地這樣做的學(xué)科,從而扼殺了將產(chǎn)生急需的未來統(tǒng)計(jì)領(lǐng)袖的關(guān)鍵教師渠道。我們需要重新思考我們?nèi)绾纹刚埥y(tǒng)計(jì)教師、如何資助他們的工作、以及用于規(guī)范和獎勵學(xué)術(shù)生涯發(fā)展的指標(biāo)。統(tǒng)計(jì)領(lǐng)域正在擴(kuò)大,并將繼續(xù)這樣做,但戰(zhàn)略性的及不斷變化的資源分配必須仍然是學(xué)術(shù)院系的高度優(yōu)先事項(xiàng)。統(tǒng)計(jì)學(xué)家需要與現(xiàn)實(shí)世界的問題合作,以影響外部世界,超越具體的問題解決,以區(qū)別于領(lǐng)域科學(xué)家,并開發(fā)基于經(jīng)驗(yàn)證據(jù)和理論研究的一般工具,在程式化模型下,為數(shù)據(jù)科學(xué)提供見解。

理論可以為實(shí)踐提供關(guān)鍵的支架。例如,Stein關(guān)于James-Stein估計(jì)的開創(chuàng)性理論工作是思想開放的和根本的;它引導(dǎo)我們進(jìn)行規(guī)范化,這在當(dāng)今的大數(shù)據(jù)問題中非常有用。理論分析還提供了經(jīng)驗(yàn)上成功的自助法、廣義估計(jì)方程和序貫蒙特卡羅的見解和支持。另一方面,如果統(tǒng)計(jì)中的理論工作既與實(shí)踐無關(guān),也無源于實(shí)踐的動機(jī),那么,前面引用的Tuky(1962)的話,“不真實(shí)的假定、武斷的標(biāo)準(zhǔn)和抽象的結(jié)果”,那么大多數(shù)此類工作的僅有的實(shí)際目的將是在簡歷中生成一個(gè)條目(并犧牲從審稿者到編輯的大量工作)。優(yōu)雅和深度是數(shù)學(xué)中合理的治理指標(biāo);偶爾統(tǒng)計(jì)理論也可以優(yōu)雅而深入,但不管怎樣,我們的指標(biāo)是不同的。良好的統(tǒng)計(jì)理論必須指導(dǎo)和加強(qiáng)實(shí)踐,否則我們在浪費(fèi)我們的時(shí)間和精力——時(shí)間和精力可以更好地花費(fèi)并且在數(shù)據(jù)科學(xué)時(shí)代推動統(tǒng)計(jì)工作是十分必要的。

統(tǒng)計(jì)是一門基礎(chǔ)學(xué)科,對數(shù)據(jù)科學(xué)至關(guān)重要。與我們的計(jì)算機(jī)科學(xué)和領(lǐng)域科學(xué)的伙伴合作,我們可以在我們的基礎(chǔ)上構(gòu)建并轉(zhuǎn)換統(tǒng)計(jì)成為Fisher、Box、Tukey和Breiman最初設(shè)想的學(xué)科。統(tǒng)計(jì)包括實(shí)踐、計(jì)算和理論,但這些組成部分之間的平衡已經(jīng)嚴(yán)重扭曲,而且缺乏聯(lián)系。在必須繼續(xù)推動理論界限的同時(shí),更多的統(tǒng)計(jì)人員需要投入于實(shí)踐以證明我們對社會的價(jià)值,為基礎(chǔ)研究方向提供信息,并有效地教學(xué),使學(xué)生學(xué)習(xí)實(shí)用技能?,F(xiàn)在,更新基本概念、基礎(chǔ)設(shè)施、教學(xué)模式和適應(yīng)新的數(shù)據(jù)科學(xué)時(shí)代的文化的時(shí)機(jī)已經(jīng)成熟。更具體地說,我們總結(jié)我們的主要調(diào)查結(jié)果和建議如下:

1. 實(shí)踐的中心作用

今天,我們緊迫地需要以相關(guān)的計(jì)算和理論為支撐,把實(shí)踐放在學(xué)科的中心。統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的研究和教育必須著眼于解決現(xiàn)實(shí)世界的問題,總體上必須投入科學(xué)和領(lǐng)域問題,對統(tǒng)計(jì)以外的領(lǐng)域產(chǎn)生可衡量的影響和貢獻(xiàn)。隨著數(shù)據(jù)科學(xué)的迅速成熟,這是行業(yè)轉(zhuǎn)型以擁抱和引領(lǐng)以數(shù)據(jù)為中心的世界的關(guān)鍵時(shí)期。統(tǒng)計(jì)領(lǐng)域的領(lǐng)導(dǎo)人需要做更多的工作,以加快轉(zhuǎn)型,并將這一領(lǐng)域推廣到廣大科學(xué)界和公眾領(lǐng)域。

2. 強(qiáng)調(diào)影響

該專業(yè)需要在學(xué)術(shù)成就評估中更加重視統(tǒng)計(jì)研究的科學(xué)和社會影響。NSF等政府機(jī)構(gòu)應(yīng)鼓勵統(tǒng)計(jì)學(xué)家和其他科學(xué)家之間的研究伙伴關(guān)系,以確保基礎(chǔ)研究在科學(xué)、工程和社會方面具有良好基礎(chǔ)。ASA和IMS等專業(yè)組織也應(yīng)促進(jìn)這一點(diǎn)。主要大學(xué)的晉升和任期研究評估需要更廣闊的視野,不僅要衡量專業(yè)內(nèi)的影響,還要衡量在應(yīng)用領(lǐng)域的影響。社區(qū)需要重視軟件/平臺開發(fā)的重要性。當(dāng)前過分強(qiáng)調(diào)出版物的數(shù)量對專業(yè)是有害的。對于實(shí)踐和理論而言,質(zhì)量和影響應(yīng)該是主要的評估指標(biāo)。

3. 為更好的實(shí)踐做研究?

為了使統(tǒng)計(jì)研究有效地支持科學(xué)與現(xiàn)實(shí)世界中的數(shù)據(jù)問題,毋庸置疑,統(tǒng)計(jì)研究的表述必須反映和捕捉現(xiàn)代數(shù)據(jù)問題中存在的現(xiàn)實(shí)。例如,基礎(chǔ)研究在動態(tài)建模,因果分析和關(guān)于依賴性及異質(zhì)性的推斷方法中是需要的。

4. 迎接重大挑戰(zhàn)

該領(lǐng)域已準(zhǔn)備好接受重大研究問題,以開發(fā)經(jīng)過實(shí)踐證明的統(tǒng)計(jì)調(diào)查過程,包括問題制定、數(shù)據(jù)處理以及統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法/算法,用于分析新興數(shù)據(jù)類型(例如文本,圖像,關(guān)系型數(shù)據(jù))、開發(fā)支持和推進(jìn)此類工作的相關(guān)理論、發(fā)展計(jì)算平臺,這些計(jì)算平臺考慮了統(tǒng)計(jì)效率、計(jì)算、通信和存儲成本以及人員參與成本之間的各種平衡。我們必須解決統(tǒng)計(jì)和數(shù)據(jù)科學(xué)所有研究領(lǐng)域的研究協(xié)議、評估指標(biāo)和基礎(chǔ)架構(gòu)開發(fā)方面的問題。

5. 更廣泛的方法評估指標(biāo)

方法論的發(fā)展需要較少關(guān)注單一目標(biāo)下的最優(yōu)性,而應(yīng)更多地關(guān)注涉及穩(wěn)定性/穩(wěn)健性、可再現(xiàn)性、公平性、計(jì)算可行性、經(jīng)驗(yàn)證據(jù)和在領(lǐng)域科學(xué)中已證明的影響的適當(dāng)指標(biāo)。

6. 訓(xùn)練現(xiàn)代技能

我們必須培養(yǎng)在批判性思維、建模、計(jì)算和交流等方面有重要技能的下一代統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家。我們需要重新構(gòu)想我們的博士學(xué)位課程,以適應(yīng)統(tǒng)計(jì)學(xué)的必要轉(zhuǎn)變。


背景


“十字路口的統(tǒng)計(jì):數(shù)據(jù)科學(xué)時(shí)代的挑戰(zhàn)和機(jī)遇”研討會于2018年10月15日星期一至10月17日星期三在弗吉尼亞州阿靈頓的萬豪水晶門戶酒店舉行。此次研討會聚集了約48位領(lǐng)先的研究人員和教育工作者,利用數(shù)據(jù)科學(xué)時(shí)代前所未有的機(jī)遇和挑戰(zhàn),為統(tǒng)計(jì)領(lǐng)域制定10-20年的愿景。2018年9月10日至10月2日舉行了兩次研討會前網(wǎng)絡(luò)研討會,數(shù)百名在線參與者參加了此次研討會。網(wǎng)絡(luò)研討會和研討會由來自Knowinnovation的促進(jìn)團(tuán)隊(duì)協(xié)助,目的是尋求社區(qū)的廣泛投入,并牢記以下三個(gè)目標(biāo):

1.識別需要新的統(tǒng)計(jì)基礎(chǔ),方法論和計(jì)算思想的新興研究主題;

2.應(yīng)對不同應(yīng)用領(lǐng)域中數(shù)據(jù)驅(qū)動的重要挑戰(zhàn),并促進(jìn)跨學(xué)科合作以應(yīng)對重要的科學(xué)挑戰(zhàn);

3.創(chuàng)建一個(gè)充滿活力的研究社區(qū),在統(tǒng)計(jì)的不同子領(lǐng)域之間保持適當(dāng)?shù)钠胶?包括對基金會的投資。

該項(xiàng)目由NSF贊助,由指導(dǎo)委員會和一組主題負(fù)責(zé)人組織。這個(gè)由六名成員組成的指導(dǎo)委員會由James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner組成,負(fù)責(zé)項(xiàng)目的總體規(guī)劃。十名主題負(fù)責(zé)人負(fù)責(zé)主持和總結(jié)在線論壇和研討會上的討論。主題負(fù)責(zé)人包括David Banks, Alicia Carriquiry, David Higdon, Jennifer Hill, Nicholas Horton, Michael Jordan, Marianthi Markatou, Dylan Small, Marina Vannucci和Ming Yuan。

本執(zhí)行摘要由Xuming He, David Madigan, Bin Yu和Jon Wellner編寫。該報(bào)告的第一版是由Xuming He組織并由指導(dǎo)委員會監(jiān)督的大量撰稿人提供的。我們的撰稿人代表不同的統(tǒng)計(jì)人員小組,他們共享報(bào)告中討論的核心價(jià)值,但不一定在每個(gè)細(xì)節(jié)上都達(dá)成一致。指導(dǎo)委員會有意選擇在報(bào)告中包含挑釁性言論,以鼓勵更廣泛社區(qū)的討論和辯論。

該報(bào)告旨在能讓廣泛的統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域的主要利益相關(guān)的讀看到,包括學(xué)術(shù)院系,大學(xué)行政管理部門和資助機(jī)構(gòu)。

在第1節(jié)中討論了統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的作用和價(jià)值之后,本報(bào)告重點(diǎn)關(guān)注與新興研究和應(yīng)用中的數(shù)據(jù)驅(qū)動挑戰(zhàn)相關(guān)的兩個(gè)目標(biāo)。第2節(jié)從科學(xué)和社會應(yīng)用引起的數(shù)據(jù)挑戰(zhàn)中確定新興研究主題,第3節(jié)討論基礎(chǔ)研究中的許多新興領(lǐng)域。執(zhí)行摘要中還總結(jié)了如何應(yīng)對這些數(shù)據(jù)驅(qū)動的挑戰(zhàn)并促進(jìn)跨學(xué)科合作。第4節(jié)(專業(yè)文化和社區(qū)責(zé)任)和第5節(jié)(博士教育)涉及創(chuàng)建充滿活力的研究社區(qū)并保持適當(dāng)平衡的第三個(gè)目標(biāo)。

1. 統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的作用/價(jià)值

2002年,NSF舉辦了一個(gè)研討會,討論統(tǒng)計(jì)學(xué)界未來的挑戰(zhàn)和機(jī)遇;參見Lindsay Kettenring, and Siegmund(2004)。那時(shí),統(tǒng)計(jì)界看到了越來越多的大規(guī)模數(shù)據(jù)的出現(xiàn)帶來的快速變化和持續(xù)增長。從那時(shí)起,該領(lǐng)域的發(fā)展加速了,包括統(tǒng)計(jì)領(lǐng)域的本科和研究生課程的規(guī)模以及統(tǒng)計(jì)領(lǐng)域與其他領(lǐng)域之間相互作用的廣度。同時(shí),公共和私營部門都接受了大數(shù)據(jù),因?yàn)樵絹碓蕉嗟娜苏J(rèn)識到大數(shù)據(jù)可以深入了解生物過程的本質(zhì)、精密醫(yī)學(xué)、氣候變化、社會和經(jīng)濟(jì)行為、風(fēng)險(xiǎn)評估和決策。數(shù)據(jù)科學(xué)已將自身展示為一種自然的跨領(lǐng)域發(fā)現(xiàn)方法。

毫無疑問,被認(rèn)為是從數(shù)據(jù)中學(xué)習(xí)的統(tǒng)計(jì)學(xué)在數(shù)據(jù)科學(xué)中具有中心地位。實(shí)際上,一些統(tǒng)計(jì)系最近更名為統(tǒng)計(jì)和數(shù)據(jù)科學(xué)系(例如,耶魯大學(xué),卡內(nèi)基梅隆大學(xué)和UT奧斯汀分校)。全國各地的大學(xué)(例如,密歇根大學(xué))現(xiàn)在都為本科生提供數(shù)據(jù)科學(xué)專業(yè),并且越來越多的機(jī)構(gòu)以各種名稱提供了數(shù)據(jù)科學(xué)碩士學(xué)位課程,這些機(jī)構(gòu)來自各個(gè)領(lǐng)域,例如商學(xué)院,信息學(xué)院和計(jì)算機(jī)科學(xué)學(xué)院。統(tǒng)計(jì)界認(rèn)識到,我們正處在十字路口,擁有前所未有的機(jī)會,使其自身現(xiàn)代化成為數(shù)據(jù)科學(xué)的主要參與者。

1.1 統(tǒng)計(jì)作為數(shù)據(jù)驅(qū)動的學(xué)科

自從統(tǒng)計(jì)學(xué)作為一個(gè)領(lǐng)域誕生以來,它就一直受到科學(xué)技術(shù)進(jìn)步的影響。今天,在幾乎每個(gè)學(xué)科中都需要收集和分析數(shù)據(jù)的情況下,這一點(diǎn)可能尤其如此。隨著數(shù)據(jù)驅(qū)動的科學(xué)范式成為一種新規(guī)范,我們有機(jī)會改變自己的領(lǐng)域,并在數(shù)據(jù)科學(xué)中發(fā)揮領(lǐng)導(dǎo)作用,尤其是在統(tǒng)計(jì)思維與計(jì)算思維之間的相互作用上。正如Wender(2017)在國家科學(xué)院的報(bào)告所討論的那樣,大數(shù)據(jù)既有希望,也有危險(xiǎn)。統(tǒng)計(jì)數(shù)據(jù)正處于以數(shù)據(jù)為中心的世界的中心,可以幫助私營和公共部門的科學(xué)家和領(lǐng)導(dǎo)者實(shí)現(xiàn)大數(shù)據(jù)的真正潛力。

為了融入當(dāng)今重要的社會和科學(xué)計(jì)劃,我們絕不能將研究局限于純粹的知識好奇心,也不能將對下一代統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家的培訓(xùn)僅限于傳統(tǒng)課程,無論它們曾經(jīng)多么成功。10月的研討會以三位在精密醫(yī)學(xué)領(lǐng)域最前沿的數(shù)據(jù)科學(xué)家(Simon Tavaré)、微數(shù)據(jù)的使用(Julia Lane)和天文數(shù)據(jù)(Robert Lupton)的演講為開端,并繼續(xù)討論了許多數(shù)據(jù)挑戰(zhàn)。我們同意,雖然統(tǒng)計(jì)數(shù)據(jù)本身就是一個(gè)領(lǐng)域,但它與應(yīng)用的緊密聯(lián)系必須繼續(xù)并加強(qiáng),這些應(yīng)用自然包括來自物理科學(xué)、社會科學(xué)、醫(yī)學(xué)、工程、金融、工業(yè)、治理、體育和藝術(shù)的各種數(shù)據(jù)問題。

統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的核心價(jià)值在于它如何促進(jìn)科學(xué)和社會的理解與發(fā)現(xiàn)。合理的數(shù)據(jù)收集實(shí)驗(yàn)設(shè)計(jì)可提高效率和數(shù)據(jù)質(zhì)量。統(tǒng)計(jì)過程控制導(dǎo)致制造質(zhì)量的提高。不確定性的統(tǒng)計(jì)量化在確認(rèn)分析和減少錯誤發(fā)現(xiàn)的風(fēng)險(xiǎn)中起著至關(guān)重要的作用。重采樣方法和貝葉斯計(jì)算在廣泛的應(yīng)用中很有用,因?yàn)樗鼈兛梢匀菁{復(fù)雜的模型。對于統(tǒng)計(jì)和數(shù)據(jù)科學(xué)而言,持續(xù)證明其對現(xiàn)實(shí)世界問題的價(jià)值很重要。

統(tǒng)計(jì)學(xué)發(fā)展了作為數(shù)據(jù)分析指導(dǎo)原則的基礎(chǔ)和理論。計(jì)算方法和軟件開發(fā)對于實(shí)踐同樣重要。我們工作的影響不應(yīng)局限于任何單個(gè)應(yīng)用程序,統(tǒng)計(jì)的進(jìn)步可以對許多應(yīng)用產(chǎn)生重大影響(例如,Bootstrap、MCMC和貝葉斯計(jì)算、類似LASSO的壓縮感知方法、一般的適用于大數(shù)據(jù)的非參數(shù)化方法,例如隨機(jī)森林和深度神經(jīng)網(wǎng)絡(luò))。

許多成熟的統(tǒng)計(jì)方法已被“商品化”—有免費(fèi)的,高質(zhì)量的軟件可以執(zhí)行許多統(tǒng)計(jì)分析。這些方法通??梢蕴峁﹥r(jià)值,但需要統(tǒng)計(jì)學(xué)家扮演新角色。我們需要訓(xùn)練下一代的數(shù)據(jù)科學(xué)家,他們具有在問題表述和對統(tǒng)計(jì)概念的正確解釋等方面的關(guān)鍵技能。

新理論、方法和方法的動機(jī)可能源于由新的調(diào)查領(lǐng)域驅(qū)動的大規(guī)模協(xié)作調(diào)查,這些調(diào)查通過現(xiàn)代傳感和數(shù)據(jù)收集技術(shù)以及最先進(jìn)的數(shù)據(jù)存儲和計(jì)算平臺而得以實(shí)現(xiàn)。這些調(diào)查幾乎影響了所有領(lǐng)域,并改變了統(tǒng)計(jì)與之相關(guān)的方式。從農(nóng)業(yè)到社交網(wǎng)絡(luò),從遺傳學(xué)到商業(yè)分析,統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家都處于獨(dú)特的位置,可以幫助科學(xué)家解決有關(guān)數(shù)據(jù)發(fā)現(xiàn)的重要問題。

統(tǒng)計(jì)人員和統(tǒng)計(jì)學(xué)如何協(xié)助和進(jìn)行科學(xué)研究有很多方式。它們包括:

1.通用方法和軟件(例如,回歸,用于設(shè)計(jì)實(shí)驗(yàn)的DOE軟件)的應(yīng)用

由于改進(jìn)的軟件和數(shù)據(jù)平臺,在線幫助(例如堆棧交換)、開放源代碼的用戶支持的靈活通用軟件環(huán)境(python,R),通用工具的使用近來有迅速的強(qiáng)大正面效果。統(tǒng)計(jì)方法和軟件已經(jīng)出現(xiàn)爆炸式增長,現(xiàn)在可供所有用戶使用(R包,python)。大數(shù)據(jù)科學(xué)家顯然從這種把統(tǒng)計(jì)提供給應(yīng)用的模式中受益。此外,由于他們具有從現(xiàn)代(數(shù)據(jù)密集型,HPC和網(wǎng)格)平臺訪問數(shù)據(jù)的技能,因此可以將已開發(fā)的方法和軟件應(yīng)用于新出現(xiàn)的問題。

2.作為大學(xué)環(huán)境中的顧問或自由職業(yè)者

統(tǒng)計(jì)人員和數(shù)據(jù)科學(xué)家可能會專注于特定類型的問題或各種類型的問題,通常是多學(xué)科團(tuán)隊(duì)努力的一部分。這是統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)在以后幾十年需要產(chǎn)生影響的領(lǐng)域—因此,我們應(yīng)該牢記這一點(diǎn)來進(jìn)行激勵、培訓(xùn)和開展研究。統(tǒng)計(jì)人員和數(shù)據(jù)科學(xué)家可以而且應(yīng)該在國家實(shí)驗(yàn)室、國家項(xiàng)目(例如大型天氣觀測望遠(yuǎn)鏡,DARPA),主要行業(yè)(例如制藥公司,保險(xiǎn)公司)和政府(例如美國人口普查,USDA)中發(fā)揮積極作用)。

3.作為學(xué)術(shù)研究人員

在這種環(huán)境下,研究與教學(xué)自然融合。但是,協(xié)作/多學(xué)科科學(xué)的深度可能會受到其他約束的限制。一個(gè)主要的約束是教師需要以主要作者的身份出版大量出版物。學(xué)術(shù)院系需要找到鼓勵研究人員參與大規(guī)模,多學(xué)科科學(xué)工作的方法。對學(xué)術(shù)成就的評估需要不限于只考慮本領(lǐng)域的出版物數(shù)量。應(yīng)該強(qiáng)調(diào)對實(shí)際領(lǐng)域科學(xué)和數(shù)據(jù)科學(xué)實(shí)踐中的領(lǐng)導(dǎo)作用的可衡量的影響。為了使我們的領(lǐng)域在未來十年中蓬勃發(fā)展,迫切需要這樣的變革。

1.2 統(tǒng)計(jì)與人工智能

在許多技術(shù)和科學(xué)領(lǐng)域,“人工智能”(AI)一詞已開始被廣泛地用來描述使用數(shù)據(jù)分析和基于數(shù)據(jù)的決定來代替?zhèn)鹘y(tǒng)的計(jì)算機(jī)編程,這往往是在補(bǔ)充甚至取代人類的判斷。

大約在1955年,人工智能的最初目標(biāo)是在軟件和硬件方面模仿人類的智慧。這一目標(biāo)仍然是一個(gè)崇高的愿望,但可以說,這一目標(biāo)遠(yuǎn)未實(shí)現(xiàn)。在接下來的幾十年中,人工智能研究人員致力于實(shí)現(xiàn)這一目標(biāo),探索了一系列方法,包括邏輯推理、約束滿意度、規(guī)劃、概率推理和從數(shù)據(jù)中學(xué)習(xí)。后者通常被稱為“機(jī)器學(xué)習(xí)”(ML),這個(gè)術(shù)語在20世紀(jì)80年代開始被自我認(rèn)定為人工智能研究人員的研究人員所廣泛使用。然而,到20世紀(jì)90年代,ML的方法和理論原理顯然與統(tǒng)計(jì)方法和原則密切相關(guān),即使不是一模一樣的,ML和統(tǒng)計(jì)之間的區(qū)別開始消失。這兩個(gè)傳統(tǒng)的研究人員對跨越舊邊界的問題做出了重大貢獻(xiàn)。對ML產(chǎn)生了粗略的表征,強(qiáng)調(diào)分類、預(yù)測、非參數(shù)和計(jì)算效率。

這些新興理念直接適用于工業(yè)中新出現(xiàn)的問題,20世紀(jì)90年代和2000年代,ML在關(guān)鍵任務(wù)領(lǐng)域,如欺詐檢測、供應(yīng)鏈建模、推薦系統(tǒng)、診斷、個(gè)性化搜索、廣告展示、工業(yè)機(jī)器人和物流。這些應(yīng)用依靠開發(fā)平臺來收集和處理日益大量的數(shù)據(jù),這項(xiàng)活動需要計(jì)算機(jī)科學(xué)其他分支,特別是分布式系統(tǒng)和數(shù)據(jù)庫的專門知識。工業(yè)界開始使用“數(shù)據(jù)科學(xué)”一詞來指能夠以這種方式混合統(tǒng)計(jì)、數(shù)據(jù)庫和分布式系統(tǒng)的個(gè)人和研究團(tuán)隊(duì)。同時(shí),科學(xué)界的研究者,尤其是天文學(xué),基因組學(xué)和地球科學(xué)的研究者,開始建立用于大規(guī)模數(shù)據(jù)分析的平臺,并經(jīng)常與業(yè)界共享資源(通過開源軟件的出現(xiàn)),并且他們的企業(yè)通常也被稱為“數(shù)據(jù)科學(xué)”。最后,整個(gè)企業(yè)不僅涉及平臺,而且與大規(guī)模數(shù)據(jù)有關(guān),“數(shù)據(jù)科學(xué)”也在挑戰(zhàn)新環(huán)境中開始涉及應(yīng)用統(tǒng)計(jì)的一些經(jīng)典問題(例如,缺失數(shù)據(jù)、可視化和因果關(guān)系)。

在過去十年中,這些趨勢發(fā)生了哪些變化,以至于被貼上了“AI”的標(biāo)簽?主要的變化是,數(shù)據(jù)集在計(jì)算機(jī)視覺、語音識別和語言翻譯等領(lǐng)域出現(xiàn),這些領(lǐng)域具有足夠的規(guī)模和范圍,可以構(gòu)建系統(tǒng),利用這些數(shù)據(jù)來模擬人類的感知和語言技能。實(shí)現(xiàn)這一點(diǎn)的算法是ML算法,這些算法與20世紀(jì)80年代相比變化不大,其中最重要的算法是神經(jīng)網(wǎng)絡(luò)中的反向傳播,該算法在80年代開發(fā),其根源在于20世紀(jì)50年代在最佳控制、信號處理、優(yōu)化和統(tǒng)計(jì)。平臺已經(jīng)改變,但是這些變化是工業(yè)和科學(xué)中大規(guī)模數(shù)據(jù)分析的更大趨勢的一部分。簡而言之,新的數(shù)據(jù)集的出現(xiàn)使得計(jì)算機(jī)視覺、語音識別和語言翻譯的經(jīng)典AI中心取得了顯著進(jìn)展,這引發(fā)了整個(gè)企業(yè)的擴(kuò)張,以反映其模仿人類的初衷。

Jordan(2019)將經(jīng)典的模仿人類的人工智能與智能增強(qiáng)(intelligence augmentation,IA)區(qū)別開來。在智能增強(qiáng)(IA)中,計(jì)算機(jī)用于增強(qiáng)人類的感知,認(rèn)知和決策能力,如搜索引擎和圖像處理;在智能基礎(chǔ)設(shè)施(intelligent infrastructure, II)中,網(wǎng)絡(luò)的設(shè)備需要與多個(gè)人類決策者一起做出大量近乎同時(shí)的決策,例如在現(xiàn)代交通、商業(yè)、醫(yī)藥和金融系統(tǒng)中。統(tǒng)計(jì)原則在IA和II中至少與AI一樣重要。此外,在II中,統(tǒng)計(jì)原則將需要與微觀經(jīng)濟(jì)學(xué)原則相融合,以便相互作用的決策者可以有效地合作以應(yīng)對稀缺性并確保公平和機(jī)會的獲取。

數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)在它們要解決的問題方面有著基本相同的目標(biāo)。這些領(lǐng)域的研究人員從不同但相互重疊的角度開發(fā)了方法論和方法。統(tǒng)計(jì)學(xué)并不認(rèn)同模仿人類來構(gòu)建自主學(xué)習(xí)系統(tǒng)的總體目標(biāo),而是側(cè)重于不確定性下的推理和決策過程中涉及的科學(xué)、數(shù)學(xué)、計(jì)算和社會問題。這些交錯領(lǐng)域之間正在發(fā)生一些交互和協(xié)作,并且還需要更多。對于深度學(xué)習(xí)的最新突破,人類的印記或參與以及計(jì)算能力是必不可少的,但是對于某些任務(wù)(例如病理報(bào)告解讀),我們可以想象,隨著時(shí)間的推移,人類將在人類前進(jìn)到下一個(gè)挑戰(zhàn)時(shí),機(jī)器將扮演更重要的角色。

2. 科學(xué)和社會應(yīng)用中的挑戰(zhàn)

2.1 數(shù)據(jù)挑戰(zhàn)

新興的數(shù)據(jù)問題將推動數(shù)據(jù)挑戰(zhàn)。數(shù)據(jù)科學(xué)和IT市場的生態(tài)系統(tǒng)正在迅速進(jìn)化,從而創(chuàng)造了具有可能無法預(yù)料的創(chuàng)新的新跨度。Netflix建立了電視內(nèi)容推薦系統(tǒng),然后對其進(jìn)行反向工程,以創(chuàng)造新的流派來吸引觀眾。同樣,YouTube也為小眾表演者創(chuàng)造了新的機(jī)會來發(fā)現(xiàn)他們的藝術(shù)并將其商品化––比如業(yè)余樂隊(duì)的一個(gè)音樂家表演吸引了萬分之一的美國人,YouTube和其他載體便可以將他們的音樂賣給三萬個(gè)客戶,并且他們可以辭去日常工作。我們腳下的大地正在變化,我們必須比前幾代統(tǒng)計(jì)學(xué)家變得更加敏捷和富有企業(yè)家精神,以實(shí)現(xiàn)統(tǒng)計(jì)學(xué)的轉(zhuǎn)變。國家科學(xué)院的報(bào)告“海量數(shù)據(jù)分析的前沿”(http://nap.edu/18374)討論了大數(shù)據(jù)帶來的許多挑戰(zhàn)。

復(fù)雜的領(lǐng)域問題伴隨著不同的數(shù)據(jù)形式:數(shù)字、圖像/視頻、語音和文本、以及這些形式的集成。統(tǒng)計(jì)的轉(zhuǎn)變是由大膽的實(shí)踐和跨學(xué)科研究驅(qū)動的,這些學(xué)科在計(jì)算和理論的支持下來解決此類數(shù)據(jù)問題。相關(guān)的理論和計(jì)算是始終需要的,但與過去相比,在很大程度上,有價(jià)值的學(xué)術(shù)成就將建立在在實(shí)踐和跨學(xué)科研究的基礎(chǔ)上。

具體來說,在新時(shí)代,我們看到以下數(shù)據(jù)挑戰(zhàn):

1.  數(shù)據(jù)的復(fù)雜方式多種多樣:數(shù)量、速度、多樣性、有效性,如果包括對抗性訓(xùn)練,甚至用V代表Vendetta(仇殺隊(duì))

2.  在許多情況下,可用數(shù)據(jù)并不是總體的有代表性的樣本

3.  通常,觀察到的數(shù)據(jù)是許多不同數(shù)據(jù)生成機(jī)制的疊加

4.  一些特定的解決方案可以推廣,而某些則不能。我們可以在類似問題上借用其強(qiáng)項(xiàng)及獲得啟發(fā),但是每種分析都必須適合于實(shí)際情況,以實(shí)現(xiàn)最大的收益

5.  歐盟的“通用數(shù)據(jù)保護(hù)條例”對分析施加了緊迫性,因?yàn)槿藗兛赡軙磸?fù)隨意地選擇加入或退出研究,并且分析人員可能需要不斷進(jìn)行昂貴的重新計(jì)算

6.  “通用數(shù)據(jù)保護(hù)條例”還要求透明性和可解釋性。如果某人被拒絕貸款,那么分析師必須能夠解釋原因——他們需要再穩(wěn)定工作兩年,或者他們每年需要多賺5000美元。定義可解釋性的含義是當(dāng)前的研究

7.  可重復(fù)性:數(shù)據(jù)的清潔程序和處理需要成為可重復(fù)性管道的一部分。我們需要制定一套通用標(biāo)準(zhǔn)

8.  公平性:負(fù)責(zé)任的數(shù)據(jù)分析必須解決公平性問題。當(dāng)數(shù)據(jù)涉及人群的時(shí)候,抽樣或測量中的偏差會導(dǎo)致歧視。我們必須教育所有人在數(shù)據(jù)分析中關(guān)于確保公平性的需要;參見,例如,Dwork et al(2012)

相應(yīng)的文化和人類結(jié)構(gòu)需要與這些數(shù)據(jù)挑戰(zhàn)保持一致:

1. 基礎(chǔ)設(shè)施:需要考慮到與數(shù)據(jù)分析有關(guān)的“費(fèi)用”,包括組織大量數(shù)據(jù)和理解數(shù)據(jù)結(jié)構(gòu)。這需要物理基礎(chǔ)設(shè)施(數(shù)據(jù)庫、在線存儲庫、數(shù)據(jù)管理、GitHub和共享軟件)以及具有適當(dāng)知識/培訓(xùn)的數(shù)據(jù)“專家”

2. 隨著問題空間變得越來越復(fù)雜(例如,基因組學(xué)或社交網(wǎng)絡(luò)中的因果推理),需要多學(xué)科團(tuán)隊(duì),甚至需要確定一個(gè)可處理的問題

3. 數(shù)據(jù)挑戰(zhàn)通常是依賴于領(lǐng)域的;不同的領(lǐng)域(從物理科學(xué)到社會科學(xué))需要具有不同技能/專業(yè)知識的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家。重新構(gòu)想的統(tǒng)計(jì)教育計(jì)劃需要用這樣的技能來訓(xùn)練我們的學(xué)生

統(tǒng)計(jì)本身產(chǎn)生于科學(xué)家需要量化地使用測量、觀察和實(shí)驗(yàn)以更好地理解科學(xué)現(xiàn)象的需要。天文學(xué)、賭博和遺傳學(xué)等初始應(yīng)用領(lǐng)域推動了統(tǒng)計(jì)理論、概念和方法的開發(fā)和使用。自Breiman(2001)以來,我們在將機(jī)器學(xué)習(xí)作為統(tǒng)計(jì)的一部分方面取得了進(jìn)展。在數(shù)據(jù)科學(xué)時(shí)代,新興應(yīng)用非常豐富。在接下來的幾個(gè)小節(jié)中,我們討論了選定的幾個(gè),并不做出列表是詳盡無遺的任何暗示。

2.2 精準(zhǔn)健康/醫(yī)學(xué)

精確的健康/醫(yī)學(xué)研究需要對多模式、多尺度、多視角、異質(zhì)和相依賴數(shù)據(jù)進(jìn)行集成和推斷;預(yù)測和不確定性量化以解決臨床醫(yī)學(xué)最大問題;將根據(jù)療效數(shù)據(jù)(即臨床試驗(yàn)數(shù)據(jù))獲得的結(jié)果外推至有效性數(shù)據(jù)和個(gè)別患者的治療。

由于生物醫(yī)學(xué)研究技術(shù)的進(jìn)步以及捕獲和存儲大量數(shù)據(jù)的整體能力的提高,生命科學(xué),醫(yī)學(xué)科學(xué)以及公共衛(wèi)生領(lǐng)域的研究已經(jīng)發(fā)生了重大轉(zhuǎn)變。這些變化將科學(xué)生產(chǎn)力的瓶頸從數(shù)據(jù)生成和收集轉(zhuǎn)移到了數(shù)據(jù)管理、分析和解釋。生物醫(yī)學(xué)和生命科學(xué)中數(shù)據(jù)的爆炸式增長可以用來構(gòu)建更精確,更準(zhǔn)確的疾病分類以進(jìn)一步發(fā)展精確的健康/醫(yī)學(xué)概念,從而有可能徹底改變診斷,治療和臨床決策的制定,以導(dǎo)致進(jìn)行更個(gè)性化的治療并改善患者預(yù)后。例如,降低基因組測序的成本會增加可用的遺傳數(shù)據(jù),這些數(shù)據(jù)可用于了解許多疾病的根本原因。此外,電子健康記錄可用性的提高提供了對臨床數(shù)據(jù)的訪問,而各種移動設(shè)備提供了生活方式和其他類型的數(shù)據(jù),可用于促進(jìn)疾病的更準(zhǔn)確診斷和治療。

因此,精密醫(yī)學(xué)是一種新興的疾病治療和預(yù)防方法,它可以解決個(gè)體差異并整合一系列個(gè)性化數(shù)據(jù),包括基因組、表觀遺傳、環(huán)境、生活方式和病史數(shù)據(jù)。它著重于將個(gè)體分為對疾病的易感性和可能的治療反應(yīng)不同的亞群。

為了實(shí)現(xiàn)精確健康的承諾,我們需要克服許多科學(xué)挑戰(zhàn),這些挑戰(zhàn)來自考慮所使用的多個(gè)數(shù)據(jù)源的特征—每個(gè)人被收集的數(shù)據(jù)歷史記錄,包括醫(yī)療記錄、健康概況、可穿戴設(shè)備、它們所接觸的環(huán)境、遺傳信息等。這些包括不同的數(shù)據(jù)類型,例如,數(shù)值、文本和圖像數(shù)據(jù)(多模式數(shù)據(jù))、多分辨率、多視角依賴數(shù)據(jù),具有許多不同類型的相關(guān)性,例如時(shí)間、空間和局部相關(guān)。此外,數(shù)據(jù)中可能存在測量誤差和偏差、異質(zhì)性(局部和空間環(huán)境異質(zhì)性)以及個(gè)體變異性和總體異質(zhì)性。所有上述數(shù)據(jù)特征都帶來了需要解決的基本挑戰(zhàn)。

精確健康的基本挑戰(zhàn)之一是識別治療效果的亞組。這是實(shí)現(xiàn)精確健康益處的重要一步,因?yàn)樗峁┝岁P(guān)于具有特定特征的個(gè)人對特定治療在療效或不良反應(yīng)下如何作出反應(yīng)的證據(jù)。不同的治療效果不僅包括各亞組發(fā)生的治療效果的數(shù)量差異,還包括治療效果的質(zhì)量差異。此外,根據(jù)研究目標(biāo),亞組的特征可能是探索性、數(shù)據(jù)驅(qū)動性或確認(rèn)性。區(qū)分治療效果的亞組鑒定方法背后的一個(gè)關(guān)鍵思想是鑒定可以推動治療效果改變的預(yù)測協(xié)變量(生物標(biāo)志物)。數(shù)據(jù)驅(qū)動的方法通常用于亞組識別,考慮到這一挑戰(zhàn)對精確健康的重要性,需要新的方法。一個(gè)基本問題是開發(fā)用于子組后選擇的推斷方法。在精密醫(yī)學(xué)研究中需要納入適當(dāng)?shù)慕y(tǒng)計(jì)程序和對事后選定子組進(jìn)行確認(rèn)分析。

在精密醫(yī)學(xué)領(lǐng)域中出現(xiàn)的其他挑戰(zhàn)包括需要開發(fā)一種方法來測量一系列疾病的風(fēng)險(xiǎn)以及開發(fā)數(shù)據(jù)集成方法以使人們能夠解決重要的推斷性問題。數(shù)據(jù)集成是當(dāng)前活躍的研究領(lǐng)域,許多科學(xué)領(lǐng)域都對此做出了貢獻(xiàn)。在生物統(tǒng)計(jì)學(xué)領(lǐng)域,通過各種形式的薈萃分析在一定條件下進(jìn)行數(shù)據(jù)整合。盡管過去和現(xiàn)在在數(shù)據(jù)集成領(lǐng)域有很多活動,但仍有一些基本問題有待解決。需要開發(fā)具有良好統(tǒng)計(jì)屬性和相關(guān)高質(zhì)量軟件的方法,特別是針對各種大規(guī)模、高維數(shù)據(jù)的方法。此外,還需要回答何時(shí)不能集成數(shù)據(jù)集/數(shù)據(jù)源問題的方法。需要詢問何時(shí)在分析中合并其他數(shù)據(jù)沒有什么用處,以及如何證明這一行動的合理性。

如果能夠獲得針對上述挑戰(zhàn)的可靠且經(jīng)過充分測試的解決方案,則其影響將是實(shí)質(zhì)性的,而且將在許多層面上產(chǎn)生影響。在個(gè)人層面,它將促進(jìn)更有效的健康管理,并更好地了解影響健康的外部、非生物因素,以及更好地了解疾病的生物學(xué)、社會、環(huán)境和其他決定因素;根據(jù)個(gè)體基因組和表觀遺傳信息提出更好的治療方法,并為個(gè)體提供更好的自我指導(dǎo)管理;允許個(gè)人管理符合其需求的成本效益;并幫助減少不必要的治療處方。在公共衛(wèi)生層面,它將更好地了解不同環(huán)境因素對健康的影響;提供飲食、運(yùn)動和其他相關(guān)因素對健康影響的更準(zhǔn)確歸因;增進(jìn)對健康干預(yù)措施副作用的了解;提高新產(chǎn)品開發(fā)的有效率;通過提前識別最有可能從特定治療中受益的個(gè)人并確定可能遭受不良事件的個(gè)人,從而降低醫(yī)療保健成本。

2.3 物理科學(xué)中的統(tǒng)計(jì)

對于物理科學(xué)中出現(xiàn)的復(fù)雜數(shù)據(jù)問題,需要一種新的統(tǒng)計(jì)方法。應(yīng)用程序中的常見主題包括時(shí)空數(shù)據(jù)、不確定性量化、錯誤設(shè)定的逆問題、組合跨尺度的信息(例如,物質(zhì)科學(xué)中的原子尺度到大尺度尺度,人口統(tǒng)計(jì)學(xué)中從家庭到城市到都市區(qū)域)以及使用能夠模擬特定的物理現(xiàn)象。

物理科學(xué)中的現(xiàn)代研究通常利用新穎的數(shù)據(jù)源、各種子系統(tǒng)苛刻的計(jì)算模型以及為推進(jìn)科學(xué)而需要獲取的詳細(xì)專家知識。這樣的研究是多學(xué)科的,需要在物理科學(xué)、計(jì)算建模、數(shù)據(jù)管理和統(tǒng)計(jì)分析方法的多個(gè)方面具有專業(yè)知識。應(yīng)用領(lǐng)域眾多。部分列表包括天文學(xué)和宇宙學(xué)、地球物理學(xué)、水文學(xué)、高能物理、材料科學(xué)、預(yù)測化學(xué)、核物理和粒子物理學(xué)。

對于復(fù)雜數(shù)據(jù)的類型和物理科學(xué)中出現(xiàn)的問題,迫切需要新的統(tǒng)計(jì)方法和計(jì)算思想。迄今為止,現(xiàn)代統(tǒng)計(jì)推斷中的許多工作都是由技術(shù)行業(yè)或生物醫(yī)學(xué)研究中相對較好的問題驅(qū)動的,但是下一代數(shù)據(jù)(如遙感、衛(wèi)星圖像、天文學(xué)、粒子物理學(xué)、地球科學(xué)、現(xiàn)代成像和探索材料動力學(xué)的診斷設(shè)施)更加復(fù)雜,需要新的統(tǒng)計(jì)方法以及規(guī)模算法。復(fù)雜性源于于底層物理系統(tǒng)的復(fù)雜性和測量過程的復(fù)雜性(例如,從低信噪圖像中解波的對象的形狀,由于非線性、物體模型不正確以及計(jì)算不正確的卷積內(nèi)核而導(dǎo)致的偏差;這些都非常重要,因?yàn)槲锢砩嫌腥さ膮?shù)來自平均數(shù)以千萬到數(shù)億次的測量)。

與物理科學(xué)應(yīng)用中的新統(tǒng)計(jì)方法開發(fā)相關(guān)的常見主題包括:

·處理時(shí)空數(shù)據(jù);

·不確定性量化方法,將物理觀測與要求苛刻的計(jì)算模型相結(jié)合,以進(jìn)行統(tǒng)計(jì)推斷;

·不適當(dāng)?shù)哪鎲栴}(例如,根據(jù)材料與激光或中子束的相互作用來推斷材料結(jié)構(gòu));

·利用大量低信噪比進(jìn)行推理;

·利用通過搜索空間和/或時(shí)間收集的非代表性“機(jī)會”數(shù)據(jù);

·結(jié)合不同類型的測量,這些測量通常來自不同的物理系統(tǒng),并且通常處于不同的空間和時(shí)間分辨率水平(例如,在宇宙學(xué)中——超新星的亮度、宇宙微波背景的波動以及遙遠(yuǎn)星系的畸變);

·將不同分辨率的信息聯(lián)系起來(例如,從材料的分子成分中推斷散裝材料的特性,從化學(xué)結(jié)構(gòu)推斷化合物性質(zhì));

·使用基于物理學(xué)的知識在未經(jīng)測試的新體制(例如極端溫度、極端應(yīng)力條件、極端環(huán)境下的材料相互作用)下產(chǎn)生外推預(yù)測;

·使用數(shù)據(jù)(和其他類型的證據(jù))在競爭模型之間進(jìn)行選擇,并通過模型組合產(chǎn)生更可靠的預(yù)測;

·開發(fā)有效利用可用數(shù)據(jù)源、計(jì)算模型、計(jì)算資源和統(tǒng)計(jì)分析方法的途徑,以便做出可靠的科學(xué)推斷;

·并開發(fā)統(tǒng)計(jì)方法,以更好地理解和預(yù)測罕見的高后果事件(例如流星撞擊、橋梁倒塌、特大風(fēng)暴)。

正如許多人所指出的(包括國家科學(xué)院的報(bào)告,“海量數(shù)據(jù)分析的前沿”),大數(shù)據(jù)中的挑戰(zhàn)不僅僅是由于規(guī)模:它們還涉及復(fù)雜性(物理科學(xué)中遇到的復(fù)雜性類型本質(zhì)上是不同于諸如人的數(shù)據(jù)、遺傳和技術(shù)數(shù)據(jù))。實(shí)際上,數(shù)據(jù)的龐大與數(shù)據(jù)異質(zhì)性有很大關(guān)系??茖W(xué)進(jìn)步將越來越多地源于使用復(fù)雜物理過程的可解釋模型獲得的知識。統(tǒng)計(jì)人員和數(shù)據(jù)科學(xué)家必須與領(lǐng)域科學(xué)家緊密合作,以了解問題,挑戰(zhàn)和科學(xué)目標(biāo)。解決物理科學(xué)中特定問題的現(xiàn)有方法可能會忽略統(tǒng)計(jì)學(xué)家可以識別的數(shù)據(jù)分析機(jī)會。此外,重要的是跨領(lǐng)域轉(zhuǎn)移技術(shù),重點(diǎn)放在可推廣的方法上。如果從解決單個(gè)問題的方法中得出可推廣的方法,科學(xué)將進(jìn)步得更快。

2.4 統(tǒng)計(jì)與量子信息科學(xué)

量子信息科學(xué)研究量子理論和技術(shù),以開發(fā)量子器件,用于信息處理、傳輸、計(jì)算、測量和基本理解,而經(jīng)典方法的效率要低得多,或者根本無法做到。它包括量子通信、量子計(jì)算和量子計(jì)量學(xué),其中量子通信利用量子資源進(jìn)行安全通信和其他與密碼學(xué)有關(guān)的任務(wù)。量子計(jì)算通過使用量子設(shè)備而不是遵循經(jīng)典物理學(xué)并被經(jīng)典計(jì)算機(jī)使用的電子設(shè)備來執(zhí)行計(jì)算;量子計(jì)量學(xué)利用相干量子系統(tǒng)來增強(qiáng)物理量測量的性能。全球范圍內(nèi)都在進(jìn)行深入研究,以發(fā)掘利用量子特性的許多技術(shù),這些技術(shù)可能會導(dǎo)致功能更強(qiáng)大,更普遍的量子設(shè)備得到更好的計(jì)算、通信和加密?,F(xiàn)在,量子技術(shù)的發(fā)展正處于關(guān)鍵點(diǎn),正在以超越傳統(tǒng)設(shè)備的能力來構(gòu)建量子通信設(shè)備和量子計(jì)算機(jī),例如量子退火器、量子模擬器和量子密碼設(shè)備。一方面,統(tǒng)計(jì)可以在量子信息科學(xué)中發(fā)揮關(guān)鍵作用,例如量子設(shè)備的認(rèn)證及其在科學(xué)研究中的用途。另一方面,量子計(jì)算在革新計(jì)算統(tǒng)計(jì)和加速機(jī)器學(xué)習(xí)算法方面具有巨大潛力。量子技術(shù)發(fā)展和基于量子的計(jì)算技術(shù)(用于統(tǒng)計(jì)和機(jī)器學(xué)習(xí))的統(tǒng)計(jì)方法迫切需要,并且量子科學(xué)和統(tǒng)計(jì)之間的相互作用可能是少數(shù)幾個(gè)最重要的新興應(yīng)用之一。量子信息科學(xué)利用諸如疊加和糾纏等怪異的量子特性來發(fā)明新的量子設(shè)備,以實(shí)現(xiàn)比相應(yīng)的經(jīng)典技術(shù)更快的計(jì)算、更安全的通信和更好的物理測量。它利用新的量子資源來完成傳統(tǒng)技術(shù)無法完成的任務(wù)。這些量子資源還可能提供不具有經(jīng)典對應(yīng)物的數(shù)據(jù)收集和處理新手段。所有這些將為統(tǒng)計(jì)和機(jī)器學(xué)習(xí)提供新的理論、方法和計(jì)算技術(shù)。

2.5 匿名數(shù)據(jù)的統(tǒng)計(jì)分析

根據(jù)最近的一項(xiàng)估算,人類平均每天會產(chǎn)生2.5×1018字節(jié)的數(shù)據(jù);參見https://www.domo.com/learn/data-never-sleeps-6.幾乎所有這些數(shù)據(jù)都以這樣或那樣的形式記錄,但是當(dāng)前的法律和法規(guī)框架需要進(jìn)行重大改革,以解決數(shù)據(jù)收集和使用的道德問題。像1964年的“民權(quán)法”一樣,某些領(lǐng)域(例如住宿、教育和就業(yè))的道德規(guī)范已經(jīng)制定了五十多年,但目前沒有機(jī)制來規(guī)范使用數(shù)據(jù)的公司。另外,公眾對用戶隱私缺乏興趣。

有一些關(guān)于數(shù)據(jù)匿名化的統(tǒng)計(jì)研究,例如統(tǒng)計(jì)披露限制、差異性隱私或數(shù)據(jù)清潔。差異隱私(DP)試圖通過注入采樣以外的其他噪聲來最大程度地降低隱私對個(gè)人數(shù)據(jù)集的影響。截至2018年,人們對獲得常用統(tǒng)計(jì)算法的差異隱私版本有極大的興趣,這是一個(gè)蓬勃發(fā)展的研究領(lǐng)域。DP框架在行業(yè)中也有重要用途。例如,蘋果公司利用局部差異隱私來了解其用戶的行為,而無需跟蹤特定用戶的使用模式。參見https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf.數(shù)據(jù)清潔是指試圖對數(shù)據(jù)進(jìn)行匿名處理的一大套做法,以保護(hù)對象的身份或其在公開發(fā)布的數(shù)據(jù)集中的機(jī)密屬性,或確保公平對待每個(gè)對象。這可以通過以多種方式進(jìn)行數(shù)據(jù)屏蔽,如通過刪除(或變換)可能包含標(biāo)識信息的變量,或者隨機(jī)生成其分布接近實(shí)際數(shù)據(jù)集的新數(shù)據(jù)來實(shí)現(xiàn)。

隨著對隱私的日益重視,數(shù)據(jù)清潔和差異隱私,或它們的改進(jìn)版本,都可能成為數(shù)據(jù)分析的主要工具。但是,仍然存在許多問題和挑戰(zhàn)。參見,例如,Bambauer et al.(2014)和Mervis(2019)的《科學(xué)》雜志文章。后者討論了在普查數(shù)據(jù)上使用DP的可能弊端,包括在對DP過濾(普查數(shù)據(jù))后沒有足夠的信息用于社會科學(xué)研究。顯然存在一個(gè)問題,即如何進(jìn)行研究以在隱私和數(shù)據(jù)準(zhǔn)確性之間取得平衡?特別是對于統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家來說,一些關(guān)鍵問題包括:

·各種不同水平的隱私問題能否建成統(tǒng)計(jì)模型?當(dāng)前差異隱私框架旨在最大限度地減少所有用戶的數(shù)據(jù)泄漏。實(shí)際上,某些人愿意分享比其他人更多的個(gè)人信息,尤其是如果這樣可以為他們提供更準(zhǔn)確的建模和分析。

·差異性隱私與其他隱私定義的關(guān)系如何?更具體地說,是否存在?差異隱私還可以保證其他諸如k匿名的隱私概念的條件?此設(shè)置還需要數(shù)據(jù)集的背景分布,尤其是變量的相關(guān)性上,做出假定。

·我們?nèi)绾握_考慮隱私保護(hù)機(jī)制引入的附加隨機(jī)性,無論它們是DP還是別的?這是否需要新的統(tǒng)計(jì)推斷工具?

·還有其他類似的方法可以簡化數(shù)據(jù)的匿名化嗎?這些方法中的任何一種是否提供DP以外的更多功能?

上述問題必須通過經(jīng)驗(yàn)和理論研究來解決。研究中使用的理論模型和模擬模型需要捕獲現(xiàn)實(shí)的關(guān)鍵方面,例如,有關(guān)普查數(shù)據(jù)并考慮到實(shí)際相關(guān)的目標(biāo)和目標(biāo)受眾。當(dāng)前的人口普查局使用的隱私保護(hù)方法需要與諸如DP等新方法進(jìn)行系統(tǒng)比較,并明確定義相關(guān)和實(shí)際目標(biāo)。提倡DP進(jìn)行普查的統(tǒng)計(jì)研究人員需要了解使用普查數(shù)據(jù)進(jìn)行研究和提出政策建議的社會科學(xué)家的關(guān)注。DP的普查決定應(yīng)與社會科學(xué)研究員和其他利益相關(guān)者協(xié)商。

3. 基礎(chǔ)研究

統(tǒng)計(jì)理論的基礎(chǔ)研究為我們在統(tǒng)計(jì)實(shí)踐中的工作提供了寶貴的指導(dǎo)和深入的了解。過去20到30年間,統(tǒng)計(jì)學(xué)基礎(chǔ)研究的兩個(gè)主題涉及一般經(jīng)驗(yàn)過程的理論以及半?yún)?shù)和非參數(shù)模型下限工具的系統(tǒng)開發(fā)。隨著我們對集中度不平等的理解的迅速發(fā)展,推動了經(jīng)驗(yàn)過程的理論發(fā)展。

統(tǒng)計(jì)的一個(gè)成功案例包括非常通用的可驗(yàn)證Efron的非參數(shù)自助法的自助法極限定理,以及在各種問題中更通用的可交換加權(quán)的自助法。這些結(jié)果已得到進(jìn)一步開發(fā),以產(chǎn)生適用于海量數(shù)據(jù)的可擴(kuò)展自助法。

其他成功案例包括對基于Talagrand(1994)的基礎(chǔ)工作的新的濃縮約束技術(shù)對模型選擇方法的理解,以及非參數(shù)貝葉斯方法的巨大發(fā)展。半?yún)?shù)和非參數(shù)模型的下界和用于構(gòu)造有效估計(jì)量的方法的開發(fā)也在持續(xù)發(fā)展。這些方法開始在因果推理和模型后選擇推斷方面產(chǎn)生回報(bào)。

我們對應(yīng)用和數(shù)據(jù)挑戰(zhàn)的強(qiáng)調(diào)絕不降低統(tǒng)計(jì)學(xué)基礎(chǔ)研究的價(jià)值。相反,它更令人信服和迫切地主張對統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的基礎(chǔ)研究進(jìn)行更多的投資。需要新的理論范式來支持和指導(dǎo)新的統(tǒng)計(jì)實(shí)踐,以應(yīng)對新的數(shù)據(jù)挑戰(zhàn)。我們理論的發(fā)展需要擺脫簡單化的模型和假設(shè),采用新的框架來反映當(dāng)今的領(lǐng)域問題和數(shù)據(jù)現(xiàn)實(shí),從而允許非獨(dú)立同分布樣本以及異構(gòu)總體和數(shù)據(jù)源?;A(chǔ)研究的評估指標(biāo)應(yīng)包括創(chuàng)新,質(zhì)量和影響力。在本節(jié)中,我們將討論一些重要的新興主題。

3.1 模型與算法的作用

傳統(tǒng)的統(tǒng)計(jì)思維集中在數(shù)據(jù)生成建模上。簡單和可解釋的模型通常是黃金標(biāo)準(zhǔn)。但是對于現(xiàn)代應(yīng)用程序而言,現(xiàn)實(shí)往往過于復(fù)雜,以至于無法用簡單的模型來描述。盡管完全摒棄建模在這些應(yīng)用程序中的作用將是一個(gè)錯誤,但當(dāng)今的科學(xué)和社會問題促進(jìn)了對現(xiàn)代應(yīng)用程序建模的重新校準(zhǔn)。

正如George Box的名言所說的:“所有模型都是錯誤的,但有些模型是有用的?!蹦P褪菍ΜF(xiàn)實(shí)的近似,它們?yōu)樘囟康亩婚_發(fā)。通常,數(shù)據(jù)分析的目的是制定詳細(xì)的決策,然后建模應(yīng)反映出這一目標(biāo)。一個(gè)典型的例子是分類,在許多應(yīng)用中,判別建模是生成建模的更合適的替代選擇。在大數(shù)據(jù)分析中,不建議為所有目的都使用一個(gè)模型,無論它多么復(fù)雜和適應(yīng)。在某些應(yīng)用程序中,可解釋和可擴(kuò)展的局部模型可能是首選,如何跨局部模型有效地借用信息需要進(jìn)行新的研究。

隨著計(jì)算機(jī)科學(xué)思想的注入,數(shù)據(jù)分析中經(jīng)常采用算法觀點(diǎn)。支持向量機(jī)就是一個(gè)例子??梢詫⑵湟暈榉诸愃惴ā5?,將支持向量機(jī)與平滑度正則化綁定在一起并重現(xiàn)內(nèi)核Hilbert空間,已經(jīng)對如何工作以及如何對其進(jìn)行了改進(jìn)產(chǎn)生了深刻的見識。

許多統(tǒng)計(jì)工作都使用生成模型來激勵和分析數(shù)據(jù)分析程序。這樣的模型對于設(shè)計(jì)新程序以及理解和比較現(xiàn)有程序可能是有價(jià)值的。但是,我們絕不能止步于此,因?yàn)槿魏侮P(guān)鍵地依賴于生成模型的推論工作,無論如何謹(jǐn)慎選擇,都可能與相識脫節(jié)。

在實(shí)踐中,建模的一個(gè)相關(guān)挑戰(zhàn)是穩(wěn)健性。需要開發(fā)健壯性的新概念,以解決數(shù)據(jù)科學(xué)的統(tǒng)計(jì)和計(jì)算方面的問題。大部分早期的穩(wěn)健性文獻(xiàn)都是在參數(shù)模型的背景下進(jìn)行的,其中否認(rèn)了模型的真實(shí)性。在這些文獻(xiàn)中,統(tǒng)計(jì)方法被設(shè)計(jì)為在給定參數(shù)模型的鄰域中很好地工作,但是鄰域的概念通常在范圍上受到限制。穩(wěn)健性需要一種不同的方法,不僅用于建模,而且還用于數(shù)據(jù)質(zhì)量、計(jì)算限制等。Yu(2013)主張?jiān)诮y(tǒng)計(jì)和數(shù)據(jù)科學(xué)中的穩(wěn)定性對數(shù)據(jù)和模型/算法擾動的重要性,以及具有可重復(fù)性、穩(wěn)健性和可解釋性的自然連接的重要性。

3.2 不同約束條件下的統(tǒng)計(jì)效率

傳統(tǒng)的統(tǒng)計(jì)效率集中在如何充分利用給定的樣本上。雖然這仍然至關(guān)重要,但越來越經(jīng)常地,還需要考慮到其他資源限制因素。最值得注意的之一是計(jì)算資源。隨著數(shù)據(jù)量的增加,需要注意任何推斷技術(shù)的計(jì)算方面,并且計(jì)算效率應(yīng)該與旨在推斷的統(tǒng)計(jì)效率一起考慮。這種需求促使我們在過去幾年中研究多項(xiàng)式時(shí)間可計(jì)算方法的分布推斷和極小極大限。盡管取得了一些初步的成功,但到目前為止,我們還沒有一個(gè)統(tǒng)一而通用的統(tǒng)計(jì)框架來解決統(tǒng)計(jì)和計(jì)算效率之間的關(guān)系和平衡。

一個(gè)相關(guān)的約束是空間。完整存儲或分析海量數(shù)據(jù)集通常不切實(shí)際。自從大數(shù)據(jù)出現(xiàn)以來,計(jì)算機(jī)科學(xué)家就一直在處理這個(gè)問題,并提出了許多非常有用的想法來以有限的內(nèi)存進(jìn)行存儲和查詢。值得注意的例子包括隨機(jī)投影,其中大量變量的主要特征可以通過少量的隨機(jī)測量來保留,而數(shù)據(jù)流式傳輸中的內(nèi)存非常稀缺,因此我們只能存儲單個(gè)數(shù)據(jù),并且希望以在線形式進(jìn)行推斷。然而,這些非常重要的問題卻很少受到統(tǒng)計(jì)界的關(guān)注。

3.3 數(shù)據(jù)驅(qū)動范式中的推斷框架

在許多現(xiàn)代科學(xué)應(yīng)用中,首先收集數(shù)據(jù),然后在看到數(shù)據(jù)后制定科學(xué)問題或假設(shè)。這種數(shù)據(jù)驅(qū)動的科學(xué)范式給統(tǒng)計(jì)推斷帶來了新的挑戰(zhàn)。在這種情況下,對經(jīng)典統(tǒng)計(jì)推斷的作用的誤解可能會導(dǎo)致“呼吁應(yīng)用較少的能力,放棄對有效的統(tǒng)計(jì)方法的研究?!毕喾?,“應(yīng)該有動機(jī)創(chuàng)造統(tǒng)計(jì)推理,將目前沒有考慮的非正式數(shù)據(jù)分析活動整合在一起”(Buja和Brown對Lockhart et al。(2014)的討論)。

此類活動通常以大規(guī)模探索性數(shù)據(jù)分析的形式出現(xiàn),并且可能涉及交互式數(shù)據(jù)分析的多次迭代。它們在許多應(yīng)用中至關(guān)重要,并且非常成功。然而,從統(tǒng)計(jì)的角度來看,如何在一個(gè)更正式的推理框架中適當(dāng)?shù)乜紤]這些活動仍然是一個(gè)巨大的挑戰(zhàn)。一個(gè)相關(guān)的挑戰(zhàn)是如何實(shí)現(xiàn)科學(xué)的可重復(fù)性/可復(fù)制性,并傳達(dá)來自這些復(fù)雜數(shù)據(jù)分析管道的數(shù)據(jù)驅(qū)動發(fā)現(xiàn)的不確定性。

Taylor and Tibshirani(2015)提出了一種選擇推理的新方法,其中感興趣的參數(shù)可能與數(shù)據(jù)有關(guān)。但是,對無模型結(jié)構(gòu)參數(shù)的統(tǒng)計(jì)推斷仍然是任何驗(yàn)證性分析的重要組成部分;感興趣的參數(shù)可以是科學(xué)中的固有數(shù)量,也可以是所研究人群的平均治療效果。在模型選擇之后進(jìn)行基于模型的推斷時(shí),我們必須開發(fā)適當(dāng)?shù)耐茢喾椒?,以解決模型選擇中的不確定性。重要的是,我們應(yīng)更多地注意許多有用但特別的過程,例如數(shù)據(jù)拆分,并描述何時(shí)及為什么這些方法可行以及如何對其進(jìn)行改進(jìn)。

3.4 觀察研究與實(shí)驗(yàn)設(shè)計(jì)

對原因及后果進(jìn)行推斷,即因果推斷,是日常生活和公共政策的核心。因果推斷問題的一些示例如下:雙膦酸鹽是否會導(dǎo)致食道癌?街道上的人口密度(跨時(shí)間和鄰域)如何影響犯罪率?房東有種族歧視嗎?

在線和其他電子活動留下的數(shù)據(jù)痕跡“數(shù)據(jù)耗盡”提供了非常大的數(shù)據(jù)集,可能為因果推斷提供了新的機(jī)會。這樣的數(shù)據(jù)集的示例包括運(yùn)輸數(shù)據(jù)集(例如,紐約市出租車數(shù)據(jù)、Waze/Google地圖數(shù)據(jù)、公共交通數(shù)據(jù)、Strava數(shù)據(jù)、交通事故數(shù)據(jù))、健康數(shù)據(jù)集(例如,Medicare/Medicaid數(shù)據(jù),保險(xiǎn)索賠數(shù)據(jù)),住宿數(shù)據(jù)(例如AirBNB數(shù)據(jù))、公共安全數(shù)據(jù)(例如Shotspotter槍聲數(shù)據(jù)、警察公共聯(lián)系數(shù)據(jù)、CCTV、遠(yuǎn)程信息處理)、交易數(shù)據(jù)(例如金融交易、零售)、教育數(shù)據(jù)(例如學(xué)生水平的管理數(shù)據(jù)、學(xué)校水平的管理數(shù)據(jù))、就業(yè)數(shù)據(jù)(例如ADP薪資數(shù)據(jù))、公眾與政府?dāng)?shù)據(jù)的交互(例如在https://catalog.data.gov/dataset/311-data-in-development的311數(shù)據(jù))以及大規(guī)模傳感器數(shù)據(jù)(例如,起搏器數(shù)據(jù),F(xiàn)itbit數(shù)據(jù))。

需要法治因果推斷的新方法,以充分利用這些大數(shù)據(jù)集進(jìn)行因果推斷??梢詮男卵芯恐惺芤娴囊蚬茢嗟奶魬?zhàn)性問題包括:

1. 如何整合來自各種數(shù)據(jù)源的因果關(guān)系證據(jù)?我們?nèi)绾握{(diào)和得到截然不同結(jié)果的觀察研究結(jié)論?

2. 我們?nèi)绾瘟炕c因果效應(yīng)估計(jì)相關(guān)的真實(shí)不確定性?

3. 我們?nèi)绾卫玫途?,低偏差?shù)據(jù)和高精度,中等偏差數(shù)據(jù)的優(yōu)勢?

4. 我們是否可以結(jié)合使用無效測試,陰性對照等來建立更好的模型或幫助驗(yàn)證假設(shè)?如何將這些準(zhǔn)實(shí)驗(yàn)設(shè)備納入推斷?

5. 已針對相對簡單的因果假設(shè)(如治療引起比對照組更高的影響)開發(fā)了諸如空試驗(yàn),陰性對照和多個(gè)對照組之類的準(zhǔn)實(shí)驗(yàn)裝置。如果我們想檢驗(yàn)復(fù)雜的因果假設(shè),例如關(guān)于一組基因如何共同作用以調(diào)節(jié)蛋白質(zhì)X的生成量該怎么辦?如何將這些準(zhǔn)實(shí)驗(yàn)設(shè)備用于有關(guān)大型機(jī)制模型的復(fù)雜因果假設(shè)?

6. 如果您具有高維度的結(jié)果,可以使用觀測數(shù)據(jù)來幫助定義對于幫助確定未來實(shí)驗(yàn)的最佳測試統(tǒng)計(jì)量最重要的低維度結(jié)構(gòu)嗎?

基于觀察性研究進(jìn)行因果推理的另一個(gè)重要挑戰(zhàn)是,是否有可能區(qū)分模型或程序的成功使用和不成功使用,這是Freedman(1991)提出的一個(gè)老問題。對于統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家來說,這是一個(gè)至關(guān)重要的問題,因?yàn)橐蚬评碓谟^察研究比隨機(jī)實(shí)驗(yàn)更常見的社會科學(xué)和其他領(lǐng)域中流行。這也是統(tǒng)計(jì)學(xué)家比其他許多人都有更好見解的地方。

3.5 有限人口抽樣設(shè)計(jì):模型輔助有限采樣

抽樣調(diào)查中通常采用有限的人口抽樣,但是至少在最近之前,統(tǒng)計(jì)方法已經(jīng)不在統(tǒng)計(jì)的主流范圍之內(nèi)。Cassel,Sarndal,and Wretman(1977)以及Sarndal,Swensson,and Wretman(1992)的書開始在統(tǒng)計(jì)理論的框架內(nèi)系統(tǒng)地處理這些方法。Meng(2018)最近發(fā)表的有關(guān)采樣在大數(shù)據(jù)中的作用的有啟發(fā)性的論文應(yīng)被視為Neyman(1934)所倡導(dǎo)主題的延續(xù)。在數(shù)據(jù)科學(xué)時(shí)代,這些主題的進(jìn)一步發(fā)展,特別是與兩相和多相設(shè)計(jì)相關(guān)的工具,以及模型輔助采樣背景下的兩階段和多階段設(shè)計(jì),可能會在使用采樣來衡個(gè)體子集的昂貴協(xié)變量時(shí)及使用諸如子采樣、“草圖”、和“分而治之”方法來減少與大數(shù)據(jù)計(jì)算有關(guān)的困難時(shí)變得越來越重要。

適用于獨(dú)立同分布的許多工具采樣(包括對相關(guān)經(jīng)驗(yàn)過程方法的系統(tǒng)性理解,例如類似于Talagrand(1994)的簡單隨機(jī)采樣的有限采樣指數(shù)范圍)對于大多數(shù)更復(fù)雜的采樣設(shè)計(jì)尚未出現(xiàn)。

3.6 大規(guī)模非凸優(yōu)化

大數(shù)據(jù)通常由異構(gòu)數(shù)據(jù)或子群體組成。大數(shù)據(jù)分析的一個(gè)重要目標(biāo)是將每個(gè)對象聚集到一個(gè)亞人群中,并為每個(gè)亞人群提供個(gè)性化的處理。這個(gè)基本概念是精準(zhǔn)醫(yī)學(xué)(第2。2節(jié))和精準(zhǔn)營銷的基礎(chǔ)。這種聚類分析是在高維設(shè)置下進(jìn)行的,其中包括高維變量、潛在因素以及具有數(shù)據(jù)真實(shí)性的環(huán)境(如粗尾,缺失值和有偏采樣)之間的相互作用。一旦了解了亞群,尋找個(gè)性化的治療方法和預(yù)期的反應(yīng)仍然是一項(xiàng)挑戰(zhàn)。如此復(fù)雜的系統(tǒng)的現(xiàn)實(shí)建模對于精密醫(yī)學(xué)和市場營銷以及其他應(yīng)用極為重要。一種工作模型是在高維環(huán)境中采用專家模型的混合。這涉及選擇變量,潛在因素及其相互作用以進(jìn)行聚類,并分別進(jìn)行處理分配,這通常會導(dǎo)致復(fù)雜的大規(guī)模非凸優(yōu)化問題。了解用于此類統(tǒng)計(jì)模型的算法和方法在智力上具有挑戰(zhàn)性,并且在實(shí)踐中很重要。

深度學(xué)習(xí)(將在3.7節(jié)中進(jìn)一步討論)可以看作是一類現(xiàn)代的高維非參數(shù)模型,在許多機(jī)器學(xué)習(xí)問題中都取得了巨大的成功。已經(jīng)針對諸如此類的大規(guī)模非凸優(yōu)化問題開發(fā)了許多啟發(fā)式算法,例如具有動量的隨機(jī)梯度方法。但是,關(guān)于算法收斂和統(tǒng)計(jì)特性的理論很少。這阻礙了我們對問題的理解以及對那些需要關(guān)聯(lián)和因果研究的學(xué)科科學(xué)(如經(jīng)濟(jì)學(xué)和社會學(xué))的成功應(yīng)用。在最壞的情況下,這些高維優(yōu)化目標(biāo)函數(shù)的情況非常嚇人,包括指數(shù)級數(shù)量的局部最小值,但在大多數(shù)典型情況下對統(tǒng)計(jì)問題是良性的。理解所使用算法的統(tǒng)計(jì)屬性(與經(jīng)典統(tǒng)計(jì)中的全局最小值相反)對于大數(shù)據(jù)的統(tǒng)計(jì)實(shí)踐非常重要。

混合模型和深度學(xué)習(xí)算法只是統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家在分析高維非凸優(yōu)化問題的統(tǒng)計(jì)和算法屬性方面面臨的新挑戰(zhàn)的兩個(gè)實(shí)例。其他示例包括Z2同步化、矩陣完成和解決許多工程問題中的二次系統(tǒng)。概率工具和統(tǒng)計(jì)模型在理解典型案例的算法復(fù)雜性以及所得基于算法的對象的統(tǒng)計(jì)屬性方面起著至關(guān)重要的作用。

3.7 深度學(xué)習(xí)

今天,似乎有一種對深度學(xué)習(xí)的熱情的海嘯;參見LeCun,Bengio,and Hinton(2015)。由于該技術(shù)在某些圖像分類和自然語言處理任務(wù)中已達(dá)到超人的性能,因此,現(xiàn)在正投入大量資金來更廣泛地部署該技術(shù)。媒體宣傳了關(guān)于在其它信息處理任務(wù)中開發(fā)超人性能時(shí)可能出現(xiàn)的技術(shù)未來的猜測。伴隨著這股熱情的浪潮對統(tǒng)計(jì)領(lǐng)域提出了巨大的挑戰(zhàn),因?yàn)檩p信的媒體報(bào)道促使許多非統(tǒng)計(jì)愛好者相信,你不再需要統(tǒng)計(jì)了。這種信念是錯誤的;大量的深度學(xué)習(xí)炒作是基于前瞻性推測,而數(shù)百年來的統(tǒng)計(jì)數(shù)據(jù)卻取得了堅(jiān)實(shí)的成果,其中一些成就重塑了地球上的生活,例如公共衛(wèi)生和農(nóng)業(yè)。盡管如此,統(tǒng)計(jì)人員應(yīng)該盡其所能來提高深度學(xué)習(xí)的研究質(zhì)量,就像他們致力于改善其他領(lǐng)域的研究一樣。

深度學(xué)習(xí)的成功源于對機(jī)器學(xué)習(xí)通用任務(wù)框架的持續(xù)使用。在這種框架下,人們被賦予了標(biāo)簽化的訓(xùn)練和測試數(shù)據(jù),并且試圖通過人們想要的任何設(shè)備來改進(jìn)預(yù)測模型,并通過測試集預(yù)測誤差來對所提出的模型進(jìn)行評分。通過反復(fù)試驗(yàn),逐漸提高了性能。無需理論指導(dǎo)。

統(tǒng)計(jì)學(xué)家對深度學(xué)習(xí)研究人員的經(jīng)驗(yàn)成功和經(jīng)驗(yàn)態(tài)度的反應(yīng)不應(yīng)是對統(tǒng)計(jì)理論的布道式宣講。統(tǒng)計(jì)研究人員應(yīng)該參與深度學(xué)習(xí)人員當(dāng)前正在做的事情,并提出建設(shè)性的可操作建議,以改善當(dāng)前相關(guān)任務(wù)和數(shù)據(jù)集的實(shí)際性能。

盡管深度學(xué)習(xí)/公共任務(wù)框架范例是成功的,但它也面臨著巨大的挑戰(zhàn),而統(tǒng)計(jì)學(xué)研究可能會有所幫助,就像統(tǒng)計(jì)學(xué)研究已經(jīng)能夠在許多其他領(lǐng)域?yàn)檠芯孔龀鲐暙I(xiàn)一樣。挑戰(zhàn)包括:

1. 深度學(xué)習(xí)研究是毀滅性的昂貴?,F(xiàn)在正在使用1800萬個(gè)cpu小時(shí)并專用于500+gpu數(shù)月撰寫論文。

2. (和1相關(guān))標(biāo)準(zhǔn)算法(例如,隨機(jī)梯度下降)收斂速度非常慢。

3. 該方法需要大量數(shù)據(jù),而大多數(shù)科學(xué)和工程研究人員永遠(yuǎn)不會擁有這些數(shù)據(jù),該領(lǐng)域的趨勢是向更大的數(shù)據(jù)需求擴(kuò)展。

統(tǒng)計(jì)人員可以通過改善以上三個(gè)核心問題中的任何一個(gè)來為深度學(xué)習(xí)的進(jìn)步做出貢獻(xiàn),所有這些都涉及統(tǒng)計(jì)人員的核心專業(yè)知識。實(shí)驗(yàn)設(shè)計(jì)、隨機(jī)線性代數(shù)、新穎的統(tǒng)計(jì)訓(xùn)練算法都在這項(xiàng)工作中占有一席之地。

4. 專業(yè)文化與社區(qū)責(zé)任

統(tǒng)計(jì)學(xué)作為一門獨(dú)立學(xué)科的建立與19世紀(jì)初的科學(xué)發(fā)展緊密結(jié)合在一起(例如,達(dá)爾文的進(jìn)化論、農(nóng)業(yè)設(shè)計(jì))。進(jìn)行了基礎(chǔ)數(shù)學(xué)工作,以實(shí)現(xiàn)對經(jīng)驗(yàn)上有用的諸如最大似然方法的特性的概括和研究。在最初的發(fā)展之后的幾十年中,該領(lǐng)域與這些特殊的數(shù)學(xué)發(fā)展保持一致,并且與實(shí)踐的聯(lián)系排在了后排。引用喬治·博克斯(George Box)的1976年費(fèi)舍爾演講:

一群人可以保持相當(dāng)?shù)目鞓?,玩弄一個(gè)可能曾經(jīng)有意義的問題,并提出永遠(yuǎn)不會暴露在危險(xiǎn)的實(shí)用性測試的解決方案。他們喜歡在會議上互相閱讀論文,而且他們通常很不冒犯。但是,我們必定要遺憾的是,寶貴的人才在歷史上可以被善加利用的時(shí)期就被浪費(fèi)了。

—— George Box(1976)

在過去的幾十年中,我們已經(jīng)開始通過跨學(xué)科研究和一般的應(yīng)用統(tǒng)計(jì)來回歸領(lǐng)域根源 (Cleveland,2001),但是變革的步伐并未跟上快速發(fā)展的以數(shù)據(jù)為中心的世界。

為了使該行業(yè)在數(shù)據(jù)科學(xué)及其他領(lǐng)域中發(fā)揮領(lǐng)導(dǎo)作用,需要更快地進(jìn)行文化變革。正如 Breiman (2001) 雄辯地指出:

使用統(tǒng)計(jì)建模從數(shù)據(jù)中得出結(jié)論有兩種區(qū)域性。一種假設(shè)數(shù)據(jù)是由給定的隨機(jī)數(shù)據(jù)模型生成的。另一種使用算法模型,并將數(shù)據(jù)機(jī)制視為未知。統(tǒng)計(jì)界幾乎毫無例外地一直致力于使用數(shù)據(jù)模型。這種承諾導(dǎo)致了不相關(guān)的理論及可疑的結(jié)論,并且使統(tǒng)計(jì)學(xué)家無法研究大量有趣的當(dāng)前問題。無論是在理論上還是在實(shí)踐上,算法建模都在統(tǒng)計(jì)領(lǐng)域之外迅速發(fā)展。它既可以用于大型復(fù)雜數(shù)據(jù)集,也可以用作較小數(shù)據(jù)集上數(shù)據(jù)建模的更準(zhǔn)確和更有意義的替代方法。如果我們作為一個(gè)領(lǐng)域的目標(biāo)是使用數(shù)據(jù)來解決問題,那么我們需要擺脫對數(shù)據(jù)模型的排他性依賴,而采用一套更加多樣化的工具。

—— Breiman (2001)

問題不在于隨機(jī)模型或生成模型本身。如果此類模型通過經(jīng)驗(yàn)證據(jù)產(chǎn)生實(shí)際影響,則應(yīng)予以贊揚(yáng),尤其是如果這些模型在其構(gòu)造中考慮了領(lǐng)域知識并具有計(jì)算上可行的算法。這樣的模型也是有用且至關(guān)重要的,特別是對于研究和理解經(jīng)驗(yàn)上成功的、并且在為穩(wěn)健而在多類生成模型下優(yōu)先研究的算法/方法。但是,在實(shí)踐中,通常情況并非如此,如果沒有經(jīng)驗(yàn)支持,這種方法就非常成問題。

雖然數(shù)學(xué),計(jì)算和統(tǒng)計(jì)原理對于理解統(tǒng)計(jì)和數(shù)據(jù)科學(xué)程序的操作特性必不可少,但要想解決現(xiàn)實(shí)世界中的問題,就必須沉浸在相關(guān)的領(lǐng)域。引用 George Box 在 1976 年的菲舍爾演講中所說的:“需要在理論和實(shí)踐之間取得適當(dāng)?shù)钠胶?,最重要的是,統(tǒng)計(jì)學(xué)家必須學(xué)習(xí)如何成為優(yōu)秀的科學(xué)家及必須通過經(jīng)驗(yàn)和榜樣才能形成的人才?!?/span>

我們的專業(yè)人士必須認(rèn)識到,在新時(shí)代,我們的主要職責(zé)是開發(fā)統(tǒng)計(jì)和數(shù)據(jù)科學(xué)中的算法/方法和相關(guān)理論,以滿足對科學(xué),工程學(xué)和社會產(chǎn)生最大影響的數(shù)據(jù)分析需求。我們需要一種新的文化,在這種文化中,新一代的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家將受到培訓(xùn)并受到鼓勵,以擁抱新的現(xiàn)實(shí)。為此,我們需要所有利益相關(guān)者,包括學(xué)術(shù)院系,專業(yè)協(xié)會和資助機(jī)構(gòu),共同努力,實(shí)現(xiàn)急劇的文化變革。

4.1 學(xué)術(shù)院系

學(xué)術(shù)成就是許多學(xué)術(shù)院系當(dāng)前任期和晉升標(biāo)準(zhǔn)的一部分。但是,學(xué)術(shù)成就的評估傳統(tǒng)上一直側(cè)重于本領(lǐng)域公認(rèn)的期刊上的出版物數(shù)量,而這種評估的重點(diǎn)過于狹窄,與我們領(lǐng)域的當(dāng)前轉(zhuǎn)變不符。評價(jià)中過分強(qiáng)調(diào)出版物的數(shù)量也不利于其健康。學(xué)術(shù)成就評估應(yīng)強(qiáng)調(diào)質(zhì)量以及工作對統(tǒng)計(jì)實(shí)踐、領(lǐng)域科學(xué)和整個(gè)社會的影響。除期刊出版物外,我們還應(yīng)使用更廣泛的指標(biāo)來評估學(xué)術(shù)成就,包括對我們的研究體系,基礎(chǔ)設(shè)施以及對領(lǐng)域科學(xué)和整個(gè)社會的貢獻(xiàn)的可衡量的影響。Waller(2018)提供了有關(guān)數(shù)據(jù)科學(xué)相關(guān)研究在學(xué)術(shù)院系的文獻(xiàn)記錄和評估的建議,很明顯,社區(qū)需要立即采取集體行動。

聘請多元化的教師對于我們職業(yè)的轉(zhuǎn)變至關(guān)重要。評估潛在的新員工帶來了巨大的挑戰(zhàn),因?yàn)樗鼜母旧仙婕皩ξ磥碛绊懙念A(yù)測。傳統(tǒng)上準(zhǔn)備好的學(xué)生呈現(xiàn)出較低的風(fēng)險(xiǎn)和更確定的軌跡。學(xué)術(shù)院系需要積極招募和培養(yǎng)從我們重新構(gòu)想的博士課程中產(chǎn)生的新一代學(xué)生。并減少風(fēng)險(xiǎn)規(guī)避。多樣性起著關(guān)鍵作用—未來成功的統(tǒng)計(jì)教授帶頭人必須反映多樣性的許多方面,包括知識多樣性。這需要協(xié)調(diào)一致的長期努力(在聘用前后),而我們的領(lǐng)域在過去并未做到這一點(diǎn)。

4.2 專業(yè)領(lǐng)導(dǎo)

我們呼吁更多的統(tǒng)計(jì)學(xué)家成為我們行業(yè)的領(lǐng)導(dǎo)者。統(tǒng)計(jì)領(lǐng)域的領(lǐng)導(dǎo)者需要做更多的工作,以將這一領(lǐng)域推廣到廣大的科學(xué)界和公共領(lǐng)域。這項(xiàng)工作以及系、校園和我們自己的專業(yè)協(xié)會中的領(lǐng)導(dǎo)角色,應(yīng)該是我們專業(yè)中高級人員評估標(biāo)準(zhǔn)的關(guān)鍵組成部分。

統(tǒng)計(jì)學(xué)專業(yè)協(xié)會需要成為更有影響力的統(tǒng)計(jì)工作的有力推動者,并在統(tǒng)計(jì)學(xué)家/數(shù)據(jù)科學(xué)家,研究人員與其他社會以及私營和公共部門的科學(xué)家之間架起橋梁。我們專業(yè)協(xié)會的旗艦期刊需要擴(kuò)大其范圍,并有意識地從傳統(tǒng)固有的研究領(lǐng)域轉(zhuǎn)向新的數(shù)據(jù)科學(xué)研究。統(tǒng)計(jì)人員的領(lǐng)導(dǎo)和溝通培訓(xùn)嚴(yán)重不足,我們的組織應(yīng)該在這方面有所作為。這種培訓(xùn)還應(yīng)為統(tǒng)計(jì)學(xué)家為跨學(xué)科研究團(tuán)隊(duì)的領(lǐng)導(dǎo)做好準(zhǔn)備。諸如獎項(xiàng)和研究金之類的榮譽(yù)應(yīng)反映出對統(tǒng)計(jì)學(xué)的廣泛看法,不僅要表彰傳統(tǒng)的學(xué)術(shù)貢獻(xiàn),還應(yīng)表彰領(lǐng)導(dǎo)才能、計(jì)算成就以及更廣泛的科學(xué)或領(lǐng)域貢獻(xiàn)。為了反映這種轉(zhuǎn)變,社會需要獲得更多的獎項(xiàng)。

全國和國際統(tǒng)計(jì)學(xué)會在大學(xué)和研究生層次的統(tǒng)計(jì)學(xué)課程的開發(fā)和重新構(gòu)想中可以發(fā)揮更大的作用。它們自然也可以幫助在學(xué)術(shù)界、工業(yè)界和公共部門之間架起橋梁。聯(lián)合統(tǒng)計(jì)會議是傳統(tǒng)的聚會場所,各行各業(yè)的統(tǒng)計(jì)學(xué)家都可以聯(lián)系到那里,還有很多工作要做。例如,在數(shù)據(jù)科學(xué)領(lǐng)域建立更廣泛,更深入的行業(yè)-學(xué)術(shù)界合作伙伴關(guān)系可以極大地促進(jìn)數(shù)據(jù)科學(xué)時(shí)代的統(tǒng)計(jì)研究和教育,但是目前這通常發(fā)生在單位級別。專業(yè)協(xié)會可以幫助促進(jìn)聯(lián)合體一級的努力。

4.3 資助機(jī)構(gòu)

NSF 在傳統(tǒng)研究資金中扮演著不可替代的角色,重點(diǎn)放在創(chuàng)新學(xué)科研究上,這為研究界提供了很好的服務(wù)。我們建議NSF的統(tǒng)計(jì)計(jì)劃繼續(xù)促進(jìn)資助知識多樣性。如報(bào)告前面所述,數(shù)據(jù)科學(xué)時(shí)代的許多研究領(lǐng)域都面臨著重大挑戰(zhàn)和機(jī)遇。資金的增加對于以下方面的發(fā)展至關(guān)重要:空間主題數(shù)據(jù)分析、可解釋的統(tǒng)計(jì)學(xué)習(xí)模型、個(gè)性化和集成推薦系統(tǒng)、時(shí)空數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和因果推理的集成、預(yù)測的穩(wěn)健性和穩(wěn)定性等/預(yù)測和推論、數(shù)據(jù)隱私和公平性、基于代理的模型、約束優(yōu)化、實(shí)驗(yàn)設(shè)計(jì)以及高效的深度學(xué)習(xí)算法。

NSF 統(tǒng)計(jì)研究和教育的資金主要來自數(shù)學(xué)科學(xué)部(DMS)。NSF預(yù)算的增長跟不上科學(xué)和工程界的增長,特別是在通貨膨脹調(diào)整之后。這個(gè)問題在統(tǒng)計(jì)計(jì)劃中最為明顯和嚴(yán)重。但是,聯(lián)邦對基礎(chǔ)研究和勞動力的投資對于我們專業(yè)的未來仍然至關(guān)重要。統(tǒng)計(jì)計(jì)劃需要獲得更多的資金,以跟上學(xué)科的發(fā)展和進(jìn)步,而統(tǒng)計(jì)研究的資金需要超出一項(xiàng)計(jì)劃,因?yàn)榻y(tǒng)計(jì)創(chuàng)新在科學(xué)的廣泛研究和教育領(lǐng)域中發(fā)揮著越來越重要的作用。例如,統(tǒng)計(jì)人員正在擁抱NSF的10大構(gòu)想,尤其是通過利用21世紀(jì)科學(xué)與工程(HDR)的數(shù)據(jù)革命。

為了加速統(tǒng)計(jì)數(shù)據(jù)的轉(zhuǎn)換并造福社會,NSF和NIH等政府資助機(jī)構(gòu)需要加大投資,以支持將統(tǒng)計(jì)作為科學(xué)技術(shù)發(fā)展的重要組成部分的研究項(xiàng)目。美國國立衛(wèi)生研究院資助的許多項(xiàng)目都涉及統(tǒng)計(jì)學(xué)家,它們通常扮演著支持(但重要)的角色。NSF的一種成功的資助模式是“數(shù)據(jù)科學(xué)原理跨學(xué)科研究(TRIPODS)”,其中統(tǒng)計(jì)學(xué)家和其他研究人員通過集成研究和培訓(xùn)活動的全面參與有助于發(fā)展數(shù)據(jù)科學(xué)的理論基礎(chǔ)。DMS/NIGMS聯(lián)合倡議、旨在支持生物學(xué)和數(shù)學(xué)科學(xué)界的研究(DMS/NIGMS)、DMS/NLM關(guān)于生物醫(yī)學(xué)研究通用數(shù)據(jù)科學(xué)方法的聯(lián)合倡議(DMS/NLM)和威脅檢測算法(ATD)也是此類籌資機(jī)制的典范。更多的此類資助機(jī)會將鼓勵統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家在一種新文化中發(fā)展研究計(jì)劃,這種文化對有影響的工作大加贊賞。正如該報(bào)告前面所討論的,具有影響力的研究可能來自統(tǒng)計(jì)學(xué)家對領(lǐng)域科學(xué)的沉浸和充分參與,例如天文學(xué)、預(yù)測化學(xué)、城市規(guī)劃和精密醫(yī)學(xué)等。資助包括統(tǒng)計(jì)學(xué)家和其他領(lǐng)域科學(xué)家在內(nèi)的平等研究伙伴的研究團(tuán)隊(duì),將導(dǎo)致跨領(lǐng)域的創(chuàng)新。資助機(jī)構(gòu)和ASA等全國協(xié)會應(yīng)共同努力,以確保統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的研究人員充分了解這些機(jī)會,并有機(jī)會及時(shí)向這些計(jì)劃提供反饋。

我們還建議NSF和其他資助機(jī)構(gòu)為初級和中級研究人員提供專門的支持,使其介入領(lǐng)域科學(xué),這可能與學(xué)校學(xué)術(shù)假和其他形式的教師休假關(guān)聯(lián)。由NSF資助的研究機(jī)構(gòu)和中心可以促進(jìn)此類活動,但是需要新的機(jī)制來確保此類項(xiàng)目的成果評估著重于潛力和影響。政府資助可以激勵更多的統(tǒng)計(jì)學(xué)家將投入到新興的數(shù)據(jù)科學(xué)研究領(lǐng)域。

5. 博士教育


本部分考慮了社區(qū)在未來10到20年內(nèi)可能采取的步驟,以確保統(tǒng)計(jì)學(xué)領(lǐng)域的博士教育為下一代領(lǐng)導(dǎo)者做好準(zhǔn)備,以確保按照上面概述的方向轉(zhuǎn)變我們的學(xué)科。雖然現(xiàn)有博士學(xué)位有很多優(yōu)點(diǎn)和益處。我們認(rèn)為這些計(jì)劃需要進(jìn)行重大修改和重新思考,以確保畢業(yè)生能夠從事數(shù)據(jù)科學(xué),同時(shí)保持卓越的統(tǒng)計(jì)研究水平。

在本科層次上,針對統(tǒng)計(jì)統(tǒng)計(jì)學(xué)本科課程的新課程指南 和數(shù)據(jù)科學(xué) 強(qiáng)調(diào)了統(tǒng)計(jì)基礎(chǔ)的重要性,并伴隨著在計(jì)算、數(shù)據(jù)技術(shù)、領(lǐng)域知識和倫理方面更深入和更堅(jiān)實(shí)的基礎(chǔ)。在這些文件的基礎(chǔ)上,我們在這里專注于博士教育。

首先,博士是一個(gè)研究學(xué)位,博士課程應(yīng)側(cè)重于培養(yǎng)學(xué)生從事統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的研究。最可持續(xù)的培訓(xùn)模型或增長模型是幫助他們學(xué)習(xí)如何學(xué)習(xí),從而使他們在領(lǐng)域和數(shù)據(jù)挑戰(zhàn)不斷發(fā)展的過程中能夠靈活敏捷地進(jìn)行智力適應(yīng)和更新其知識和技能。我們的畢業(yè)生應(yīng)該能夠通過創(chuàng)建新穎的統(tǒng)計(jì)對象(例如模型、方法、可視化對象)或?qū)Υ祟悓ο筮M(jìn)行分析,為解決以實(shí)際數(shù)據(jù)為中心的問題做出貢獻(xiàn)。本節(jié)中的其余討論將服務(wù)于此目標(biāo)。

5.1 課程

我們相信,大多數(shù)大學(xué)的標(biāo)準(zhǔn)課程不足以滿足學(xué)生的需求。進(jìn)入學(xué)術(shù)工作市場和非學(xué)術(shù)或準(zhǔn)學(xué)術(shù)工作市場(行業(yè)、準(zhǔn)學(xué)術(shù)、政府等)的學(xué)生越來越被要求能夠勝任各種主題和技能(例如,數(shù)據(jù)技術(shù))。例如 Nolan and Temple Lang(2014) 全面介紹了許多現(xiàn)代數(shù)據(jù)類型和有效處理這些數(shù)據(jù)類型的計(jì)算技術(shù)。但是,大多數(shù)學(xué)生沒有接受過這些技能的培訓(xùn),也沒有接受過迅速采用新技能的更抽象的技能的培訓(xùn)。

什么應(yīng)該構(gòu)成博士學(xué)位的基礎(chǔ)統(tǒng)計(jì)課程以改變我們的領(lǐng)域?我們認(rèn)為,雖然概率和推斷是傳統(tǒng)統(tǒng)計(jì)的關(guān)鍵基礎(chǔ),但當(dāng)今統(tǒng)計(jì)領(lǐng)域的博士畢業(yè)生需要具備更深厚的計(jì)算和數(shù)據(jù)技術(shù)、通信、數(shù)據(jù)清理、定量批判性思維、協(xié)作技能、適當(dāng)?shù)膯栴}制定和跨學(xué)科科學(xué)的技能。統(tǒng)計(jì)培訓(xùn)需要涵蓋整個(gè)“數(shù)據(jù)生命周期”。同時(shí),我們不建議擴(kuò)展必修課程。如果有的話,對于許多計(jì)劃而言,需要提供更廣泛的選修課程,而不是必修課程。

我們認(rèn)為一定的基本統(tǒng)計(jì)、計(jì)算和數(shù)學(xué)水平是前提。除此之外,我們認(rèn)為以下領(lǐng)域是“核心”:

  • 關(guān)鍵的統(tǒng)計(jì)基礎(chǔ),包括概念和哲學(xué)基礎(chǔ)(包括健壯性和穩(wěn)定性考慮)

  • 計(jì)算:編程、可重復(fù)性/工作流、數(shù)據(jù)技術(shù)、基礎(chǔ)設(shè)施/數(shù)據(jù)庫/云計(jì)算、數(shù)據(jù)管理、“wrangling/munging”

  • 交流:為技術(shù)人員和非技術(shù)受眾的寫作、演示、可視化、提出和解決問題的實(shí)踐以及領(lǐng)導(dǎo)力發(fā)展

  • 以數(shù)據(jù)為中心的批判性思維能力:維持統(tǒng)計(jì)分析的各個(gè)階段與潛在的科學(xué)或商業(yè)問題以及目標(biāo)受眾之間的聯(lián)系;知道并傳達(dá)合理和不合理假定之間的差異;嚴(yán)格評估數(shù)據(jù)的來源以及推論、評估和結(jié)論的適當(dāng)性

  • 數(shù)據(jù)建模和評估:例如,事后分析包括 EDA 和 PQR-S 的驗(yàn)證:P 代表人群,Q 代表問題,R 代表代表性,S 代表審查

  • 抽樣和實(shí)驗(yàn)設(shè)計(jì)基礎(chǔ)

  • 因果推斷

  • 度量

  • 倫理:人類主題,隱私/機(jī)密,算法偏見

  • 協(xié)作經(jīng)驗(yàn)/技能(與前面的溝通技巧重疊)

一些課程計(jì)劃將通過逐漸進(jìn)化過程朝著更廣闊的視野發(fā)展。其他的計(jì)劃則需要采取更激進(jìn)的方法。對于本科生水平,Cobb (2015) 考慮了后者的可能性。不需要所有博士學(xué)位。統(tǒng)計(jì)學(xué)中的所有博士課程都沒有必要考慮相同的物質(zhì)基礎(chǔ)。但是,有一份藍(lán)圖(或一套藍(lán)圖)將有所幫助,并且是 Deborah Nolan 組織的后續(xù)“十字路口的研究生統(tǒng)計(jì)學(xué)教育”研討會的目標(biāo)之一。

幾個(gè)限制因素使得難以在如此廣泛的領(lǐng)域中提供培訓(xùn)。首先,大多數(shù)大學(xué)都不想犧牲他們認(rèn)為是基礎(chǔ)的課程和經(jīng)驗(yàn)。其次,似乎很多院系太小而無法在如此多樣的專業(yè)范圍內(nèi)提供適當(dāng)?shù)呐嘤?xùn),并且由于學(xué)生之間的競爭,各院系之間往往有交流資源的阻礙因素。除了對現(xiàn)有課程進(jìn)行改造或現(xiàn)代化之外,博士課程還應(yīng)考慮非傳統(tǒng)的學(xué)習(xí)機(jī)制,如塊狀課程、沉浸式體驗(yàn)、實(shí)驗(yàn)室輪換和可解決一個(gè)或多個(gè)這些限制的共享課程技術(shù)。但是,這些替代方案在獲取、認(rèn)證、質(zhì)量標(biāo)準(zhǔn)、可持續(xù)性等方面提出了尚待解決的其他問題,NSF、專業(yè)協(xié)會和其他機(jī)構(gòu)可能可以改善這些問題。許多計(jì)劃已經(jīng)為學(xué)生提供了“軌道”,我們認(rèn)為所有計(jì)劃都應(yīng)朝這個(gè)方向發(fā)展。在未來的討論中可以考慮核心培訓(xùn)的后續(xù)輪換的“醫(yī)學(xué)院模式”。

由于缺乏對這些學(xué)科的深入了解以及對某一領(lǐng)域文化的了解,統(tǒng)計(jì)學(xué)家可能難以與其他科學(xué)領(lǐng)域的研究人員進(jìn)行有效合作。解決這個(gè)問題的一個(gè)辦法是為希望成為在科學(xué)領(lǐng)域有深度投入的應(yīng)用統(tǒng)計(jì)人員的人設(shè)立研究生或博士后獎學(xué)金。這將使這些統(tǒng)計(jì)人員能夠參加其合作者部門的課程(或從事其他類型的培訓(xùn)),甚至能夠參加該部門,以更好地了解該學(xué)科的文化??梢耘c有關(guān)人員舉行年度會議。實(shí)際上,愛荷華州立大學(xué)已經(jīng)有這樣一個(gè)共同專業(yè)博士課程程序。

5.2 誰將是統(tǒng)計(jì)學(xué)博士計(jì)劃的理想申請人

二十年前,本科生在統(tǒng)計(jì)學(xué)專業(yè)學(xué)習(xí)的情況極為罕見。成功的博士申請人通常擁有數(shù)學(xué)或物理學(xué)的本科學(xué)位,或者較少的是在其他基于經(jīng)驗(yàn)的領(lǐng)域,如經(jīng)濟(jì)學(xué),如果他們有足夠的數(shù)學(xué)背景(通常達(dá)到一年的數(shù)學(xué)分析水平))。有趣的是,盡管統(tǒng)計(jì)學(xué)逐漸成為越來越受歡迎的本科專業(yè),但這種結(jié)構(gòu)似乎變化很小。與科學(xué)的其他學(xué)科相比,顯然不愿意錄取主修統(tǒng)計(jì)學(xué)的本科生進(jìn)入統(tǒng)計(jì)學(xué)博士計(jì)劃,這是不尋常和不幸的。

為了實(shí)現(xiàn)本文中概述的轉(zhuǎn)型目標(biāo),我們需要招收更多具有計(jì)算,寫作,溝通和領(lǐng)導(dǎo)才能背景的本科生。應(yīng)鼓勵具有較強(qiáng)數(shù)學(xué)技能的本科生加入我們的課程,但他們還需要這些額外的職業(yè)成功因素才能獲得有效的博士學(xué)位。許多本科生統(tǒng)計(jì)和數(shù)據(jù)科學(xué)課程已經(jīng)調(diào)整了他們的數(shù)學(xué)要求。為打算申請博士課程的本科專業(yè)創(chuàng)建一個(gè)獨(dú)特的課程可能有助于解決這個(gè)問題(這通常通過數(shù)學(xué)的輔修專業(yè)或雙專業(yè)進(jìn)行)。重新制定博士計(jì)劃的第一學(xué)期課程提供基于數(shù)學(xué)準(zhǔn)備的多種途徑,可能是使研究生群體多樣化的另一種方法。

擴(kuò)大統(tǒng)計(jì)范圍的一種方法是招收更多種類的學(xué)生。上面討論的專用軌道類型可能會適應(yīng)這種增加的異質(zhì)性。但是,大多數(shù)計(jì)劃仍會希望所有學(xué)生完成一些核心理論課程,這可能對數(shù)學(xué)或計(jì)算機(jī)背景較弱的學(xué)生構(gòu)成挑戰(zhàn)。我們必須找到一種方法,讓那些在核心領(lǐng)域準(zhǔn)備較少而進(jìn)入計(jì)劃的學(xué)生適應(yīng)。

5.3 提供更有效的培訓(xùn)

可以說,博士計(jì)劃在培養(yǎng)高素質(zhì)研究人員方面非常成功,但他們在培養(yǎng)高素質(zhì)教師以滿足對統(tǒng)計(jì)和數(shù)據(jù)科學(xué)課程日益增長的需求方面通常不太成功。培訓(xùn)學(xué)生如何有效教學(xué)很少是研究生課程的一部分。然而,有效的指導(dǎo)對于培訓(xùn)下一代統(tǒng)計(jì)學(xué)家以及經(jīng)驗(yàn)豐富的各個(gè)實(shí)質(zhì)性領(lǐng)域的研究人員至關(guān)重要。提供有用的、引人入勝且相關(guān)的指導(dǎo)對于幫助經(jīng)驗(yàn)研究者理解統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)對回答科學(xué)問題的關(guān)鍵價(jià)值至關(guān)重要。提高教學(xué)能力需要清晰的思想交流,應(yīng)該具有增加研究人員清楚地傳播其研究成果的能力的額外好處。為了滿足把統(tǒng)計(jì)轉(zhuǎn)換成以實(shí)踐為中心的需求,有效的教師需要具有解決實(shí)際數(shù)據(jù)問題的實(shí)踐經(jīng)驗(yàn),才能在課堂上教授此類實(shí)踐技能。即使對于大多數(shù)經(jīng)過理論訓(xùn)練的統(tǒng)計(jì)學(xué)家成為教授之后,要獲得這樣的經(jīng)驗(yàn)還為時(shí)不晚,而且實(shí)際上是必要的。

在明確培訓(xùn)博士生的溝通和演講技能(上文討論)和支持教學(xué)技能發(fā)展之間,也存在著其他協(xié)同作用。博士交流課程可以保留一些明確的教學(xué)重點(diǎn)。但是即使沒有這一點(diǎn),我們也希望溝通技巧的發(fā)展將對教學(xué)能力產(chǎn)生積極的溢出效應(yīng)。

也將歡迎在大學(xué)一級提出解決方案的創(chuàng)造性解決方案,特別是如果將示范方案的制定與材料傳播計(jì)劃結(jié)合起來,以便其他機(jī)構(gòu)更容易采用這種努力;參見例如美國統(tǒng)計(jì)協(xié)會/美國數(shù)學(xué)協(xié)會的統(tǒng)計(jì)教師準(zhǔn)備指南

5.4 專業(yè)和NSF在研究生教育中的作用

專業(yè)和NSF在理解和指導(dǎo)這些選擇中應(yīng)該扮演什么角色?收集關(guān)于統(tǒng)計(jì)課程的主要特點(diǎn)和各大學(xué)培訓(xùn)方法的數(shù)據(jù)的激勵措施和資源將具有很高的效用。更有用的是嘗試了解這些培訓(xùn)模式與隨后的職業(yè)軌跡或其他感興趣的結(jié)果之間的聯(lián)系。這將需要額外的并且可能需要更多的勞動密集型數(shù)據(jù)收集。此外,創(chuàng)建基礎(chǔ)設(shè)施將是至關(guān)重要的貢獻(xiàn),因?yàn)樗梢源_保這不僅是“一次性”的努力,而且可能導(dǎo)致持續(xù)進(jìn)行的自我評估的努力。

NSF可以支持講習(xí)班、訓(xùn)練營和暑期學(xué)校課程,提供課程開發(fā)和教學(xué)的最佳實(shí)踐培訓(xùn)。將這些類型的培訓(xùn)機(jī)會與旨在以高級方法培訓(xùn)學(xué)生的培訓(xùn)機(jī)會結(jié)合在一起的想法提供了一種特別有創(chuàng)意和協(xié)同作用的選擇。例如,可以作為暑期學(xué)院的一部分提供培訓(xùn),該培訓(xùn)既為學(xué)生或講師提供了在方法領(lǐng)域的專業(yè)知識,又提供了培訓(xùn)和材料以支持他們回去向所在機(jī)構(gòu)的其他人教授所學(xué)到的方法。

嚴(yán)謹(jǐn)?shù)难芯亢蛯ρ芯可逃牟粩喾此紝⒋_保我們培養(yǎng)下一代統(tǒng)計(jì)學(xué)家成為數(shù)據(jù)科學(xué)時(shí)代的領(lǐng)導(dǎo)者。鑒于統(tǒng)計(jì)領(lǐng)域的重點(diǎn)是通過對數(shù)據(jù)的分析來了解世界,讓我們感到震驚的是,我們很少嘗試了解自己的專業(yè)以及我們通過數(shù)據(jù)收集和分析有效地培訓(xùn)學(xué)生的能力。但是,這項(xiàng)活動很少有激勵措施。我們應(yīng)該持續(xù)評估至少某些選擇的影響,而不是一味地投入有關(guān)最佳課程和最佳實(shí)踐的辯論。為了支持這種自我評估,NSF可以為下列研究創(chuàng)造資助機(jī)會:考察課程的批判式選擇、資格考試、課程計(jì)劃結(jié)構(gòu)、培訓(xùn)機(jī)會、教學(xué)方法等。這些評估的范圍覆蓋從數(shù)據(jù)收集工作(職業(yè)道路、工作滿意度等)到關(guān)于應(yīng)屆畢業(yè)生感到缺少的技能的定性研究、關(guān)于當(dāng)前培訓(xùn)實(shí)踐狀況的描述性研究,或比較不同培訓(xùn)策略有效性的隨機(jī)實(shí)驗(yàn)。

參考文獻(xiàn)

  1. Bambauer, J., Muralidhar, K. and Sarathy, R. (2014). Fools Gold: An Illustrated Critique of Differential Privacy. Vanderbilt Journal of Entertainmentand Technology Law 16, 701-755.

  2. Breiman, L. (2001). Statistical modeling: the two cultures. Statist. Sci. 16, 199-231. With comments and a rejoinder by the author.

  3. Cassel, C.-M., Sarndal, C.-E. and Wretman, J. H. a. (1977). Foundations of inference in survey sampling. Wiley-Interscience John Wiley & Sons, New York-London-Sydney Wiley Series in Probability and Mathematical Statistics.

  4. Cleveland,W.S.(2001).DataScience: an Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review 69, 21-26.

  5. Dwork, C., Hardt, M., Pitassi, T., Reingold, O. and Zemei, R. (2012). Fairness through awareness. ITCS12 Proceedings of the 3rd Innovations in Theoretical Computer Science Conference 214-226.

  6. Freedman, D. (1991). Statistical models and shoe leather. Sociological Methodologies 21 291-313.

  7. Lindsay, B. G., Kettenring, J. and Siegmund, D. O. (2004). A report on the future of statistics. Statist. Sci. 19 387-413. With comments.

  8. Lockhart, R., Taylor, J., Tibshirani, R. J. and Tibshirani, R. (2014). A significance test for the lasso. Ann. Statist. 42 413-468.

  9. Jordan, M.I. (2019). Artificial intelligence: The revolution hasn’t happened yet. Harvard Data Science Review, no. 1. https://doi.org/10.1162/ 99608f92.f06c6e61

  10. Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. Ann. Appl. Stat. 12 685-726.

  11. Mervis,J.(2019).Can a set of equations keep U.S. census data private? Science January 4.

  12. Neyman, J. (1934). On the two different aspects of the representative method: the method of stratified sampling and the method of purposive sampling. J. Roy. Statist. Soc. 97 558-625.

  13. Nolan, D. and Temple Lang, D. (2014). XML and Web Technologies for Data Sciences with R. Springer.

  14. Sarndal, C.-E., Swensson, B. and Wretman, J. (1992). Model assisted survey sampling. Springer Series in Statistics. Springer-Verlag, New York.

  15. Talagrand, M. (1994). Sharper bounds for Gaussian and empirical processes. Ann. Probab. 22, 28-76.

  16. Taylor, J. and Tibshirani, R. J. (2015). Statistical learning and selective inference. Proc. Natl. Acad. Sci. USA 112 7629-7634.

  17. Tukey, J.W. (1962). The future of data analysis. Annals of Statistics, 33, no. 1, 1-67.

  18. Waller, L. A. (2018). Documenting and evaluating data science contributions in academic promotion in departments of statistics and biostatistics. Amer. Statist. 72(1):11-19.

  19. Wender,B.A.(2017).Refining the Concept of Scientific Inference When Working with Big Data: Proceedings of a Workshop. US National Academy Report.

  20. Yu, B. (2013). Stability. Bernoulli 19, 1484-1500.

統(tǒng)計(jì)之都:專業(yè)、人本、正直的中國統(tǒng)計(jì)學(xué)社區(qū)。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
統(tǒng)計(jì)學(xué):二十一世紀(jì)的挑戰(zhàn)和機(jī)遇
以4位大牛的故事看數(shù)據(jù)科學(xué)的發(fā)展進(jìn)程!
吳喜之:作為科學(xué)的統(tǒng)計(jì)
收集整理:與數(shù)學(xué)相關(guān)專業(yè)介紹
數(shù)據(jù)科學(xué)極簡史(1962
數(shù)學(xué)與應(yīng)用數(shù)學(xué)、信息與計(jì)算科學(xué)和統(tǒng)計(jì)學(xué)哪個(gè)專業(yè)比較有前途?
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服