在今天,數(shù)據(jù)科學(xué)被定義為一個多學(xué)科領(lǐng)域,它使用科學(xué)方法、過程、算法和系統(tǒng)從數(shù)據(jù)中提取知識和見解。它的出現(xiàn)得益于各種因素的融合:學(xué)術(shù)統(tǒng)計學(xué)家的新思想,計算機(jī)科學(xué)在各個領(lǐng)域的傳播以及有利的經(jīng)濟(jì)背景。
隨著硬盤驅(qū)動器成本的不斷下降,使得企業(yè)和政府能夠存儲越來越多的數(shù)據(jù),因此需要找到新的方法來評估這些數(shù)據(jù)的價值。這促進(jìn)了新系統(tǒng)、算法和計算范例的開發(fā)。由于數(shù)據(jù)科學(xué)特別適合那些希望從大數(shù)據(jù)中學(xué)習(xí)的人,并且由于云計算的出現(xiàn),它在各個領(lǐng)域迅速傳播。
但值得注意的是,盡管大數(shù)據(jù)的日益普及是數(shù)據(jù)科學(xué)快速增長的一個因素,但不應(yīng)推斷數(shù)據(jù)科學(xué)僅適用于大數(shù)據(jù)。
在成為我們現(xiàn)在所知的領(lǐng)域的過程中,數(shù)據(jù)科學(xué)受到了學(xué)者和記者的大量批評,他們認(rèn)為它與統(tǒng)計數(shù)據(jù)沒有區(qū)別,尤其是在2010-2015期間。如果沒有統(tǒng)計學(xué)家的背景,他們之間的差異可能并不明顯。在這里,我們研究這個領(lǐng)域的起源,以更好地理解為什么它是一個獨(dú)特的學(xué)科。而且,通過參與創(chuàng)建它的人的故事來看時,這會是一個更好理解的故事,讓我們遇見推動統(tǒng)計界限的四個人:John Tukey,John Chambers,Leo Breiman和Bill Cleveland。
John Tukey:“地震的震中”
約翰圖基對數(shù)學(xué)和統(tǒng)計世界的影響是巨大的。他創(chuàng)造了“位”這個術(shù)語,并且通過他的書《探索性數(shù)據(jù)分析》和論文《Mathematics and the Picturing of Data》直接和間接地對當(dāng)今可用的大量圖形方法負(fù)責(zé)。同時也感謝他的箱形圖,并且他對FFT算法的貢獻(xiàn)也很重大。
Tukey在貝爾實驗室開發(fā)計算機(jī)統(tǒng)計方法時曾在普林斯頓大學(xué)任教,當(dāng)時他撰寫了《數(shù)據(jù)分析的未來》(1962)一書。在其中,他概述了一門關(guān)于從數(shù)據(jù)中學(xué)習(xí)的新科學(xué),敦促學(xué)術(shù)統(tǒng)計學(xué)家減少對統(tǒng)計理論的關(guān)注,并參與整個數(shù)據(jù)分析過程。闡明探索性數(shù)據(jù)分析與確認(rèn)性數(shù)據(jù)分析之間區(qū)別的重要性是建立數(shù)據(jù)科學(xué)領(lǐng)域的第一步。在論文的最后,他總結(jié)了他認(rèn)為對統(tǒng)計未來采取的必要態(tài)度。對于今天的數(shù)據(jù)科學(xué)家來說,有必要重復(fù)回顧其中的一部分:
“我們需要面對更現(xiàn)實的問題。例如,正常理論可能提供唯一的框架,其中一些問題可以簡單地或代數(shù)地解決,這可能是從正常情況開始的一個非常好的理由,但從來不是停在那里的好理由。“
“我們需要正視數(shù)據(jù)分析中有用結(jié)果的必然近似性質(zhì)?!?/p>
“我們需要面對通過特定數(shù)據(jù)分析技術(shù)收集實際經(jīng)驗結(jié)果的需求。”
“我們需要面對數(shù)據(jù)分析中迭代程序的需求?!?/p>
“我們需要在同一分析中面對指示和結(jié)論的需要?!?/p>
“我們需要放棄徒勞的希望,數(shù)據(jù)分析可以建立在像歐幾里德平面幾何(或某種形式的命題演算)這樣的邏輯演繹系統(tǒng)上,并且要正視數(shù)據(jù)分析本質(zhì)上是一種經(jīng)驗科學(xué)這一事實。 ”
John Chambers:處于十字路口的統(tǒng)計學(xué)家
和Tukey一樣,John Chambers在貝爾實驗室工作。他是S編程語言的創(chuàng)造者,后來演變?yōu)镽,這是一種在數(shù)據(jù)科學(xué)家中廣泛使用的語言。 1998年,他獲得了世界上最負(fù)盛名的軟件獎,ACM軟件系統(tǒng)獎的引用,“對于S系統(tǒng),它永遠(yuǎn)地改變了人們分析、可視化和操縱數(shù)據(jù)的方式?!?/p>
Chambers對該領(lǐng)域的影響可以追溯到他的論文《或多或少的統(tǒng)計數(shù)據(jù):未來研究的選擇(1993)》,他在其中提出了將統(tǒng)計分為兩組的想法:
更多統(tǒng)計數(shù)據(jù):“一切與從數(shù)據(jù)中學(xué)習(xí)相關(guān)的所有內(nèi)容,從第一次規(guī)劃或收集到最后一次陳述或報告”
較少的統(tǒng)計數(shù)據(jù):“在本專業(yè)范圍內(nèi)發(fā)展起來的具體統(tǒng)計方法體系——粗略地說,是由文本、期刊和博士論文定義的統(tǒng)計?!?/p>
為了補(bǔ)充一些背景,當(dāng)時統(tǒng)計學(xué)家在他們的專業(yè)知識和興趣相關(guān)的新研究領(lǐng)域中略有參與,例如專家軟件、科學(xué)可視化、混沌理論和神經(jīng)網(wǎng)絡(luò)。正如 Chambers曾寫過的,“如果統(tǒng)計學(xué)家保持冷漠,其他人就會采取行動,那么統(tǒng)計數(shù)據(jù)會失敗?!安虏掳l(fā)生了什么。
Leo Breiman:文化的轉(zhuǎn)變
著名的統(tǒng)計學(xué)家Leo Breiman在以概率論聞名的學(xué)術(shù)界工作了七年后,成為一名獨(dú)立顧問長達(dá)13年,之后他加入了加州大學(xué)伯克利分校(UC Berkeley)的統(tǒng)計學(xué)系?;氐酱髮W(xué),他憑借他的學(xué)術(shù)背景和顧問經(jīng)驗,發(fā)現(xiàn)Tukey的信息和Chambers的警告沒有得到重視。于是,學(xué)術(shù)統(tǒng)計學(xué)家繼續(xù)關(guān)注理論,并沒有參與整個數(shù)據(jù)分析過程。與此同時,其他人采取了行動。
這為他的著名論文《統(tǒng)計建模:兩種文化》(2001)提供了主題。與Chambers一樣,他將統(tǒng)計數(shù)據(jù)分為兩組:數(shù)據(jù)建模文化和算法建模文化。他進(jìn)一步指出,98%的統(tǒng)計學(xué)家來自前者,而只有2%來自后者。與此同時,算法建模文化在許多其他領(lǐng)域也成為常態(tài)。
根據(jù)Breiman的說法,這種對數(shù)據(jù)模型的關(guān)注導(dǎo)致了無關(guān)的理論和可疑的科學(xué)結(jié)論,同時使統(tǒng)計學(xué)家不能使用更合適自己的算法模型。他還認(rèn)為這是在阻止統(tǒng)計人員解決激動人心的新問題,這些問題能夠推動新一代人走向潛在的突破。
在與Leo Breiman(2001)的對話中,當(dāng)被要求向?qū)W習(xí)統(tǒng)計學(xué)的學(xué)生提供建議時,他甚至更加明確:
“在某種程度上,我很糾結(jié),因為我可能會對這些年輕的學(xué)生說,不要做統(tǒng)計,學(xué)術(shù)統(tǒng)計可能已經(jīng)迷失了方向······”
我知道在統(tǒng)計數(shù)據(jù)的使用方面,工業(yè)和政府方面發(fā)生了什么,但學(xué)術(shù)研究領(lǐng)域似乎是遙遙無期的,僅僅在抽象數(shù)學(xué)的某個分支方面有所發(fā)展。
在過去的五六年里,我已經(jīng)與機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)領(lǐng)域的人們建立了親密關(guān)系,因為他們正在對大而嚴(yán)格的預(yù)測問題進(jìn)行重要的應(yīng)用工作。他們是面向數(shù)據(jù)的,他們正在做的事情完全符合韋伯斯特的統(tǒng)計定義,但幾乎沒有一個人是通過培訓(xùn)的統(tǒng)計學(xué)家。
所以我想如果我今天給一個年輕人提供建議,我會建議他或她有些保留看法去統(tǒng)計數(shù)據(jù),但最后我可能會說,“統(tǒng)計數(shù)據(jù),要記住統(tǒng)計數(shù)據(jù)的偉大冒險正在收集和使用數(shù)據(jù)來解決有趣和重要的現(xiàn)實問題?!?/p>
數(shù)據(jù)科學(xué)的所有元素現(xiàn)在都在空氣中。
Bill Cleveland:超越統(tǒng)計數(shù)據(jù)
Bill Cleveland是印第安納州普渡大學(xué)的計算機(jī)科學(xué)家、統(tǒng)計學(xué)教授和計算機(jī)科學(xué)學(xué)院教授。他最出名的是他在數(shù)據(jù)可視化方面的工作,特別是非參數(shù)回歸和局部回歸,他在他的論文《Robust Locally Weighted Regression and Smoothing Scatterplots》(1979)中首次描述了這一點(diǎn),然后在局部加權(quán)回歸:一種通過局部擬合進(jìn)行回歸分析的方法(1988)中進(jìn)行了發(fā)展和豐富。Bill Cleveland還曾在貝爾實驗室的統(tǒng)計研究部工作,成為部門主管。
2001年,他發(fā)表了一篇名為《數(shù)據(jù)科學(xué):擴(kuò)大統(tǒng)計領(lǐng)域技術(shù)領(lǐng)域的行動計劃》的論文。他提出,大學(xué)應(yīng)該通過擴(kuò)大統(tǒng)計領(lǐng)域的6個技術(shù)領(lǐng)域來建立新的研究和教學(xué)部門。他將改變后的領(lǐng)域稱為“數(shù)據(jù)科學(xué)”。他建議在這6個領(lǐng)域之間分配部門資源,具體如下:
多學(xué)科調(diào)查(25%):在主題領(lǐng)域的集合中進(jìn)行數(shù)據(jù)分析協(xié)作。
數(shù)據(jù)模型和方法(20%):統(tǒng)計模型;模型構(gòu)建方法;基于概率推理的估計和分布方法。
數(shù)據(jù)計算(15%):硬件系統(tǒng);軟件系統(tǒng);計算算法。
教育學(xué)(15%):小學(xué)、中學(xué)、大學(xué)、研究生院,繼續(xù)教育和企業(yè)培訓(xùn)的課程規(guī)劃和教學(xué)方法。
工具評估(5%):調(diào)查實際使用的工具,調(diào)查對新工具的感知需求,以及研究開發(fā)新工具的過程。
理論(20%):數(shù)據(jù)科學(xué)的基礎(chǔ);模型和方法的一般方法,數(shù)據(jù)計算,教學(xué)和工具評估;模型和方法的數(shù)學(xué)研究,數(shù)據(jù)計算,教學(xué)和評估的數(shù)學(xué)研究。
該計劃也有意被研究實驗室和企業(yè)研究組織采用。
結(jié)論
因此,對數(shù)據(jù)科學(xué)的需求源于直覺,即解決未來的復(fù)雜問題需要分析大型、多元的數(shù)據(jù)集,而不僅僅是理論和邏輯。它源于統(tǒng)計實踐的長期演變,及其本來可以實現(xiàn)的目標(biāo)。在Tukey首次提出他的想法50多年后,他們終于成為了主流,盡管這種發(fā)展不是由于統(tǒng)計學(xué)家。
科學(xué)方法論與數(shù)據(jù)科學(xué)密不可分,因為我們不能僅依靠理論。正如Tukey所說,每次我們將數(shù)據(jù)科學(xué)應(yīng)用于新問題時,我們都會從數(shù)據(jù)分析的角度出發(fā)。因此我們需要進(jìn)行大量實驗。這就是科學(xué)方法派上用場的地方。
這里討論的四位研究人員的共同點(diǎn)是,他們參與了統(tǒng)計學(xué)在不同領(lǐng)域的應(yīng)用。這同樣適用于今天的數(shù)據(jù)科學(xué)家。從根本上說,這個領(lǐng)域由來自各種其他學(xué)科的人組成。他們中的大多數(shù)人開始在工作或?qū)W習(xí)中使用計算機(jī),最終從原來的領(lǐng)域轉(zhuǎn)向數(shù)據(jù)科學(xué)。許多學(xué)科都采用了自己版本的數(shù)據(jù)科學(xué)。只需看看涉及預(yù)測變量的術(shù)語的多樣性:特征、輸入變量、自變量,或從數(shù)據(jù)庫角度看,字段。
每當(dāng)你向數(shù)據(jù)科學(xué)家詢問他們在這個領(lǐng)域工作之前做了什么,你可能會得到一個不同的答案。 2018年9月,工作現(xiàn)場確實分析了其擁有的數(shù)萬名數(shù)據(jù)科學(xué)家的簡歷。結(jié)果顯示,平均而言,他們具有較高的教育水平,其中約20%獲得博士學(xué)位,75%獲得學(xué)士或碩士學(xué)位。他們之間的研究領(lǐng)域的多樣性是非常明顯的。計算機(jī)科學(xué)和商業(yè)/經(jīng)濟(jì)學(xué)都占22%左右,其次是數(shù)學(xué)/統(tǒng)計學(xué)(15%),自然科學(xué)(10%)和數(shù)據(jù)科學(xué)(9%)。考慮到這個領(lǐng)域的新特點(diǎn),有很大一部分?jǐn)?shù)據(jù)科學(xué)專業(yè)可以被認(rèn)為是令人驚訝的,但它展示了大學(xué)如何成功地提出新課程。相比之下,社會科學(xué)的所占比例較低(2%)。
但這個故事并沒有在這里結(jié)束。我們看到的數(shù)據(jù)爆炸只是一個開始,將帶來新的挑戰(zhàn)。隨著物聯(lián)網(wǎng)(IoT)的發(fā)展,它將拓寬我們能夠應(yīng)用數(shù)據(jù)科學(xué)的領(lǐng)域。此外,越來越多的可用培訓(xùn)數(shù)據(jù)將導(dǎo)致更有效的模型。作為一門科學(xué),這個領(lǐng)域相對較新,而機(jī)器學(xué)習(xí)軟件的開發(fā)也有望增加。 Google、Facebook、Uber等公司已經(jīng)在建立數(shù)據(jù)科學(xué)軟件研究團(tuán)隊,以預(yù)測經(jīng)濟(jì),提高機(jī)器學(xué)習(xí)模型的精確度和準(zhǔn)確性可能是發(fā)展業(yè)務(wù)的最佳方式。
編譯出品
聯(lián)系客服