數(shù)據(jù)科學(xué)家如何變得性感的故事,大致也就是作為成熟學(xué)科的統(tǒng)計(jì)學(xué)如何與新興學(xué)科計(jì)算機(jī)科學(xué)發(fā)生關(guān)系的故事?!笖?shù)據(jù)科學(xué)」這個(gè)術(shù)語(yǔ)的出現(xiàn)較晚近,用來(lái)指代一個(gè)需要解讀大量數(shù)據(jù)的職業(yè)。但解讀數(shù)據(jù)這件事的歷史很長(zhǎng),它已經(jīng)被科學(xué)家、統(tǒng)計(jì)學(xué)家、圖書(shū)館員、計(jì)算機(jī)科學(xué)家以及其他人士討論多年。下文的時(shí)間線追溯「數(shù)據(jù)科學(xué)」一詞的演化,以及它的應(yīng)用、對(duì)它進(jìn)行定義的嘗試和一些相關(guān)的術(shù)語(yǔ)。
1962 年 John W.Tukey 在《數(shù)據(jù)分析的未來(lái)》(The Future of Data Analysis)中寫道:「長(zhǎng)久以來(lái)我以為我是一名統(tǒng)計(jì)學(xué)者,對(duì)于從特例中獲得關(guān)于總體的推斷抱有興趣。但當(dāng)我目睹了數(shù)理統(tǒng)計(jì)學(xué)的發(fā)展,我產(chǎn)生了猜想與懷疑…我開(kāi)始感到我根本的興趣在于數(shù)據(jù)分析…數(shù)據(jù)分析,以及與之相關(guān)的一部分統(tǒng)計(jì)學(xué),必須…擔(dān)負(fù)更多科學(xué)的特性而非數(shù)學(xué)的特性…數(shù)據(jù)分析本質(zhì)上是一門經(jīng)驗(yàn)科學(xué)…預(yù)設(shè)程序的電子計(jì)算機(jī)…究竟有多重要呢?在許多情況下,答案是令人驚訝的:重要但不是至關(guān)重要,而在其他情況下計(jì)算機(jī)無(wú)疑是至關(guān)重要的?!?/p>
1947 年 Tukey 創(chuàng)造了「比特(bit)」這個(gè)術(shù)語(yǔ),這個(gè)詞在 1948 年被 Claude Shannon 用于《傳播的數(shù)學(xué)理論》(A Mathematical Theory of Communications)一文中。1977 年,Tukey 出版了《探索性數(shù)據(jù)分析》(Exploratory Data Analysis),他在書(shū)中提出,應(yīng)該更重視利用數(shù)據(jù)做出哪些假設(shè)需要被測(cè)試的建議,以及,探索性的數(shù)據(jù)分析和論證性的數(shù)據(jù)分析「能夠且應(yīng)該并駕齊驅(qū)」。
1977 年,國(guó)際統(tǒng)計(jì)計(jì)算聯(lián)合會(huì)( The International Association for Statistical Computing )簡(jiǎn)稱 IASC 作為國(guó)際統(tǒng)計(jì)研究院( ISI )的一個(gè)分支成立?!皣?guó)際統(tǒng)計(jì)計(jì)算聯(lián)合會(huì)的任務(wù)是把傳統(tǒng)統(tǒng)計(jì)方法、現(xiàn)代計(jì)算機(jī)技術(shù)和各領(lǐng)域?qū)<业闹R(shí)連接到一起,以將數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí)?!?/p>
1994 年 9 月,商業(yè)周刊發(fā)表了一篇關(guān)于“數(shù)據(jù)庫(kù)營(yíng)銷”的商業(yè)報(bào)道:“企業(yè)收集了大量有關(guān)你的信息,并使用這些知識(shí)提煉成營(yíng)銷信息精確瞄準(zhǔn)你…八十年代對(duì)掃碼器的熱潮在大范圍的失望中結(jié)束:許多公司被數(shù)據(jù)總量淹沒(méi)卻無(wú)法獲得有用信息…不過(guò),許多公司相信,除了勇敢站在數(shù)據(jù)庫(kù)營(yíng)銷的前線以外他們別無(wú)選擇?!?/p>
1996 年國(guó)際分類協(xié)會(huì)聯(lián)盟(InternationalFederation of Classification Societies? )簡(jiǎn)稱 IFCS 在日本神戶舉行雙年會(huì)?!笖?shù)據(jù)科學(xué)」這個(gè)術(shù)語(yǔ)首次被包含在會(huì)議的標(biāo)題里(數(shù)據(jù)科學(xué),分類和其他相關(guān)方法)。聯(lián)盟于 1985 年由六個(gè)國(guó)別/語(yǔ)言的分類組織共同成立,其中之一的分類協(xié)會(huì)( The Classification Society )成立于 1964 年。這些分類協(xié)會(huì)在其出版物中大量使用數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)等術(shù)語(yǔ)。
1997 年 C.F.Jeff Wu 教授(現(xiàn)就職于喬治亞理工大學(xué))在密歇根大學(xué)統(tǒng)計(jì)系 H. C.Carver 主席的就職典禮上倡議,統(tǒng)計(jì)學(xué)應(yīng)被重命名為數(shù)據(jù)科學(xué),統(tǒng)計(jì)學(xué)家應(yīng)被重命名為數(shù)據(jù)科學(xué)家。
1997 年《數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)》( Data Mining and Knowledge Discovery )期刊發(fā)行。這兩個(gè)術(shù)語(yǔ)的順序意味著「數(shù)據(jù)挖掘」地位的上升,并成為更流行的描述「從大數(shù)據(jù)庫(kù)中提取信息」的方式。
1999 年 12 月, 沃頓商學(xué)院 Knowledge@Wharton 的《從數(shù)據(jù)中挖掘知識(shí)的金塊》引用了Jacob Zahavi 的說(shuō)法:「?jìng)鹘y(tǒng)統(tǒng)計(jì)方法在小數(shù)據(jù)集上工作良好。但今天的數(shù)據(jù)庫(kù)有上百萬(wàn)行和大量的列…可拓展性成了數(shù)據(jù)挖掘的一個(gè)大問(wèn)題。另一個(gè)技術(shù)挑戰(zhàn)是開(kāi)發(fā)出能更好分析數(shù)據(jù)、發(fā)現(xiàn)非線性關(guān)系和元素間聯(lián)系的模型…對(duì)于網(wǎng)站決策可能需要特殊的數(shù)據(jù)挖掘工具。」
2001 年 William S.Cleveland 出版了《數(shù)據(jù)科學(xué):一份擴(kuò)展統(tǒng)計(jì)領(lǐng)域技術(shù)領(lǐng)域的行動(dòng)方案》(Data Science: An Action Plan for Expanding the Technical Areas of theField of Statistics)。這份計(jì)劃要擴(kuò)大統(tǒng)計(jì)學(xué)領(lǐng)域的技術(shù)工作主要領(lǐng)域。這份計(jì)劃雄心勃勃包含本質(zhì)性變化。變化后的領(lǐng)域被稱為「數(shù)據(jù)科學(xué)」。Cleveland把這個(gè)新領(lǐng)域定位在計(jì)算機(jī)科學(xué)與當(dāng)代數(shù)據(jù)挖掘工作中:「…數(shù)據(jù)分析師收益有限。因?yàn)橛?jì)算機(jī)科學(xué)家思考和分析數(shù)據(jù)的方法有限,就如同統(tǒng)計(jì)學(xué)家關(guān)于計(jì)算環(huán)境的知識(shí)有限。知識(shí)的融合會(huì)帶來(lái)巨大的生產(chǎn)力革新。這意味著統(tǒng)計(jì)學(xué)家應(yīng)多注意有關(guān)知識(shí)的計(jì)算,就如同過(guò)去數(shù)據(jù)科學(xué)對(duì)數(shù)學(xué)注意 … 數(shù)據(jù)科學(xué)系應(yīng)該由致力于提升數(shù)據(jù)計(jì)算的成員和與計(jì)算機(jī)科學(xué)家合作的成員組成?!?/p>
2001 年 Leo Breiman 出版了《統(tǒng)計(jì)建模:兩種文化》( Statistical Modeling: The Two Cultures ):「在使用統(tǒng)計(jì)模型從數(shù)據(jù)中提取結(jié)論的過(guò)程中有兩種文化。一個(gè)假定數(shù)據(jù)是由一個(gè)特定分布模型生成的。另一個(gè)使用算法模型,并把數(shù)據(jù)結(jié)構(gòu)看作未知的。統(tǒng)計(jì)學(xué)界普遍致力于僅僅使用針對(duì)數(shù)據(jù)的模型。這種投入產(chǎn)生了無(wú)意義的理論、值得懷疑的結(jié)論,并讓統(tǒng)計(jì)學(xué)家無(wú)法觸及大量現(xiàn)實(shí)問(wèn)題。算法模型,在理論與實(shí)踐中,在統(tǒng)計(jì)學(xué)之外快速發(fā)展。它既可以被應(yīng)用于龐大復(fù)雜的數(shù)據(jù)集,也可以在小數(shù)據(jù)集上建立精確信息量大的模型。如果我們這個(gè)領(lǐng)域的目標(biāo)是使用數(shù)據(jù)解決問(wèn)題,那么我們需要擺脫對(duì)純粹基于數(shù)據(jù)模型的依賴,并使用更多樣的工具?!?/p>
2002 年 4 月,數(shù)據(jù)科學(xué)期刊( Data Science Journal )創(chuàng)刊,旨在發(fā)表「科學(xué)與技術(shù)領(lǐng)域的數(shù)據(jù)與數(shù)據(jù)庫(kù)管理」方面的論文?!复似诳w對(duì)于數(shù)據(jù)系統(tǒng)的描述,及其在互聯(lián)網(wǎng)上的發(fā)布、應(yīng)用和法律問(wèn)題?!勾似诳蓢?guó)際科學(xué)理事會(huì)( International Council for Science )旗下的數(shù)據(jù)科學(xué)技術(shù)委員會(huì)( Data for Science and Technology )出版。
2003 年 1 月,期刊數(shù)據(jù)科學(xué)( Journal of Data Science )創(chuàng)刊:「我們用‘?dāng)?shù)據(jù)科學(xué)’指代與數(shù)據(jù)有關(guān)的一切業(yè)務(wù):收集、分析、建?!钪匾牟糠质撬膽?yīng)用——所有形式的應(yīng)用。本刊著眼于廣義上的統(tǒng)計(jì)方法應(yīng)用…期刊數(shù)據(jù)科學(xué)為所有數(shù)據(jù)工作者提供一個(gè)展示看法、交流思想的平臺(tái)。」
2005 年 5 月,Thomas H. Davenport、Don Cohen、 Al Jacobson 共同發(fā)表了《分析的較量》( Competing on Analytics ),這是一份巴布森學(xué)院工作知識(shí)研究中心的報(bào)告。報(bào)告描述「一種基于對(duì)分析、數(shù)據(jù)、基于事實(shí)決策的新型競(jìng)爭(zhēng)的發(fā)展…企業(yè)開(kāi)始應(yīng)用統(tǒng)計(jì)量化方法和預(yù)測(cè)模型,而不再是傳統(tǒng)手段,作為競(jìng)爭(zhēng)的主要部分?!惯@項(xiàng)研究晚些時(shí)候由 Davenport 發(fā)表在《哈佛經(jīng)濟(jì)評(píng)論》( 2006 年 1 月),之后被擴(kuò)展成《分析的較量:勝利的新科學(xué)》一書(shū)( 2007 年 3 月)。
2005 年 9 月,美國(guó)國(guó)家科學(xué)委員會(huì)出版了《長(zhǎng)存的數(shù)碼數(shù)據(jù)收集:使 21 世紀(jì)的研究與教育成為可能》( Long-lived Digital Data Collections: Enabling Research and Education in the 21st?Century )。此報(bào)告的一則推薦語(yǔ)寫道:「NSF(美國(guó)國(guó)家科學(xué)基金會(huì))與收集的管理者與廣義團(tuán)體合作。 NSF 應(yīng)該行動(dòng)起來(lái),讓數(shù)據(jù)科學(xué)家的職業(yè)道路發(fā)展、成熟,保證研究機(jī)構(gòu)包含一定數(shù)量的高質(zhì)量數(shù)據(jù)科學(xué)家。」這份報(bào)告將「數(shù)據(jù)科學(xué)家」定義為「信息與計(jì)算機(jī)科學(xué)家,數(shù)據(jù)庫(kù)與軟件工程師與程序員,跨學(xué)科專家,保管員以及專業(yè)注釋者,圖書(shū)館員,檔案館員和其他人員,這些人對(duì)數(shù)碼數(shù)據(jù)收集的成功管理至關(guān)重要。」
2007 年上海的復(fù)旦大學(xué)成立了數(shù)據(jù)科學(xué)研究中心( Research Center for Dataology and Data Science )。2009 年此中心的兩位學(xué)者朱揚(yáng)勇和熊赟出版了《數(shù)據(jù)學(xué)與數(shù)據(jù)科學(xué)概論》( Introduction to Dataology and Data Science ),這篇文章中他們聲稱「與自然科學(xué)和社會(huì)科學(xué)不同,數(shù)據(jù)學(xué)與數(shù)據(jù)科學(xué)以數(shù)碼世界的數(shù)據(jù)作為研究對(duì)象。這是一門新的科學(xué)。」這家中心還舉辦數(shù)據(jù)科學(xué)國(guó)際研討會(huì)。
2008 年 7 月,Jisc 出版了一項(xiàng)旨在「盤點(diǎn)與推薦對(duì)數(shù)據(jù)科學(xué)家的角色與職業(yè)發(fā)展,以及相關(guān)的數(shù)據(jù)處理技術(shù)在學(xué)術(shù)界的供應(yīng)」的研究的最終報(bào)告。這份題為《數(shù)據(jù)科學(xué)家與管理者的技能、角色、職業(yè)結(jié)構(gòu):對(duì)現(xiàn)有實(shí)踐與未來(lái)需求的評(píng)估》的報(bào)告( The Skills, Role & Career Structure of Data Scientists & Curators:? Assessment of Current Practice & Future Needs ),把數(shù)據(jù)科學(xué)家定義為「在研究實(shí)施之處工作-或是在數(shù)據(jù)中心團(tuán)隊(duì),與數(shù)據(jù)的創(chuàng)造者緊密合作-可能會(huì)進(jìn)行創(chuàng)造性探尋與分析使他人能使用數(shù)碼數(shù)據(jù)工作,以及數(shù)據(jù)庫(kù)技術(shù)開(kāi)發(fā)的人士。」
2009 年 1 月,《為了科學(xué)與社會(huì)駕馭數(shù)碼數(shù)據(jù)的力量》( Harnessing the Power of Digital Data for Science and Society )出版。這份報(bào)告由數(shù)碼數(shù)據(jù)跨機(jī)構(gòu)工作組( Interagency Working Group on Digital Data )提交給美國(guó)國(guó)家科技理事會(huì)的科學(xué)委員會(huì)( The Committee on Science of the National Science and Technology Council )。報(bào)告稱「國(guó)家需要識(shí)別與推廣擅長(zhǎng)在復(fù)雜動(dòng)態(tài)的挑戰(zhàn)中進(jìn)行數(shù)據(jù)保存、維持獲取、再利用、變更用途的新學(xué)科與技術(shù)人才。許多學(xué)科見(jiàn)證著一類新型數(shù)據(jù)科學(xué)與管理專家的崛起,他們擅長(zhǎng)電腦、信息、數(shù)據(jù)科學(xué)領(lǐng)域以及另外某種科學(xué)領(lǐng)域。這些人是科學(xué)事業(yè)在現(xiàn)在與未來(lái)獲取成功的關(guān)鍵。然而這些人的貢獻(xiàn)通常未被認(rèn)可,他們的職業(yè)路徑也有限?!?/p>
2009 年 1 月,谷歌的首席經(jīng)濟(jì)學(xué)家 HalVarian 告訴《麥肯錫季報(bào)》( Mc Kinsey Quarterly):「我一直說(shuō)未來(lái)十年最性感的工作是統(tǒng)計(jì)學(xué)家。人們以為我在開(kāi)玩笑,但誰(shuí)會(huì)料到電腦工程師成了 1990 年代最性感的工作呢?駕馭數(shù)據(jù)的能力-能夠理解它,處理它,從中提取價(jià)值,可視化,進(jìn)行溝通-這將是未來(lái)幾十年非常重要的技能。因?yàn)楝F(xiàn)在我們有免費(fèi)的無(wú)處不在的數(shù)據(jù)。所以,所需的稀缺要素是理解數(shù)據(jù)并從中提取價(jià)值的能力…我真的認(rèn)為這些能力-接觸、理解、傳達(dá)來(lái)自數(shù)據(jù)分析的洞察-會(huì)是及其重要的。管理者需要能夠獨(dú)立接觸和理解數(shù)據(jù)?!?/p>
2009 年 3 月 Kirk D. Borne 和其他天體物理學(xué)家向 Astro 2010 Decadal Survey 提交了一份題為《天文學(xué)教育的改革:大眾的數(shù)據(jù)科學(xué)》( The Revolution in Astronomy Education: Data Science for the Masses )的文章。文章中說(shuō):「訓(xùn)練下一代從數(shù)據(jù)中得到明智的結(jié)論對(duì)科學(xué)、社區(qū)、項(xiàng)目、機(jī)構(gòu)、商業(yè)、經(jīng)濟(jì)的成功都是不可或缺的。對(duì)于專家(科學(xué)家)和非專業(yè)技術(shù)人員(其他所有人:大眾,教育者,學(xué)生,勞動(dòng)力)都是這樣。專家比較學(xué)習(xí)和應(yīng)用新的數(shù)據(jù)科學(xué)研究技巧以增進(jìn)我們對(duì)宇宙的理解。非專業(yè)技術(shù)人員作為 21 世界的勞動(dòng)力需要基礎(chǔ)的信息技能,加之從日益被數(shù)據(jù)占領(lǐng)的世界中終身學(xué)習(xí)的技能。」
2009 年 5 月,Mike Driscol 在《數(shù)據(jù)極客的三種性感技能》( The Three Sexy Skills of Data Geeks )中寫道:「…生活在數(shù)據(jù)時(shí)代之下,那些能夠建模、合并、視覺(jué)傳達(dá)數(shù)據(jù)的人——請(qǐng)叫我們統(tǒng)計(jì)學(xué)家或數(shù)據(jù)極客——是搶手貨?!笵riscol 后來(lái)又在 2010 年 8 月發(fā)表了《成功數(shù)據(jù)科學(xué)家的七個(gè)秘密》( The Seven Secrets of Successful Data Scientists )。
2009 年 Nathan Yau 在《數(shù)據(jù)科學(xué)家的崛起》( Rise of the Data Scientist )中寫道:「我們都曾讀到過(guò),谷歌的首席經(jīng)濟(jì)學(xué)家 Hal Varian 在 1 月坦言未來(lái)十年最性感的工作會(huì)是統(tǒng)計(jì)學(xué)家。我顯然完全同意這個(gè)看法。見(jiàn)鬼,我想說(shuō)得再絕對(duì)一點(diǎn)。它現(xiàn)在就已經(jīng)是最性感的工作了,無(wú)論肉體或精神層面。不過(guò),如果你繼續(xù)讀 Varian 的訪談,你會(huì)發(fā)現(xiàn)他所謂的統(tǒng)計(jì)學(xué)家實(shí)際是泛指一類人,他們從大型數(shù)據(jù)集中提取信息,然后為不是數(shù)據(jù)專家的人們呈現(xiàn)一些可用的東西…(Ben) Fry 提倡一個(gè)把許多分散領(lǐng)域?qū)I(yè)知識(shí)的技能和人才匯集在一起的全新領(lǐng)域… (包含計(jì)算機(jī)科學(xué),數(shù)學(xué),統(tǒng)計(jì)學(xué),數(shù)據(jù)挖掘,圖形設(shè)計(jì),數(shù)據(jù)可視化和人機(jī)交互)。在 Flowing Data 網(wǎng)站強(qiáng)調(diào)可視化的兩年之后,領(lǐng)域間的合作看起來(lái)變得更常見(jiàn),但更重要的是,計(jì)算信息設(shè)計(jì)逐步逼近現(xiàn)實(shí)。我們看到數(shù)據(jù)科學(xué)家——能完成全部這些工作的人——從人群中脫穎而出?!?/p>
2009 年 6 月 ,Troy Sadkowsky 在 LinkedIn 上創(chuàng)建了數(shù)據(jù)科學(xué)群組(data scientists group),跟他的網(wǎng)站 datasceintists.com 配套(之后變成 data scientists.net)。
2010 年 2 月, KennethCukier 為《經(jīng)濟(jì)學(xué)人》寫了特別報(bào)道《數(shù)據(jù),到處都是數(shù)據(jù)》( Data, Data Everywhere ):「…一種新的職業(yè)出現(xiàn)了,數(shù)據(jù)科學(xué)家,他們結(jié)合了軟件程序員、統(tǒng)計(jì)學(xué)家和講述者/藝術(shù)家的技能,從數(shù)據(jù)的群山中挖掘金塊。」
2010 年 6 月, Mike Loukides 在《數(shù)據(jù)科學(xué)是什么?》( What is Data Science? )中寫道:「數(shù)據(jù)科學(xué)家把創(chuàng)業(yè)實(shí)踐、增量建立數(shù)據(jù)產(chǎn)品的意愿、探索的能力、迭代獲取解決的能力相結(jié)合。他們本質(zhì)是跨學(xué)科的。他們可以觸碰同一個(gè)問(wèn)題的所有方面,從最初的數(shù)據(jù)收集和調(diào)整到做出結(jié)論。他們能超出常規(guī)思考,提出解決問(wèn)題的新方式,或者處理很寬泛的問(wèn)題:這里有很多數(shù)據(jù),你能由此做點(diǎn)什么嗎?」
2010 年 9 月, Hilary Mason 和 Chris Wiggins 在《數(shù)據(jù)科學(xué)的一種分類法》( A Taxonomy of Data Science )中寫道:「…我們認(rèn)為提出一種分類法是有用的…有關(guān)數(shù)據(jù)科學(xué)家都做些什么,以粗略的時(shí)間順序排列:獲得,清洗,探索,建模,解讀…數(shù)據(jù)科學(xué)很明顯是黑客藝術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí),以及數(shù)學(xué)知識(shí)加上要用數(shù)據(jù)分析解讀的領(lǐng)域知識(shí)的一種混合…這需要在一個(gè)科學(xué)環(huán)境中的創(chuàng)造性決策和開(kāi)明的思想?!?/p>
來(lái)源:Drew Conway
2010 年 9 月, Drew Conway 在《數(shù)據(jù)科學(xué)文恩圖》( The Data Science Venn Diagram )寫道:「…如果有人想成為一個(gè)完全稱職的數(shù)據(jù)科學(xué)家,那需要學(xué)習(xí)很多東西??上У氖牵瑔渭兝e文本和教材并無(wú)法緩解這種糾結(jié)。所以,出于簡(jiǎn)化討論的考慮,以及把我個(gè)人的想法添加進(jìn)這個(gè)已經(jīng)很擁擠的思想集合中的考慮,我把數(shù)據(jù)科學(xué)文恩圖呈現(xiàn)給大家…黑客技能,數(shù)學(xué)與統(tǒng)計(jì)知識(shí)和專業(yè)知識(shí)?!?/p>
2011 年 5 月,Pete Warden 在《為何‘?dāng)?shù)據(jù)科學(xué)’一詞有瑕疵卻也有用》( Why the term ‘data science’ is flawed but useful )里寫道 : 「什么屬于,什么不屬于數(shù)據(jù)科學(xué),并沒(méi)有被廣泛認(rèn)同的邊界。它只是對(duì)統(tǒng)計(jì)學(xué)進(jìn)行一種時(shí)髦的再包裝嗎?我不這么認(rèn)為,但我也沒(méi)有對(duì)它詳盡的定義。我相信近期出現(xiàn)的數(shù)據(jù)充裕為世界點(diǎn)亮了什么新的東西,而當(dāng)我環(huán)視四周我看到的是擁有共同特征,卻難以被歸入傳統(tǒng)類別的人們。這些人傾向于超越那些統(tǒng)治著企業(yè)和工業(yè)界的狹窄細(xì)分,掌控從尋找數(shù)據(jù)、大規(guī)模處理、可視化、將其寫成故事的每個(gè)環(huán)節(jié)。他們的工作看似是始于審視數(shù)據(jù)能告訴他們什么,然后從中挑出有趣的線索進(jìn)行深入,而不是像傳統(tǒng)的科學(xué)家那樣先選擇問(wèn)題,然后尋找數(shù)據(jù)來(lái)探討問(wèn)題?!?/p>
2011 年 5 月, David Smith 在《數(shù)據(jù)科學(xué):這名字包含什么?》( Data Science : ?What’s in a name? )寫道:「數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家這兩個(gè)術(shù)語(yǔ)被廣泛使用了一年多,但從那時(shí)起它們就真的大獲成功:許多公司現(xiàn)在在招聘‘?dāng)?shù)據(jù)科學(xué)家’,會(huì)議都被冠以‘?dāng)?shù)據(jù)科學(xué)’的名字。但盡管存在這種廣泛接受,有些人還是拒絕改掉‘統(tǒng)計(jì)學(xué)家’或‘量化’,‘?dāng)?shù)據(jù)分析師’這些相對(duì)傳統(tǒng)的術(shù)語(yǔ)…我認(rèn)為‘?dāng)?shù)據(jù)科學(xué)’這個(gè)詞最能描述我們實(shí)際做的事:一種計(jì)算機(jī)黑客、數(shù)據(jù)分析、問(wèn)題解決的組合?!?/p>
2011 年 6 月,Mat thew J. Graham 在「天文大型數(shù)據(jù)庫(kù)中天文統(tǒng)計(jì)和數(shù)據(jù)挖掘研討會(huì)」談到「數(shù)據(jù)科學(xué)的藝術(shù)」。他說(shuō):「為了在 21 世紀(jì)新型數(shù)據(jù)密集環(huán)境中獲得成功,我們需要開(kāi)發(fā)新的技能…我們需要理解(數(shù)據(jù))遵從什么規(guī)律,如何被符號(hào)化和傳播,以及它們與物理時(shí)空的關(guān)系?!?/p>
2011 年 9 月,D.J.Patil 在《建立數(shù)據(jù)科學(xué)團(tuán)隊(duì)》( Building Data Science Teams )中寫道:「起初在 2008 年,我和 Jeff Hammerbacher (@hackingdata) 坐在一起分享我們?cè)?Facebook 和 LinkedIn 建立數(shù)據(jù)與分析團(tuán)隊(duì)的經(jīng)歷。在許多意義上,那次會(huì)面是數(shù)據(jù)科學(xué)作為一個(gè)獨(dú)特專業(yè)領(lǐng)域的開(kāi)始…我們意識(shí)到隨著我們所在機(jī)構(gòu)的成長(zhǎng),我們都要琢磨如何稱呼團(tuán)隊(duì)的成員?!虡I(yè)分析師’聽(tīng)起來(lái)太局限。‘?dāng)?shù)據(jù)分析師’是另一個(gè)備選,但我們擔(dān)心這個(gè)頭銜會(huì)限制成員的能力范圍。畢竟,我們團(tuán)隊(duì)的很多成員有深厚的工程師背景。‘研究科學(xué)家’在 Sun、HP、 Xerox、 Yahoo、IBM 這樣的大公司聽(tīng)起來(lái)是個(gè)合理的頭銜。不過(guò)我們感覺(jué)研究科學(xué)家大多專注于未來(lái)抽象的項(xiàng)目,實(shí)驗(yàn)室里的工作也與產(chǎn)品開(kāi)發(fā)團(tuán)隊(duì)隔絕。如果實(shí)驗(yàn)室的工作最終能影響核心產(chǎn)品,也需要花費(fèi)幾年時(shí)間。與之不同的是,我們的團(tuán)隊(duì)致力于數(shù)據(jù)的應(yīng)用,能夠立即對(duì)業(yè)務(wù)產(chǎn)生大規(guī)模的影響。‘?dāng)?shù)據(jù)科學(xué)家’看起來(lái)是最合適的頭銜:同時(shí)使用數(shù)據(jù)與科學(xué)創(chuàng)造新東西的人。」
2012 年 9 月,Tom Davenport 和 D.J. Patil 在《哈佛商業(yè)評(píng)論》發(fā)表了《數(shù)據(jù)科學(xué)家:21世紀(jì)最性感的職業(yè)》( Data Scientist: The Sexiest Job of the 21st Century )。
來(lái)源:forbes.com
作者:Gil Press
編譯:Datartisan數(shù)據(jù)工匠-王鵬宇
聯(lián)系客服