基于不同的應(yīng)用領(lǐng)域,在數(shù)理統(tǒng)計(jì)的理論基礎(chǔ)上,各機(jī)構(gòu)和公司推出了多款高可用的數(shù)據(jù)分析工具。本文從易用性、專業(yè)性以及應(yīng)用場(chǎng)景等維度,著重介紹MATLAB、SPSS、Stata、SAS、EViews、Excel、Python、R這幾款工具。
MATLAB是Matrix Laboratory(矩陣實(shí)驗(yàn)室)的縮寫,是一款由美國The MathWorks公司出品的商業(yè)數(shù)學(xué)軟件。MATLAB不僅僅是一款可以用來做統(tǒng)計(jì)分析的軟件,它還可以高效地處理其他很多的數(shù)學(xué)問題。它常被用于各種數(shù)學(xué)建模和工程設(shè)計(jì),相比于它強(qiáng)大的統(tǒng)計(jì)分析功能,這可說是大材小用。它具有豐富的庫函數(shù)(工具箱);內(nèi)嵌繪圖功能,可實(shí)現(xiàn)數(shù)據(jù)的多維度展現(xiàn);同時(shí)有良好的交互設(shè)計(jì),活躍的社區(qū)以及豐富的文檔……這些都使它具有極高的易用性,我們也可使用解釋執(zhí)行語言對(duì)其進(jìn)行編程。
SPSS是Statistical Product and Service Solutions的縮寫,是一款由IBM公司推出的用于分析運(yùn)算、數(shù)據(jù)挖掘、預(yù)測(cè)分析和決策支持等一系列任務(wù)的軟件產(chǎn)品及相關(guān)服務(wù)的總稱[5]。SPSS可以用在經(jīng)濟(jì)分析、市場(chǎng)調(diào)研、自然科學(xué)等林林總總的領(lǐng)域。它最大的特點(diǎn)是“簡(jiǎn)單易用”。雖然它對(duì)前沿理論的支持不夠全面,但是囊括了絕大部分常用的統(tǒng)計(jì)方法。簡(jiǎn)單的操作方式、友好的操作界面,再加上強(qiáng)大的功能,使其在國內(nèi)統(tǒng)計(jì)分析工作領(lǐng)域吸引了大量用戶。
Stata是Statacorp于1985年開發(fā)出來的統(tǒng)計(jì)程序[6]。和SPSS一樣,它也支持常用分析方法,可用于多個(gè)領(lǐng)域,不過實(shí)踐中在醫(yī)學(xué)和生物學(xué)研究上的應(yīng)用較多。Stata采用菜單和編程相結(jié)合的使用方式,其易用性雖不如SPSS,但在功能上略勝一籌。它在企業(yè)和學(xué)術(shù)機(jī)構(gòu)的應(yīng)用比較廣泛。
SAS誕生于北卡羅萊納州立大學(xué),起初只是一個(gè)用于分析農(nóng)業(yè)研究的項(xiàng)目。隨著需求的增長,它的使用范圍擴(kuò)展至醫(yī)藥企業(yè)、銀行業(yè)以及學(xué)術(shù)和政府機(jī)關(guān)。SAS系統(tǒng)提供的主要分析功能包括統(tǒng)計(jì)分析、經(jīng)濟(jì)計(jì)量分析、時(shí)間序列分析、決策分析、財(cái)務(wù)分析和全面質(zhì)量管理工具等。SAS功能極其強(qiáng)大,算法包非常完善,但是它是純編程界面,易用性低且入門困難,適合高級(jí)數(shù)據(jù)分析師或者專業(yè)人士使用。在統(tǒng)計(jì)分析領(lǐng)域,SAS一度是“統(tǒng)計(jì)分析系統(tǒng)”的縮寫,被譽(yù)為國際上的標(biāo)準(zhǔn)軟件和最具權(quán)威性的優(yōu)秀統(tǒng)計(jì)軟件包。
EViews是Econometrics Views的縮寫,由Quantitative MicroSoftware(QMS)開發(fā),是一款基于Windows設(shè)計(jì)的統(tǒng)計(jì)分析軟件[8]。EViews可以用于常規(guī)的統(tǒng)計(jì)分析,但它在計(jì)量經(jīng)濟(jì)分析方面特別有效。它的易用性高,且相比于上述其他分析軟件,入門級(jí)別低。針對(duì)計(jì)量經(jīng)濟(jì)學(xué)相關(guān)的分析,可以首先考慮該軟件。
Excel是微軟公司為Windows操作系統(tǒng)編寫的一款電子表格系統(tǒng),可以畫各種圖表、做方差分析、回歸分析等基礎(chǔ)分析。它的專業(yè)性雖然不高,但是完全可以勝任日常工作中簡(jiǎn)單的統(tǒng)計(jì)分析工作。同時(shí),它極其方便的操作方式,以及Microsoft Office軟件包成員之一的身份,使它成為最流行的個(gè)人計(jì)算機(jī)數(shù)據(jù)處理軟件。
Python是由荷蘭人Guido van Rossum于1989年發(fā)明的一種面向?qū)ο蟮慕忉屝途幊陶Z言,并于1991年公開發(fā)行第一個(gè)版本。Python是本書各種代碼實(shí)現(xiàn)所使用的語言。之所以把Python語言列為數(shù)據(jù)分析的工具,是因?yàn)閲@它實(shí)現(xiàn)的各種數(shù)據(jù)分析與數(shù)據(jù)可視化的開源代碼庫被廣泛應(yīng)用。同時(shí),Excel、SPSS等工具雖然具有可操作的界面,但并不能有效地結(jié)合Hadoop、Hive等組件有效地處理海量數(shù)據(jù),而這些都是Python可以勝任的。
R是專用于統(tǒng)計(jì)分析以及可視化的語言,是AT&T研發(fā)S語言時(shí)的產(chǎn)物,可以認(rèn)為是S語言的另一種實(shí)現(xiàn)方式。同Python一樣,R也提供了極其豐富的庫函數(shù)來做統(tǒng)計(jì)和展現(xiàn)。因?yàn)镽太過強(qiáng)大且擁有大量的用戶,為了能順應(yīng)用戶的習(xí)慣,降低學(xué)習(xí)的成本,Python在數(shù)據(jù)處理上的很多庫函數(shù)都是模仿R的實(shí)現(xiàn),以保持與其基本一致的使用方式。
本文選自《Python絕技:運(yùn)用Python成為頂級(jí)數(shù)據(jù)工程師》,作者黃文青,電子工業(yè)出版社2018年6月出版。
僅僅會(huì)Python編程是不夠的。想成為一名優(yōu)秀的數(shù)據(jù)分析工程師,還需要有全方位、透徹理解問題本質(zhì)的能力,善于把實(shí)際的工作任務(wù)拆解成準(zhǔn)確的數(shù)據(jù)問題,并運(yùn)用相關(guān)的知識(shí)來解決。
本書恰好是從這個(gè)角度出發(fā)的,它條分縷析地幫助你認(rèn)識(shí)任務(wù)的本質(zhì),教你從數(shù)據(jù)的角度來思考、拆解任務(wù),并最終順利地達(dá)成目標(biāo)。
聯(lián)系客服