“初入數據領域,需要學哪些工具?需要掌握到什么程度?本文闡述了所有數據崗位所需的工具。”
數據分析,橫向來看,屬于計算機與統(tǒng)計學的結合;縱向來看,始于數據、終于業(yè)務。因此需要掌握的工具/技能跨度還是比較大的,從數據流轉角度來看,涵蓋從「數據倉庫→數據提取→數據分析→數據展示→數據匯報」幾個模塊,小火龍為大家梳理了各模塊涉及的工具內容,并標注重要性,供大家參考。
數據分析崗位,一般不會涉及數據倉庫的搭建及維護,但對數據倉庫的了解,有助于下游數據提取,以及做一些ADS層的數倉建設,有益于自身成長。其中涉及到的工具主要涵蓋:SQL、Python、Java、Flink等。
其中SQL是最為重要的,會在下文詳細展開;Python、Java在數據處理層會應用到,Python會在下文展開,Java的優(yōu)先級不高,大家了解即可;Flink在處理實時流時會應用到,優(yōu)先級同樣不高,了解即可。
數據提取是數據分析的首個環(huán)節(jié),將數據從數據庫中,按照指定的格式輸出出來。在這個過程中,SQL是必備工具。
非常重要!非常重要!非常重要!建議掌握程度如下。
熟練掌握增、刪、查、改等基礎語句。
熟練掌握基礎函數,在遇到問題時,能夠快速檢索出用什么類型函數來解決問題。
熟練掌握語法結構,能夠寫出相對復雜的嵌套語句。
有清晰的代碼邏輯,在遇到不同類型需求時,能夠快速在腦海中形成輸出結構。
之前也有分享過SQL相關的文章:
數據提取后,分析是日常工作的核心環(huán)節(jié),將數據加工處理,探索其中的業(yè)務價值。這里涉及的工具比較多,包含但不限于:Excel、Python、R、Spss、Eviews、Sas等。
雖然不高端,但仍然是數據分析最好用、最常用的工具。建議掌握程度如下。
熟練掌握常用函數。例如:sum、average、vlookup等。可參考文章「Excel函數匯總」。
熟練掌握常用操作技巧。例如:行列轉置、選擇性粘貼等??蓞⒖嘉恼?a target="_blank" >「Excel應用技巧」。
熟練掌握常用快捷鍵。例如:快速刪除行列、快速篩選內容等。
了解VBA,能夠簡單實現Excel自動化。這一點不是必須,但對提高工作效率會有幫助。
Python并不是數據分析必備工具,但卻能夠決定你的發(fā)展上限。
主要應用場景涵蓋:創(chuàng)建SQL中應用的UDF函數、通過腳本快速產出分析報告、通過數據挖掘產出模型。建議掌握程度如下。
熟練掌握Python基礎語法、函數,能夠看懂別人寫的代碼。
熟練掌握分析及挖掘常用工具包。例如:numpy、pandas、matplotlib、sklearn等。
熟悉通用的Python項目目錄結構。
從功能角度來說,R與Python很多功能是交叉的。R更加偏向于統(tǒng)計分析與繪圖,一般在學術研究中應用較多。對于數據分析同學,Python與R二選一即可,個人推薦前者,應用方向更廣一些。
Spss是一款數據統(tǒng)計與應用軟件,在處理「離線+中小數據量」的統(tǒng)計分析時比較好用。
通過「可視化界面+點選方式」選擇不同類型的統(tǒng)計分析,例如:概率統(tǒng)計、相關分析、回歸分析等,甚至還包含了機器學習算法與文本分析等,應用方向較廣。建議掌握程度如下:
熟練掌握常用的統(tǒng)計學原理,并了解各原理中的參數含義??蓞⒖嘉恼?a target="_blank" >「數據分析中常用的統(tǒng)計學方法」。
了解工具能解決哪些問題,至于具體的操作細節(jié),可在用到的時候查詢。
Eviews和Sas在非經濟學領域出現頻次不太高。Eviews主要在時間序列分析中有較多應用;而Sas主要在銀行及金融業(yè)應用較多,屬于付費軟件。這兩個工具,大家了解就好,用到的時候再深入研究。
產出數據結論后,往往需要配合圖表進行展示,簡單的圖表,Excel、Python Matplotlib基本上就可滿足需求了。
但如果希望配置成例行圖表,則需要通過商業(yè)BI軟件來完成。目前應用較為廣泛的軟件有FineBI,PowerBI和Tableau,FineBI是國產軟件,后兩者則是國外的軟件。具體要掌握哪個軟件主要看你的公司使用哪個軟件。
BI平臺操作相對比較簡單,如果之前沒有應用過,建議下載FineBI用一用,了解一下BI平臺的一般功能,并能夠實現一些簡單的看板搭建(FineBI個人版是永久免費的)。
數據對于業(yè)務的價值,需要通過匯報讓更多人知曉。這一階段,PPT是最常用的工具。
聯系客服