10月23日下午,第一期「數(shù)據(jù)分析成長交流會」在CDA數(shù)據(jù)分析研究院成功舉辦啦!
數(shù)據(jù)分析成長交流會主要針對行業(yè)小白,讓更多的人了解數(shù)據(jù)分析,理清學(xué)習(xí)思路,制定學(xué)習(xí)計(jì)劃。
本次活動邀請了CDA數(shù)據(jù)分析就業(yè)培訓(xùn)班的錢小菲老師帶來了「數(shù)據(jù)分析成長」主題分享,還與現(xiàn)場的小伙伴們進(jìn)行了面對面交流。小編現(xiàn)將主要內(nèi)容整理如下,以饗讀者:
我們首要考慮的是如何真正的踏入這個門檻,而不是徘徊在數(shù)據(jù)分析門外。
大概可以分為三個階段:初識分析、進(jìn)階工具、定位方向。
首先初識分析階段,你需要掌握的工具大概為:Excel中級水平、SPSS初級水平、MySQL入門,而需要掌握的知識有 :統(tǒng)計(jì)基礎(chǔ)、概率論、數(shù)據(jù)分析師的流程概念、數(shù)據(jù)庫的概念和基礎(chǔ)的知識。
Excel作為初級分析者的中流砥柱是必須要的,而初級的SPSS知識,再結(jié)合Excel和統(tǒng)計(jì)知識,就可以做很多初級的統(tǒng)計(jì)分析相關(guān)的工作了,此時你就勉強(qiáng)算得了半個數(shù)據(jù)分析師了,當(dāng)然也只能算半個。
然后,你需要學(xué)習(xí)一些必須要的進(jìn)階的工具,SPSS的進(jìn)一步掌握,有助于你學(xué)習(xí)了解常用的算法模型,并且對數(shù)據(jù)分析的流程步驟的方法有個概覽。然后學(xué)習(xí)R,進(jìn)一步掌握各類統(tǒng)計(jì)分析方法和算法模型,并對編程有一定的了解。
在R之后是Python或者SAS的學(xué)習(xí),根據(jù)你的行業(yè)需要去選擇,你需要能夠使用編程語言完成自己的工作。
在學(xué)習(xí)了解這么多的工具算法模型之后,你需要結(jié)合自己的特點(diǎn)對自己的方向做一個定位,R/SAS/Python你需要精通一門,然后你還需要熟悉掌握mysql常用的命令,當(dāng)然Office系列的你也需要熟悉。同時你需要針對性的去學(xué)習(xí)掌握自己行業(yè)的業(yè)務(wù)背景和精通那些使用的最多的算法。
前面介紹的那么多的數(shù)據(jù)分析的工具,但是當(dāng)一些公司的數(shù)據(jù)量級達(dá)到了較高級別,比如TB或者PB級的時候,前面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具就無能為力了。尤其是需要實(shí)時計(jì)算,或者本身就需要使用這些大量數(shù)據(jù)進(jìn)行運(yùn)算的算法的時候,就必須要使用大數(shù)據(jù)的技術(shù)了。
說到大數(shù)據(jù)就不得不提Hadoop,那么它到底是一個什么呢?
Hadoop是一個由Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),很多不足以自己開發(fā)大數(shù)據(jù)平臺的具有大數(shù)據(jù)需求的公司基本都在使用它,所以大家應(yīng)該對它有一定了解。
大數(shù)據(jù)必定有大量級的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫自然是無法實(shí)現(xiàn)存儲功能,那么這些數(shù)據(jù)是如何存儲的呢?Hive就展示出了它的特色,Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,它可以通過類SQL語句快速實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析,既簡單又快捷。相對前面的SAS、SPSS等分析軟件,大數(shù)據(jù)分析更多是用的是Spark,Spark是一種與Hadoop相似的開源集群計(jì)算環(huán)境,不同之處在于Spark基于內(nèi)存計(jì)算,工作負(fù)載更優(yōu)越,計(jì)算更快速,可以用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序,也是目前很多公司在使用的一個大數(shù)據(jù)分析工具,而且它有許多接口,可以和java、R、Python實(shí)現(xiàn)無縫銜接,更加方便。
那么在你學(xué)習(xí)的過程中,你自己處于什么樣的位置呢?
當(dāng)你掌握了Excel的常用函數(shù),了解了VBA,并且掌握SPSS,能夠進(jìn)行常用的統(tǒng)計(jì)分析,初步了解一些sql語言,那么你就能算得上是一個業(yè)務(wù)分析師。
如果你想做一個高級數(shù)據(jù)分析師,或者是數(shù)據(jù)挖掘工程師,那么你就需要熟練掌握SQL語言,理解常用的算法模型,并能夠用于解決企業(yè)的實(shí)際問題,當(dāng)然你至少需要精通R/SAS/Python中的一種或幾種。
如果你在大數(shù)據(jù)平臺下工作,除此之外你還需要熟練使用spark和Hive。
問答整理如下:
問題:學(xué)文科的轉(zhuǎn)行去學(xué)數(shù)據(jù)分析會比較吃虧嗎?
其實(shí)并沒有說文科理科哪個更有優(yōu)勢的說法,可能理科出身的人能夠用更短的時間學(xué)習(xí),但并不意味著就是一個好的數(shù)據(jù)分析師了,文科對于業(yè)務(wù)等等的理解能力相對也會更好一點(diǎn),所以這個是各有特長,沒有說是不是吃虧的說法。
問題:數(shù)據(jù)分析在哪些公司用的比較多?是不是只有大公司才需要數(shù)據(jù)分析師?
并不是這樣,只有少數(shù)的傳統(tǒng)行業(yè)不怎么需要數(shù)據(jù)分析師,其他的像零售、餐飲、制造、金融以及絕大多數(shù)的互聯(lián)網(wǎng)相關(guān)行業(yè)都需要配備數(shù)據(jù)分析人才。比如SPSS就是中小企業(yè)用的多,所以不存在之余大公司才需要數(shù)據(jù)分析師的現(xiàn)象。
問題:對于即將畢業(yè)的大四學(xué)生,想從事數(shù)據(jù)分析的行業(yè),現(xiàn)在應(yīng)該從哪些方面入手
其實(shí),我們往期有很多學(xué)員就是大四沒有畢業(yè)的,對于你來說,如果是數(shù)據(jù)分析相關(guān)的專業(yè)的(統(tǒng)計(jì)、計(jì)算機(jī)、數(shù)學(xué)),那么你可能需要一份好點(diǎn)的數(shù)據(jù)分析的實(shí)習(xí)機(jī)會來掌握了解數(shù)據(jù)分析。如果你不是相關(guān)的專業(yè)的,那么你現(xiàn)階段最需要做的是補(bǔ)充自己的知識基礎(chǔ)(或者報個數(shù)據(jù)分析的培訓(xùn))。
問題:數(shù)理統(tǒng)計(jì)和概率論的知識是不是需要非常深入,就像很多都是數(shù)學(xué)專業(yè)的做數(shù)據(jù)分析
數(shù)理統(tǒng)計(jì)這類基礎(chǔ)的知識,肯定是不嫌多的,但是并不是需要你有多深入,在做分析工作的時候,你需要了解知道,但是并不是需要你研究的多深入,多數(shù)時候你知道它是什么,怎么用,怎么解釋結(jié)果也就夠了。
我身邊做數(shù)據(jù)分析的,并沒有多少是實(shí)打?qū)嵉目瓢喑錾恚圆挥锰桃庾约旱谋尘?,這是加分項(xiàng)但不是決定項(xiàng)。
問題:往期轉(zhuǎn)行的學(xué)員中,通常學(xué)習(xí)比較難的地方有哪些?
這個也是因人而異的,可能沒有接觸過編程相關(guān)的學(xué)員,剛開始在接受編程的一些理念和用編程的思維解決問題時比較難,但是邏輯思維較好的就不會覺得有困難,而未接觸過統(tǒng)計(jì)相關(guān)的部分人會覺得需要時間多看幾遍,才能很好的理解統(tǒng)計(jì)的一些概念。
問題:行業(yè)對應(yīng)的常用的算法都是哪些?
由于企業(yè)之間的業(yè)務(wù)差異,可能同行的也會有些差異,但是用的很多的算法有
線性回歸、邏輯回歸、決策樹、推薦系統(tǒng)、K均值/k最臨近等等易于解釋的算法,當(dāng)然也有用的比較多像支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等不太好解釋,但是有時效果比較好的算法。
聯(lián)系客服