有一個(gè)問(wèn)題,在大數(shù)據(jù)界一直受到很多人的關(guān)注,那就是大數(shù)據(jù)分析到底應(yīng)該用什么工具?2020年了,我們應(yīng)該拓寬視野,而不是僅僅局限于那幾個(gè)數(shù)據(jù)分析老古董。
我急切地想知道,于是打開(kāi)了某度,但是一搜全是很雞肋的信息,很多軟件也沒(méi)啥實(shí)際用處,浪費(fèi)了時(shí)間還找不到答案,氣壞了我們這些熱鍋上的螞蟻。
但是仔細(xì)剖析這個(gè)問(wèn)題,冷靜思考之后我想到了幾個(gè)很有價(jià)值的思考點(diǎn),這么多年的工作經(jīng)驗(yàn),也讓我有了一定的心得體會(huì),接下來(lái)就系統(tǒng)地和各位講明白。
在數(shù)據(jù)分析師的工作中,報(bào)表制作是頻率很高的一項(xiàng)工作內(nèi)容。成熟的公司中,通常已有數(shù)據(jù)產(chǎn)品或BI工具來(lái)幫助分析師完成報(bào)表類(lèi)型的工作,而且對(duì)于需要外源數(shù)據(jù)(這里指非數(shù)據(jù)庫(kù)中的存儲(chǔ)數(shù)據(jù))更新或是業(yè)務(wù)變動(dòng)較快的業(yè)務(wù)來(lái)說(shuō),實(shí)時(shí)更新的數(shù)據(jù)BI工具就顯得尤為重要了。
如果你只做數(shù)據(jù)分析,全平臺(tái)全方位的數(shù)據(jù),根據(jù)目前所接觸到的,EXCEL已不足夠支撐,而且很快就會(huì)被淘汰。如果你要做拖拽重計(jì)算之類(lèi)的,或者是商務(wù)智能的,你可以用BI工具,BI工具有許多,下面再接著介紹。
簡(jiǎn)單來(lái)說(shuō),我們可以把大數(shù)據(jù)分析工具簡(jiǎn)單分成兩個(gè)維度:
第一維度:數(shù)據(jù)存儲(chǔ)層——數(shù)據(jù)處理層——數(shù)據(jù)報(bào)表層——數(shù)據(jù)分析與展現(xiàn)層
第二維度:用戶(hù)級(jí)——部門(mén)級(jí)——企業(yè)級(jí)
先從第一維度說(shuō)起吧。
1、數(shù)據(jù)存儲(chǔ)層面
這一方面主要是數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的一些知識(shí)點(diǎn),企業(yè)要想做數(shù)字化轉(zhuǎn)型,把原先的一些數(shù)據(jù)系統(tǒng),如ERP、OA、CRM、Excel等,必須得進(jìn)行數(shù)字打通,不然整個(gè)企業(yè)就相當(dāng)于在進(jìn)行煙囪式開(kāi)發(fā),數(shù)據(jù)東一塊,西一塊,根本不能成為體系。
具體的,就是一些數(shù)據(jù)庫(kù)的使用,不要說(shuō)這方面的知識(shí)不想學(xué),有運(yùn)維替你管著。
一個(gè)好的大數(shù)據(jù)體系,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)集市的建立是非常重要的,建模的維度就決定了你后面分析的維度,如果維度不夠全面與準(zhǔn)確,那你的工具再好也就沒(méi)有意義了。
2、數(shù)據(jù)處理層面
python、hadoop可以閃亮登場(chǎng)了,但是hadoop是一個(gè)非常復(fù)雜的平臺(tái),需要的技術(shù)很多,所以這里我們暫時(shí)不討論。
我做了很多年的大數(shù)據(jù)技術(shù)了,所以最早我開(kāi)始做分析的時(shí)候都是希望通過(guò)編程來(lái)實(shí)現(xiàn),使用Python的好處是自由度非常高,能夠靈活運(yùn)用模型和算法,并且從數(shù)據(jù)采集到數(shù)據(jù)清洗到數(shù)據(jù)分析,一種語(yǔ)言就可以全部搞定。
現(xiàn)在很多人都在說(shuō)不學(xué)python會(huì)怎么怎么樣,但其實(shí)不是這樣,歸根結(jié)底只是一個(gè)底層語(yǔ)言,需要混合使用。Python是有一定門(mén)檻的,而且學(xué)習(xí)的時(shí)間成本不低,往往一次分析需要花較多的時(shí)間,如果不是大型分析項(xiàng)目,有點(diǎn)大材小用。
但是對(duì)于大型的項(xiàng)目,尤其是涉及到數(shù)據(jù)挖掘類(lèi)的,我建議用python。
GIF
還有一些可以數(shù)據(jù)抓取的工具,我就不說(shuō)了,本質(zhì)其實(shí)都差不多。
3、數(shù)據(jù)報(bào)表層面
可能提到報(bào)表,很多人腦子里的想法就是Excel,這其實(shí)是完全不對(duì)的,如果是Excel,那我也沒(méi)有寫(xiě)這篇文章的必要了。
不信?你隨便去問(wèn)問(wèn)500人以上的公司,Excel行不行,這樣的公司可能有千萬(wàn)家,但最后得出的結(jié)論都是一致的:
Excel會(huì)導(dǎo)致企業(yè)信息化程度不夠
數(shù)據(jù)口徑不一致,浪費(fèi)人力去核對(duì)
數(shù)據(jù)采集困難,更改不能實(shí)時(shí)顯示數(shù)據(jù)
GIF
FineReport做的可視化
關(guān)于報(bào)表工具,我認(rèn)可的只有FineReport,這里就不再過(guò)多介紹。
4、數(shù)據(jù)展現(xiàn)層面
我上一家公司用的是SAS,可現(xiàn)在流行R語(yǔ)言來(lái)訓(xùn)練模型,作為數(shù)據(jù)分析工具,今年已經(jīng)沒(méi)有采購(gòu)SAS了預(yù)算了,預(yù)算都給大數(shù)據(jù)平臺(tái)產(chǎn)品了。
你們以為的數(shù)據(jù)展現(xiàn),可能就是所有數(shù)據(jù)都處理好了,然后直接生成可視化就行,其實(shí)遠(yuǎn)不是這樣,那數(shù)據(jù)變動(dòng)怎么辦呢?數(shù)據(jù)量太大,宕機(jī)了怎么辦呢?
所以一個(gè)實(shí)時(shí)的可視化工具就顯得非常重要,我覺(jué)得FineBI和Tableau是一個(gè)不錯(cuò)的選擇,但是Tableau是國(guó)外的工具,一是服務(wù)體系不夠全,出了問(wèn)題要解決很久,這是不能接受的;二是價(jià)格實(shí)在是太高,動(dòng)不動(dòng)就上百萬(wàn)。
所以我推薦FineBI,一款web級(jí)的敏捷數(shù)據(jù)工具,不僅直接拖拽就能生成可視化,而且還能做復(fù)雜報(bào)表,BI報(bào)表就是企業(yè)的新方向。
GIF
你是可以直連數(shù)據(jù)庫(kù)的,它支持很多種不同類(lèi)型的數(shù)據(jù)庫(kù),哪怕是不同的數(shù)據(jù)源,也可以在一起分析!
談到BI,就不得不談一下OLAP技術(shù),老一代OLAP分析的技術(shù)實(shí)現(xiàn)需要嚴(yán)格的從頭開(kāi)始手動(dòng)建模,Cube的大小極大限制了大數(shù)據(jù)背景下的使用場(chǎng)景,動(dòng)輒成百上千新舊不一的Cube需要繁重的運(yùn)維,架構(gòu)無(wú)法縱向擴(kuò)展、無(wú)法滿(mǎn)足大數(shù)據(jù)量下構(gòu)建、查詢(xún)和并發(fā)的性能要求。
FineBI的數(shù)據(jù)業(yè)務(wù)包是BI分析的數(shù)據(jù)基礎(chǔ),由管理員創(chuàng)建,通過(guò)定義的數(shù)據(jù)連接向數(shù)據(jù)庫(kù)中取數(shù),獲取到的數(shù)據(jù)自動(dòng)保存在Cube中,BI分析則從Cube中獲取數(shù)據(jù),這也就保證了只要Cube中存有數(shù)據(jù),就算不聯(lián)網(wǎng)也可以使用BI分析。
所以現(xiàn)在懂了嗎?數(shù)據(jù)實(shí)時(shí)顯示,F(xiàn)ineBI就是這么完成的。
其實(shí)數(shù)據(jù)展現(xiàn)類(lèi)的工具,靠不靠譜還得看引擎,F(xiàn)ineBI引擎的兩種模式完美支持大數(shù)據(jù)量分析,在特定的場(chǎng)景下,如銀行、電商,可以做到億級(jí)數(shù)據(jù)的秒級(jí)呈現(xiàn)。
抽取模式:提供基于索引的高效計(jì)算引擎,通過(guò)數(shù)據(jù)預(yù)加載,支撐前端快速數(shù)據(jù)分析,適用于實(shí)時(shí)性要求不高的分析。
實(shí)時(shí)模式:直接對(duì)接讀取企業(yè)的數(shù)據(jù)庫(kù)表進(jìn)行分析,適用于對(duì)實(shí)時(shí)性要求較高的數(shù)據(jù)分析場(chǎng)景。
你不要以為FineBI是給IT、開(kāi)發(fā)人員用的,它的設(shè)計(jì)模式,就是簡(jiǎn)單易用,目標(biāo)是業(yè)務(wù)人員,不用再經(jīng)歷提交需求——等到好久才拿到報(bào)告——不滿(mǎn)意再改——又是無(wú)盡的等待...
IT幫你初步處理好數(shù)據(jù)之后,你就可以按照自己的分析規(guī)劃,將數(shù)據(jù)拖入到需要分析的維度上,對(duì)了,F(xiàn)ineBI還具有ETL的功能,內(nèi)置的數(shù)據(jù)處理計(jì)算,不需要你寫(xiě)函數(shù),也是封裝好的功能。
GIF
最后來(lái)說(shuō)說(shuō)FineBI的可視化效果吧,這也是很多領(lǐng)導(dǎo)看重的。
聯(lián)系客服