人生中最困難者,莫過(guò)于選擇。
——(英)莫爾
上期回顧:《大數(shù)據(jù)建設(shè)誤區(qū)》統(tǒng)一認(rèn)識(shí),是開(kāi)展大數(shù)據(jù)戰(zhàn)略的第一步,詳細(xì)文章見(jiàn)
數(shù)說(shuō) · 大數(shù)據(jù)項(xiàng)目建設(shè)誤區(qū)目前很多企業(yè)已經(jīng)認(rèn)識(shí)到了大數(shù)據(jù)技術(shù)的重要性,于是信息管理部門(mén)天天被大老板敦促趕緊上馬大數(shù)據(jù)項(xiàng)目。盡管技術(shù)人員信心滿(mǎn)滿(mǎn)、摩拳擦掌,準(zhǔn)備大干一番的時(shí)候,卻發(fā)現(xiàn)面臨的第一個(gè)問(wèn)題就是如何選擇大數(shù)據(jù)產(chǎn)品——就像馬上要上戰(zhàn)場(chǎng)的士兵還沒(méi)有選好武器一樣。
我們?cè)谧銎髽I(yè)信息化系統(tǒng)時(shí),似乎從來(lái)沒(méi)有把產(chǎn)品選型當(dāng)成一個(gè)大事情。比如采購(gòu)桌面系統(tǒng),基本上是微軟或者蘋(píng)果系統(tǒng),服務(wù)器系統(tǒng)主要是Unix或Linux或windowsserver,數(shù)據(jù)庫(kù)Oracle、DB2、MySQL,ERP套件主要是SAP、Oracle……諸如此類(lèi),選擇不會(huì)太多。反觀大數(shù)據(jù)領(lǐng)域,網(wǎng)上的產(chǎn)品比比皆是,不管什么類(lèi)型的軟件,都號(hào)稱(chēng)采用了大數(shù)據(jù)技術(shù),這讓我們有點(diǎn)手足無(wú)措。
如果說(shuō)好的工具能讓我們事半功倍,那么什么是一款好的大數(shù)據(jù)產(chǎn)品呢?說(shuō)到這里,可能有些讀者迫不及待的往下文去找“結(jié)果”了。別著急,選大數(shù)據(jù)產(chǎn)品前,首先回答一個(gè)問(wèn)題:
“目前我們是以大數(shù)據(jù)為業(yè)務(wù)的組織嗎?”
回答這個(gè)問(wèn)題的時(shí)候,我們需要考慮企業(yè)的主營(yíng)業(yè)務(wù)是什么?如果是銀行、電信、物流、制造等這些非IT行業(yè),其信息化部門(mén)可以不用考慮自己從頭搭建一個(gè)大數(shù)據(jù)平臺(tái)。請(qǐng)注意一個(gè)關(guān)鍵詞——“目前”,有些企業(yè)上了大數(shù)據(jù)后,發(fā)現(xiàn)能給企業(yè)帶來(lái)非常大的利潤(rùn),于是大力投入,甚至獨(dú)立成立大數(shù)據(jù)公司來(lái)運(yùn)作企業(yè)數(shù)據(jù)。如果近期預(yù)期通過(guò)大數(shù)據(jù)技術(shù)獲得回報(bào)的,可以考慮自制大數(shù)據(jù)產(chǎn)品。不過(guò)在此之前,要重新考慮其投入產(chǎn)出比。
“公司對(duì)于大數(shù)據(jù)投入的預(yù)期是多少?”
在云棲社區(qū)近期進(jìn)行的一項(xiàng)調(diào)查中顯示大數(shù)據(jù)已經(jīng)成為信息化長(zhǎng)遠(yuǎn)發(fā)展的共識(shí),但由于對(duì)數(shù)據(jù)認(rèn)知度的局限、大數(shù)據(jù)產(chǎn)品服務(wù)的不足和市場(chǎng)教育的缺乏,有相當(dāng)多的企業(yè)并不清楚投入多少才是合理的。
圖云棲社區(qū)《2017中國(guó)開(kāi)發(fā)者調(diào)查報(bào)告》
除了平臺(tái)本身,人力成本也是大數(shù)據(jù)投入的主要方面。目前大數(shù)據(jù)人才缺口嚴(yán)重,薪資比較高,一般集中在互聯(lián)網(wǎng)企業(yè)和大型軟件公司中,招聘合適的研發(fā)人員較為困難。從頭搭建一個(gè)完整的大數(shù)據(jù)平臺(tái)是耗資巨大的,以下是筆者以前接觸過(guò)的一些廠(chǎng)商的反饋,不一定是官方數(shù)據(jù),僅供參考:
廠(chǎng)商一
廠(chǎng)商二
廠(chǎng)商三
從2009年進(jìn)行產(chǎn)品預(yù)研到2013年發(fā)布第一個(gè)商用版本,大約600多名研發(fā)人員,花費(fèi)4年以上時(shí)間。
從2011年開(kāi)始研究和建設(shè)大數(shù)據(jù)平臺(tái),在6年時(shí)間里,300多人研發(fā)人員持續(xù)優(yōu)化,打造穩(wěn)定、高性能、易用的大數(shù)據(jù)平臺(tái)。
2013年開(kāi)始,約200多名技術(shù)研發(fā)人員,在近2年時(shí)間發(fā)行相對(duì)穩(wěn)定的商用版本;后續(xù)保持200多名技術(shù)人員持續(xù)優(yōu)化升級(jí)完善。
從上文對(duì)比可以看出,實(shí)際市場(chǎng)對(duì)大數(shù)據(jù)的投入是偏低的,可謂是“雷聲大、雨點(diǎn)小”。所以一旦確定了大數(shù)據(jù)戰(zhàn)略,那么應(yīng)該是持續(xù)性的,符合性?xún)r(jià)比的投入方案,例如在某些特定場(chǎng)景先行應(yīng)用大數(shù)據(jù)平臺(tái),而不是全面推行。
“我們選哪種類(lèi)型的大數(shù)據(jù)平臺(tái)?”
一旦確定了企業(yè)對(duì)于大數(shù)據(jù)的戰(zhàn)略、目標(biāo)和投入預(yù)期,接下來(lái)就面臨如何選擇大數(shù)據(jù)平臺(tái)產(chǎn)品的問(wèn)題了。從CSDN《2016年度中國(guó)軟件開(kāi)發(fā)者白皮書(shū)》來(lái)看,國(guó)內(nèi)還是使用商業(yè)版大數(shù)據(jù)平臺(tái)的企業(yè)較多(34%+28%=62%)。其原因還是開(kāi)源社區(qū)版本的大數(shù)據(jù)軟件在穩(wěn)定性上和商業(yè)版尚有不少差距,單靠企業(yè)自身能力難以對(duì)其進(jìn)行深度改造和完善。
圖企業(yè)搭建大數(shù)據(jù)平臺(tái)情況(CSDN)
市面上號(hào)稱(chēng)大數(shù)據(jù)的產(chǎn)品不少,有提供一站式服務(wù)的大型平臺(tái)、專(zhuān)門(mén)提供分析服務(wù)的軟件、有專(zhuān)門(mén)分析網(wǎng)絡(luò)日志的工具……到底我們?nèi)绾芜x擇呢?好,請(qǐng)回答下個(gè)問(wèn)題:
“我們到底要用大數(shù)據(jù)干什么?”
現(xiàn)在國(guó)內(nèi)的大數(shù)據(jù)場(chǎng)景常見(jiàn)的有以下幾類(lèi),筆者說(shuō)明一下需要考慮的大數(shù)據(jù)組件,供讀者參考。
序號(hào)
大數(shù)據(jù)場(chǎng)景
組件選擇范圍(包含但不限于)
1
統(tǒng)計(jì)分析、數(shù)據(jù)可視化
大數(shù)據(jù)存儲(chǔ)組件、大數(shù)據(jù)可視化組件、大數(shù)據(jù)實(shí)時(shí)處理組件、大數(shù)據(jù)批量處理組件
2
運(yùn)維日志處理、實(shí)時(shí)監(jiān)控
大數(shù)據(jù)存儲(chǔ)組件、大數(shù)據(jù)實(shí)時(shí)處理組件
3
畫(huà)像建模、精準(zhǔn)營(yíng)銷(xiāo)
大數(shù)據(jù)存儲(chǔ)組件、大數(shù)據(jù)挖掘組件、大數(shù)據(jù)可視化組件
4
基于大數(shù)據(jù)的業(yè)務(wù)系統(tǒng)
大數(shù)據(jù)存儲(chǔ)組件、大數(shù)據(jù)挖掘組件
5
非結(jié)構(gòu)化數(shù)據(jù)處理
大數(shù)據(jù)存儲(chǔ)組件、大數(shù)據(jù)批量處理組件
6
數(shù)據(jù)租售服務(wù)
大數(shù)據(jù)存儲(chǔ)組件、分布式數(shù)據(jù)服務(wù)組件、數(shù)據(jù)權(quán)限管理組件
如果真不知道要干什么,好吧,可以選擇一些大的綜合性平臺(tái),像國(guó)外的有Cloudera、Hortonworks、MapR的產(chǎn)品,國(guó)內(nèi)有阿里、華為、星環(huán)、聯(lián)想等。但是成熟的大數(shù)據(jù)平臺(tái)往往投入不菲,需要慎重考慮。
最后筆者結(jié)合以往經(jīng)驗(yàn)給出幾點(diǎn)建議:
(1)沒(méi)有大數(shù)據(jù)平臺(tái)研發(fā)能力企業(yè)建議采用商用軟件
這里是指大數(shù)據(jù)平臺(tái)的產(chǎn)品研發(fā)能力,不是應(yīng)用開(kāi)發(fā)能力。因?yàn)榭梢苑Q(chēng)之為產(chǎn)品的大數(shù)據(jù)平臺(tái)架構(gòu)復(fù)雜,開(kāi)發(fā)周期長(zhǎng),投資巨大,前文已經(jīng)有所表述,不再贅述。
(2)盡量選用采用通用大數(shù)據(jù)技術(shù)的產(chǎn)品
盡管有些大數(shù)據(jù)廠(chǎng)商的技術(shù)非常先進(jìn),實(shí)施案例也比較豐富,但是從通用性、平臺(tái)遷移成本考慮,還是建議各位盡量選擇基于通用開(kāi)源技術(shù)的商業(yè)產(chǎn)品,因?yàn)橐环矫骈]源的產(chǎn)品在后期的維護(hù)、升級(jí)定價(jià)比較容易被廠(chǎng)商壟斷;另一方面對(duì)于通用產(chǎn)品應(yīng)用研發(fā),企業(yè)自身招聘IT人員的選擇范圍較多,人力成本相對(duì)較低。
(3)先規(guī)劃大數(shù)據(jù)場(chǎng)景再進(jìn)行選型
大數(shù)據(jù)技術(shù)能結(jié)合業(yè)務(wù)的場(chǎng)景比較多,但不同的場(chǎng)景所需要用的大數(shù)據(jù)組件不同(前文也有所講述),所以需要根據(jù)業(yè)務(wù)場(chǎng)景來(lái)綜合考慮選型問(wèn)題。另外,大數(shù)據(jù)平臺(tái)的產(chǎn)品組件也不是越多越好,部分組件對(duì)于硬件環(huán)境要求、配置參數(shù)方面是相沖突的,因此有些大型企業(yè)的大數(shù)據(jù)平臺(tái)往往不止一套,而是多套,每個(gè)平臺(tái)都有其對(duì)應(yīng)的一些業(yè)務(wù)場(chǎng)景和使用范圍。
(4)從小規(guī)模試點(diǎn)大數(shù)據(jù)應(yīng)用開(kāi)始
企業(yè)構(gòu)建數(shù)據(jù)分析項(xiàng)目常見(jiàn)的最大問(wèn)題往往是貪大求全,特別是首次開(kāi)展大數(shù)據(jù)項(xiàng)目的企業(yè),項(xiàng)目執(zhí)行團(tuán)隊(duì)很有可能會(huì)被要求構(gòu)建一套既沒(méi)有“明確功能范圍”卻要求“適應(yīng)各種業(yè)務(wù)場(chǎng)景”的解決方案,造成項(xiàng)目成本高昂且工期很長(zhǎng)。項(xiàng)目執(zhí)行團(tuán)隊(duì)不如在安排項(xiàng)目計(jì)劃時(shí),采用小規(guī)??焖賹?shí)施的“速贏階段”應(yīng)用,讓決策者很快可以看到成效,提升他們對(duì)同類(lèi)項(xiàng)目的信心,然后再按部就班的實(shí)施后面的深度應(yīng)用。
題外篇
IT青年問(wèn)禪師:“老板整天都讓我研究新技術(shù),昨天剛弄完云計(jì)算、今天讓搭建大數(shù)據(jù)平臺(tái),什么時(shí)候才能走上人生巔峰,迎娶白富美啊?”
禪師默默指了指山下不遠(yuǎn)處的中石化加油站。
青年頓悟道:“大師我明白了!您的意思是人生就像車(chē)子一樣需要不斷加油,才能駛向成功的目的地嗎?”
禪師怒道:“你這個(gè)棒槌,中石化早就采用了大數(shù)據(jù)技術(shù),你還發(fā)什么感嘆,趕緊去學(xué)習(xí)一下吧?!?div style="height:15px;">