大數(shù)據(jù)行業(yè)包含的崗位有哪些?
數(shù)據(jù)分析師:
工作內(nèi)容:運(yùn)用工具,提取、分析、呈現(xiàn)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的商業(yè)意義,需要業(yè)務(wù)理解和工具應(yīng)用能力
數(shù)據(jù)挖掘師/算法工程師:
工作內(nèi)容:數(shù)據(jù)建模、機(jī)器學(xué)習(xí)和算法實(shí)現(xiàn),需要業(yè)務(wù)理解、熟悉算法和精通計(jì)算機(jī)編程
大數(shù)據(jù)工程師:
工作內(nèi)容:運(yùn)用編程語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)平臺(tái)和數(shù)據(jù)管道開(kāi)發(fā),需要計(jì)算機(jī)編程能力
數(shù)據(jù)架構(gòu)師:
工作內(nèi)容:高級(jí)算法設(shè)計(jì)與優(yōu)化;數(shù)據(jù)相關(guān)系統(tǒng)設(shè)計(jì)與優(yōu)化,有垂直行業(yè)經(jīng)驗(yàn)最佳,需要平臺(tái)級(jí)開(kāi)發(fā)和架構(gòu)設(shè)計(jì)能力
在工資待遇上,在國(guó)內(nèi)還是國(guó)外都是:
數(shù)據(jù)科學(xué)家->數(shù)據(jù)架構(gòu)師==算法工程師>大數(shù)據(jù)工程師>數(shù)據(jù)分析師。
有關(guān)于大數(shù)據(jù)的相關(guān)問(wèn)題?請(qǐng)加群640193172提及他們,我們共同討論。
1.3大數(shù)據(jù)的價(jià)值體現(xiàn)在以下幾個(gè)方面:
(1)-用戶行為數(shù)據(jù)(精準(zhǔn)廣告投放、內(nèi)容推薦、行為習(xí)慣和喜好分析、產(chǎn)品優(yōu)化等)
(2)-用戶消費(fèi)數(shù)據(jù)(精準(zhǔn)營(yíng)銷、信用記錄分析、活動(dòng)促銷、理財(cái)?shù)龋?/p>
(3)-用戶地理位置數(shù)據(jù)(O2O推廣,商家推薦,交友推薦等)
(4)-互聯(lián)網(wǎng)金融數(shù)據(jù)(P2P,小額貸款,支付,信用,供應(yīng)鏈金融等)
-用戶社交等UGC數(shù)據(jù)(趨勢(shì)分析、流行元素分析、受歡迎程度分析、輿論監(jiān)控分析、社會(huì)問(wèn)題分析等)
對(duì)于企業(yè)而言大數(shù)據(jù)的影響和幫助哪些?
1)及時(shí)解析故障、問(wèn)題和缺陷的根源,每年可能為企業(yè)節(jié)省數(shù)十億美元。
2)為成千上萬(wàn)的快遞車輛規(guī)劃實(shí)時(shí)交通路線,躲避擁堵。
3)分析所有SKU,以利潤(rùn)最大化為目標(biāo)來(lái)定價(jià)和清理庫(kù)存。
4)根據(jù)客戶的購(gòu)買習(xí)慣,為其推送他可能感興趣的優(yōu)惠信息。
5)從大量客戶中快速識(shí)別出金牌客戶。
6)使用點(diǎn)擊流分析和數(shù)據(jù)挖掘來(lái)規(guī)避欺詐行為。
1.4大數(shù)據(jù)工程師周邊相關(guān)知識(shí)?
很多公司會(huì)針對(duì)自己的業(yè)務(wù)類型和團(tuán)隊(duì)分工,給這群與大數(shù)據(jù)打交道的人一些新的頭銜和定義:數(shù)據(jù)挖掘工程師、大數(shù)據(jù)專家、數(shù)據(jù)研究員、用戶分析專家等都是經(jīng)常在國(guó)內(nèi)公司里出現(xiàn)的Title,我們將其統(tǒng)稱為“大數(shù)據(jù)工程師”
于是每家公司對(duì)大數(shù)據(jù)工作的要求不盡相同:有的強(qiáng)調(diào)數(shù)據(jù)庫(kù)編程、有的突出應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)、有的則要求有咨詢公司或投行相關(guān)的經(jīng)驗(yàn)、有些是希望能找到懂得產(chǎn)品和市場(chǎng)的應(yīng)用型人才。正因?yàn)槿绱?,?shù)據(jù)挖掘工程師、大數(shù)據(jù)專家、數(shù)據(jù)研究員、用戶分析專家等都是經(jīng)常在國(guó)內(nèi)公司里出現(xiàn)的Title,我們將其統(tǒng)稱為“大數(shù)據(jù)工程師”。
“大數(shù)據(jù)工程師”往往是一個(gè)團(tuán)隊(duì),它意味著從數(shù)據(jù)的收集、整理展現(xiàn)、分析和商業(yè)洞察、以至于市場(chǎng)轉(zhuǎn)化的全過(guò)程。這個(gè)團(tuán)隊(duì)中可能包括數(shù)據(jù)工程師、分析師、產(chǎn)品專員、市場(chǎng)專員和商業(yè)決策者等角色,共同完成從原始數(shù)據(jù)到商業(yè)價(jià)值的轉(zhuǎn)換—概括來(lái)講,這是一個(gè)支持企業(yè)做出商業(yè)決策、發(fā)掘商業(yè)模式的重要群體。
由于國(guó)內(nèi)的大數(shù)據(jù)工作還處在一個(gè)有待開(kāi)發(fā)的階段,因此能從其中挖掘出多少價(jià)值完全取決于工程師的個(gè)人能力。已經(jīng)身處這個(gè)行業(yè)的專家給出了一些人才需求的大體框架,包括要有計(jì)算機(jī)編碼能力、數(shù)學(xué)及統(tǒng)計(jì)學(xué)相關(guān)背景,當(dāng)然如果能對(duì)一些特定領(lǐng)域或行業(yè)有比較深入的了解,對(duì)于其快速判斷并抓準(zhǔn)關(guān)鍵因素則更有幫助。
擁有碩博學(xué)歷的公司人是比較好的選擇,不過(guò)阿里巴巴集團(tuán)研究員薛貴榮強(qiáng)調(diào),學(xué)歷并不是最主要的因素,能有大規(guī)模處理數(shù)據(jù)的經(jīng)驗(yàn)并且有喜歡在數(shù)據(jù)海洋中尋寶的好奇心會(huì)更適合這個(gè)工作。
一個(gè)優(yōu)秀的大數(shù)據(jù)工程師要具備一定的邏輯分析能力,并能迅速定位某個(gè)商業(yè)問(wèn)題的關(guān)鍵屬性和決定因素?!?strong>他得知道什么是相關(guān)的,哪個(gè)是重要的,使用什么樣的數(shù)據(jù)是最有價(jià)值的,如何快速找到每個(gè)業(yè)務(wù)最核心的需求。”
大數(shù)據(jù)工程師的工作主要分為兩種方式:由市場(chǎng)部驅(qū)動(dòng)和由數(shù)據(jù)分析部門驅(qū)動(dòng)
前者需要常常向產(chǎn)品經(jīng)理了解開(kāi)發(fā)需求,后者則需要找運(yùn)營(yíng)部了解數(shù)據(jù)模型實(shí)際轉(zhuǎn)化的情況。
(1).大數(shù)據(jù)工程師做什么?
大數(shù)據(jù)工程師就是一群“玩數(shù)據(jù)”的人,玩出數(shù)據(jù)的商業(yè)價(jià)值,讓數(shù)據(jù)變成生產(chǎn)力。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的最大區(qū)別在于,它是在線的、實(shí)時(shí)的,規(guī)模海量且形式不規(guī)整,無(wú)章法可循,因此“會(huì)玩”這些數(shù)據(jù)的人就很重要。
把大數(shù)據(jù)想象成一座不停累積的礦山,那么大數(shù)據(jù)工程師的工作就是,“第一步,定位并抽取信息所在的數(shù)據(jù)集,相當(dāng)于探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當(dāng)于冶煉。最后是應(yīng)用,把數(shù)據(jù)可視化等。”
因此分析歷史、預(yù)測(cè)未來(lái)、優(yōu)化選擇,這是大數(shù)據(jù)工程師在“玩數(shù)據(jù)”時(shí)最重要的三大任務(wù)。通過(guò)這三個(gè)工作方向,他們幫助企業(yè)做出更好的商業(yè)決策。
(2).分析歷史找出過(guò)去事件的特征
大數(shù)據(jù)工程師一個(gè)很重要的工作,就是通過(guò)分析數(shù)據(jù)來(lái)找出過(guò)去事件的特征。比如,騰訊的數(shù)據(jù)團(tuán)隊(duì)正在搭建一個(gè)數(shù)據(jù)倉(cāng)庫(kù),把公司所有網(wǎng)絡(luò)平臺(tái)上數(shù)量龐大、不規(guī)整的數(shù)據(jù)信息進(jìn)行梳理,總結(jié)出可供查詢的特征,來(lái)支持公司各類業(yè)務(wù)對(duì)數(shù)據(jù)的需求,包括廣告投放、游戲開(kāi)發(fā)、社交網(wǎng)絡(luò)等。
找出過(guò)去事件的特征,最大的作用是可以幫助企業(yè)更好地認(rèn)識(shí)消費(fèi)者。通過(guò)分析用戶以往的行為軌跡,就能夠了解這個(gè)人,并預(yù)測(cè)他的行為?!澳憧梢灾浪鞘裁礃拥娜?、他的年紀(jì)、興趣愛(ài)好,是不是互聯(lián)網(wǎng)付費(fèi)用戶、喜歡玩什么類型的游戲,平常喜歡在網(wǎng)上做什么事情?!彬v訊云計(jì)算有限公司下一步到了業(yè)務(wù)層面,就可以針對(duì)各類人群推薦相關(guān)服務(wù),比如手游,或是基于不同特征和需求衍生出新的業(yè)務(wù)模式,比如微信的電影票業(yè)務(wù)。
(3).預(yù)測(cè)未來(lái)可能發(fā)生的事情
通過(guò)引入關(guān)鍵因素,大數(shù)據(jù)工程師可以預(yù)測(cè)未來(lái)的消費(fèi)趨勢(shì)。在阿里媽媽的營(yíng)銷平臺(tái)上,工程師正試圖通過(guò)引入氣象數(shù)據(jù)來(lái)幫助淘寶賣家做生意?!氨热缃衲晗奶觳粺?,很可能某些產(chǎn)品就沒(méi)有去年暢銷,除了空調(diào)、電扇,背心、游泳衣等都可能會(huì)受其影響。那么我們就會(huì)建立氣象數(shù)據(jù)和銷售數(shù)據(jù)之間的關(guān)系,找到與之相關(guān)的品類,提前警示賣家周轉(zhuǎn)庫(kù)存。
在百度“百度預(yù)測(cè)”部分產(chǎn)品的模型研發(fā),試圖用大數(shù)據(jù)為更廣泛的人群服務(wù)。已經(jīng)上線的包括世界杯預(yù)測(cè)、高考預(yù)測(cè)、景點(diǎn)預(yù)測(cè)等。以百度景點(diǎn)預(yù)測(cè)為例,大數(shù)據(jù)工程師需要收集所有可能影響一段時(shí)間內(nèi)景點(diǎn)人流量的關(guān)鍵因素進(jìn)行預(yù)測(cè),并為全國(guó)各個(gè)景點(diǎn)未來(lái)的擁擠度分級(jí)—在接下來(lái)的若干天時(shí)間里,它究竟是暢通、擁擠,還是一般擁擠?
(4)找出最優(yōu)化的結(jié)果
根據(jù)不同企業(yè)的業(yè)務(wù)性質(zhì),大數(shù)據(jù)工程師可以通過(guò)數(shù)據(jù)分析來(lái)達(dá)到不同的目的。
以騰訊來(lái)說(shuō)能反映大數(shù)據(jù)工程師工作的最簡(jiǎn)單直接的例子就是選項(xiàng)測(cè)試(AB Test),即幫助產(chǎn)品經(jīng)理在A、B兩個(gè)備選方案中做出選擇。在過(guò)去,決策者只能依據(jù)經(jīng)驗(yàn)進(jìn)行判斷,但如今大數(shù)據(jù)工程師可以通過(guò)大范圍地實(shí)時(shí)測(cè)試—比如,在社交網(wǎng)絡(luò)產(chǎn)品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統(tǒng)計(jì)一段時(shí)間內(nèi)的點(diǎn)擊率和轉(zhuǎn)化率,以此幫助市場(chǎng)部做出最終選擇。
作為電商的阿里巴巴,則希望通過(guò)大數(shù)據(jù)鎖定精準(zhǔn)的人群,幫助賣家做更好的營(yíng)銷?!拔覀兏诖氖悄隳苷业竭@樣一批人,比起現(xiàn)有的用戶,這些人對(duì)產(chǎn)品更感興趣?!币粋€(gè)淘寶的實(shí)例是,某人參賣家原來(lái)推廣的目標(biāo)人群是產(chǎn)婦,但工程師通過(guò)挖掘數(shù)據(jù)之間的關(guān)聯(lián)性后發(fā)現(xiàn),針對(duì)孕婦群體投放的營(yíng)銷轉(zhuǎn)化率更高。
1.5大數(shù)據(jù)行業(yè)薪酬待遇以及職業(yè)發(fā)展
作為IT類職業(yè)中的“大熊貓”,大數(shù)據(jù)工程師的收入待遇可以說(shuō)達(dá)到了同類的頂級(jí)。根據(jù)顏莉萍的觀察,國(guó)內(nèi)IT、通訊、行業(yè)招聘中,有10%都是和大數(shù)據(jù)相關(guān)的,且比例還在上升。顏莉萍表示,“大數(shù)據(jù)時(shí)代的到來(lái)很突然,在國(guó)內(nèi)發(fā)展勢(shì)頭激進(jìn),而人才卻非常有限,現(xiàn)在完全是供不應(yīng)求的狀況?!痹诿绹?guó),大數(shù)據(jù)工程師平均每年薪酬高達(dá)17.5萬(wàn)美元,而據(jù)了解,在國(guó)內(nèi)頂尖互聯(lián)網(wǎng)類公司,同一個(gè)級(jí)別大數(shù)據(jù)工程師的薪酬可能要比其他職位高20%至30%,且頗受企業(yè)重視。
畢業(yè)后的薪酬如何:
目前,云計(jì)算還處于發(fā)展階段。國(guó)內(nèi)對(duì)云計(jì)算和大數(shù)據(jù)做的特別好的廠家還不多,大家對(duì)云計(jì)算的研究還處于起步階段,我們正好趕在這種技術(shù)發(fā)展的成長(zhǎng)期,機(jī)會(huì)還是很多的,相應(yīng)的薪酬起點(diǎn)比較高。我不能魯莽的下一個(gè)最低薪酬底線,告訴大家“這是hadoop起薪啊,你們都比這個(gè)高”。這不是我的風(fēng)格。但是,我可以說(shuō)肯定如果大家有兩三年工作經(jīng)驗(yàn),起薪拿到10k左右還是很正常的。當(dāng)然,這個(gè)要跟個(gè)人能力、面試技巧、入職的公司等都有關(guān)系。我說(shuō)的可不是最低薪酬,再次聲明。
建議去看 拉勾網(wǎng) 智聯(lián)招聘 獵聘 58同城
工作五年左右工資面議
職業(yè)發(fā)展路徑
由于大數(shù)據(jù)人才數(shù)量較少,因此大多數(shù)公司的數(shù)據(jù)部門一般都是扁平化的層級(jí)模式,大致分為數(shù)據(jù)分析師、資深研究員、部門總監(jiān)3個(gè)級(jí)別。大公司可能按照應(yīng)用領(lǐng)域的維度來(lái)劃分不同團(tuán)隊(duì),而在小公司則需要身兼數(shù)職。有些特別強(qiáng)調(diào)大數(shù)據(jù)戰(zhàn)略的互聯(lián)網(wǎng)公司則會(huì)另設(shè)最高職位—如阿里巴巴的首席數(shù)據(jù)官?!斑@個(gè)職位的大部分人會(huì)往研究方向發(fā)展,成為重要數(shù)據(jù)戰(zhàn)略人才?!鳖伬蚱颊f(shuō)。另一方面,大數(shù)據(jù)工程師對(duì)商業(yè)和產(chǎn)品的理解,并不亞于業(yè)務(wù)部門員工,因此也可轉(zhuǎn)向產(chǎn)品部或市場(chǎng)部,乃至上升為公司的高級(jí)管理層。
關(guān)于就業(yè)前景的問(wèn)題:
hadoop是云計(jì)算的基礎(chǔ)。絕大部分的云計(jì)算中的分布式存儲(chǔ)和計(jì)算都是使用hadoop的。簡(jiǎn)單的理解的話,云計(jì)算是系統(tǒng)工程的藍(lán)圖,hadoop是基礎(chǔ)層面的重要的必不可少的工具。并且,云計(jì)算在國(guó)家十二五規(guī)劃中也有重要章節(jié)討論,全國(guó)各省市都有自己的云計(jì)算發(fā)展規(guī)劃。云計(jì)算已經(jīng)被提高到國(guó)家中長(zhǎng)期發(fā)展戰(zhàn)略規(guī)劃中,大家可以想象以后hadoop和云計(jì)算的崗位有多少。正是因?yàn)樵朴?jì)算發(fā)展如此如火如荼,我們趕緊推出與此相關(guān)的課程,目的就是“造富”一方學(xué)子。越早學(xué)習(xí),越早受益。
大數(shù)據(jù)基礎(chǔ)知識(shí):分布式計(jì)算、服務(wù)器集群
大數(shù)據(jù),官方定義是指那些數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復(fù)雜的數(shù)據(jù)集,這種數(shù)據(jù)集無(wú)法用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),管理和處理。
大數(shù)據(jù)中的數(shù)據(jù)量非常巨大,達(dá)到了PB級(jí)別。而且這龐大的數(shù)據(jù)之中,不僅僅包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號(hào)等數(shù)據(jù)),還包括非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、聲音、視頻等數(shù)據(jù))。在大數(shù)據(jù)的大量復(fù)雜的數(shù)據(jù)之中,通常不僅僅包含真實(shí)的數(shù)據(jù),一些虛假的數(shù)據(jù)也混雜其中。這就需要在大數(shù)據(jù)的處理中將虛假的數(shù)據(jù)剔除,利用真實(shí)的數(shù)據(jù)來(lái)分析得出真實(shí)的結(jié)果。
大數(shù)據(jù)分析(Big Data Analysis)
大數(shù)據(jù),表面上看就是大量復(fù)雜的數(shù)據(jù),這些數(shù)據(jù)本身的價(jià)值并不高,但是對(duì)這些大量復(fù)雜的數(shù)據(jù)進(jìn)行分析處理后,卻能從中提煉出很有價(jià)值的信息。對(duì)大數(shù)據(jù)的分析,主要分為五個(gè)方面:可視化分析(Analytic Visualization)、數(shù)據(jù)挖掘算法(Date Mining Algorithms)、預(yù)測(cè)性分析能力(Predictive Analytic Capabilities)、語(yǔ)義引擎(Semantic Engines)和數(shù)據(jù)質(zhì)量管理(Data Quality Management)。
比如說(shuō)百度制作的“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”就是典型的案例之一??梢暬治鰧⒋罅繌?fù)雜的數(shù)據(jù)自動(dòng)轉(zhuǎn)化成直觀形象的圖表,使其能夠更加容易的被普通消費(fèi)者所接受和理解。
數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的理論核心,其本質(zhì)是一組根據(jù)算法事先定義好的數(shù)學(xué)公式,將收集到的數(shù)據(jù)作為參數(shù)變量帶入其中,從而能夠從大量復(fù)雜的數(shù)據(jù)中提取到有價(jià)值的信息。著名的“啤酒和尿布”的故事就是數(shù)據(jù)挖掘算法的經(jīng)典案例。沃爾瑪通過(guò)對(duì)啤酒和尿布購(gòu)買數(shù)據(jù)的分析,挖掘出以前未知的兩者間的聯(lián)系,并利用這種聯(lián)系,提升了商品的銷量。亞馬遜的推薦引擎和谷歌的廣告系統(tǒng)都大量使用了數(shù)據(jù)挖掘算法。
預(yù)測(cè)性分析能力是大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域。從大量復(fù)雜的數(shù)據(jù)中挖掘出規(guī)律,建立起科學(xué)的事件模型,通過(guò)將新的數(shù)據(jù)帶入模型,就可以預(yù)測(cè)未來(lái)的事件走向。預(yù)測(cè)性分析能力常常被應(yīng)用在金融分析和科學(xué)研究領(lǐng)域,用于股票預(yù)測(cè)或氣象預(yù)測(cè)等。
語(yǔ)義引擎是機(jī)器學(xué)習(xí)的成果之一。過(guò)去,計(jì)算機(jī)對(duì)用戶輸入內(nèi)容的理解僅僅停留在字符階段,不能很好的理解輸入內(nèi)容的意思,因此常常不能準(zhǔn)確的了解用戶的需求。通過(guò)對(duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行分析,讓計(jì)算機(jī)從中自我學(xué)習(xí),可以使計(jì)算機(jī)能夠盡量精確的了解用戶輸入內(nèi)容的意思,從而把握住用戶的需求,提供更好的用戶體驗(yàn)。蘋果的Siri和谷歌的Google Now都采用了語(yǔ)義引擎。
數(shù)據(jù)質(zhì)量管理是大數(shù)據(jù)在企業(yè)領(lǐng)域的重要應(yīng)用。為了保證大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,需要將大數(shù)據(jù)中不真實(shí)的數(shù)據(jù)剔除掉,保留最準(zhǔn)確的數(shù)據(jù)。這就需要建立有效的數(shù)據(jù)質(zhì)量管理系統(tǒng),分析收集到的大量復(fù)雜的數(shù)據(jù),挑選出真實(shí)有效的數(shù)據(jù)。
分布式計(jì)算(Distributed Computing)
對(duì)于如何處理大數(shù)據(jù),計(jì)算機(jī)科學(xué)界有兩大方向:第一個(gè)方向是集中式計(jì)算,就是通過(guò)不斷增加處理器的數(shù)量來(lái)增強(qiáng)單個(gè)計(jì)算機(jī)的計(jì)算能力,從而提高處理數(shù)據(jù)的速度。第二個(gè)方向是分布式計(jì)算,就是把一組計(jì)算機(jī)通過(guò)網(wǎng)絡(luò)相互連接組成分散系統(tǒng),然后將需要處理的大量數(shù)據(jù)分散成多個(gè)部分,交由分散系統(tǒng)內(nèi)的計(jì)算機(jī)組同時(shí)計(jì)算,最后將這些計(jì)算結(jié)果合并得到最終的結(jié)果。盡管分散系統(tǒng)內(nèi)的單個(gè)計(jì)算機(jī)的計(jì)算能力不強(qiáng),但是由于每個(gè)計(jì)算機(jī)只計(jì)算一部分?jǐn)?shù)據(jù),而且是多臺(tái)計(jì)算機(jī)同時(shí)計(jì)算,所以就分散系統(tǒng)而言,處理數(shù)據(jù)的速度會(huì)遠(yuǎn)高于單個(gè)計(jì)算機(jī)。
過(guò)去,分布式計(jì)算理論比較復(fù)雜,技術(shù)實(shí)現(xiàn)比較困難,因此在處理大數(shù)據(jù)方面,集中式計(jì)算一直是主流解決方案。IBM的大型機(jī)就是集中式計(jì)算的典型硬件,很多銀行和政府機(jī)構(gòu)都用它處理大數(shù)據(jù)。不過(guò),對(duì)于當(dāng)時(shí)的互聯(lián)網(wǎng)公司來(lái)說(shuō),IBM的大型機(jī)的價(jià)格過(guò)于昂貴。因此,互聯(lián)網(wǎng)公司的把研究方向放在了可以使用在廉價(jià)計(jì)算機(jī)上的分布式計(jì)算上。
服務(wù)器集群(Server Cluster)
服務(wù)器集群是一種提升服務(wù)器整體計(jì)算能力的解決方案。它是由互相連接在一起的服務(wù)器群所組成的一個(gè)并行式或分布式系統(tǒng)。服務(wù)器集群中的服務(wù)器運(yùn)行同一個(gè)計(jì)算任務(wù)。因此,從外部看,這群服務(wù)器表現(xiàn)為一臺(tái)虛擬的服務(wù)器,對(duì)外提供統(tǒng)一的服務(wù)。
盡管單臺(tái)服務(wù)器的運(yùn)算能力有限,但是將成百上千的服務(wù)器組成服務(wù)器集群后,整個(gè)系統(tǒng)就具備了強(qiáng)大的運(yùn)算能力,可以支持大數(shù)據(jù)分析的運(yùn)算負(fù)荷。Google,Amazon,阿里巴巴的計(jì)算中心里的服務(wù)器集群都達(dá)到了5000臺(tái)服務(wù)器的規(guī)模。
大數(shù)據(jù)的技術(shù)基礎(chǔ):MapReduce、Google File System和BigTable
MapReduce是分布式計(jì)算框架,GFS(Google File System)是分布式文件系統(tǒng),BigTable是基于Google File System的數(shù)據(jù)存儲(chǔ)系統(tǒng),這三大組件組成了Google的分布式計(jì)算模型。
Google的分布式計(jì)算模型相比于傳統(tǒng)的分布式計(jì)算模型有三大優(yōu)勢(shì):
(1).它簡(jiǎn)化了傳統(tǒng)的分布式計(jì)算理論,降低了技術(shù)實(shí)現(xiàn)的難度,可以進(jìn)行實(shí)際的應(yīng)用。
(2).它可以應(yīng)用在廉價(jià)的計(jì)算設(shè)備上,只需增加計(jì)算設(shè)備的數(shù)量就可以提升整體的計(jì)算能力,應(yīng)用成本十分低廉。
(3)3.它被Google應(yīng)用在Google的計(jì)算中心,取得了很好的效果,有了實(shí)際應(yīng)用的證明。
Google的這三篇論文也就成為了大數(shù)據(jù)時(shí)代的技術(shù)核心。
主流的三大分布式計(jì)算系統(tǒng):Hadoop,Spark和Storm
由于Google沒(méi)有開(kāi)源Google分布式計(jì)算模型的技術(shù)實(shí)現(xiàn),所以其他互聯(lián)網(wǎng)公司只能根據(jù)Google三篇技術(shù)論文中的相關(guān)原理,搭建自己的分布式計(jì)算系統(tǒng)。
Yahoo的工程師Doug Cutting和Mike Cafarella在2005年合作開(kāi)發(fā)了分布式計(jì)算系統(tǒng)Hadoop。
后來(lái),Hadoop被貢獻(xiàn)給了Apache基金會(huì),成為了Apache基金會(huì)的開(kāi)源項(xiàng)目。Doug Cutting也成為Apache基金會(huì)的主席,主持Hadoop的開(kāi)發(fā)工作。
Hadoop采用MapReduce分布式計(jì)算框架,并根據(jù)GFS開(kāi)發(fā)了HDFS分布式文件系統(tǒng),根據(jù)BigTable開(kāi)發(fā)了HBase數(shù)據(jù)存儲(chǔ)系統(tǒng)。
不過(guò),Hadoop的開(kāi)源特性使其成為分布式計(jì)算系統(tǒng)的事實(shí)上的國(guó)際標(biāo)準(zhǔn)。Yahoo,F(xiàn)acebook,Amazon以及國(guó)內(nèi)的百度,阿里巴巴等眾多互聯(lián)網(wǎng)公司都以Hadoop為基礎(chǔ)搭建自己的分布式計(jì)算系統(tǒng)。
Spark也是Apache基金會(huì)的開(kāi)源項(xiàng)目,它由加州大學(xué)伯克利分校的實(shí)驗(yàn)室開(kāi)發(fā),是另外一種重要的分布式計(jì)算系統(tǒng)。它在Hadoop的基礎(chǔ)上進(jìn)行了一些架構(gòu)上的改良。
Spark與Hadoop的區(qū)別在什么地方?
Spark與Hadoop最大的不同點(diǎn)在于,Hadoop使用硬盤來(lái)存儲(chǔ)數(shù)據(jù),而Spark使用內(nèi)存來(lái)存儲(chǔ)數(shù)據(jù),因此Spark可以提供超過(guò)Hadoop100倍的運(yùn)算速度。但是,由于內(nèi)存斷電后會(huì)丟失數(shù)據(jù),Spark不能用于處理需要長(zhǎng)期保存的數(shù)據(jù)。
Storm是Twitter主推的分布式計(jì)算系統(tǒng),它由BackType團(tuán)隊(duì)開(kāi)發(fā),是Apache基金會(huì)的孵化項(xiàng)目。它在Hadoop的基礎(chǔ)上提供了實(shí)時(shí)運(yùn)算的特性,可以實(shí)時(shí)的處理大數(shù)據(jù)流。不同于Hadoop和Spark,Storm不進(jìn)行數(shù)據(jù)的收集和存儲(chǔ)工作,它直接通過(guò)網(wǎng)絡(luò)實(shí)時(shí)的接受數(shù)據(jù)并且實(shí)時(shí)的處理數(shù)據(jù),然后直接通過(guò)網(wǎng)絡(luò)實(shí)時(shí)的傳回結(jié)果。
Hadoop,Spark和Storm是目前最重要的三大分布式計(jì)算系統(tǒng),各自的優(yōu)點(diǎn)如下:
Hadoop常用于離線的復(fù)雜的大數(shù)據(jù)處理,
Spark常用于離線的快速的大數(shù)據(jù)處理,
Storm常用于在線的實(shí)時(shí)的大數(shù)據(jù)處理。
聯(lián)系客服