大數(shù)據(jù)處理技術(shù)正在改變目前計(jì)算機(jī)的運(yùn)行模式。我們已經(jīng)從中獲得了大量收益,因?yàn)檎谴髷?shù)據(jù)處理技術(shù)給我們帶來(lái)了搜索引擎Google。然而故事才剛剛開(kāi)始,基于以下幾個(gè)原因,我們說(shuō)大數(shù)據(jù)處理技術(shù)正在改變著這個(gè)世界:
它能處理幾乎各種類型的海量數(shù)據(jù),無(wú)論是微博、文章、電子郵件、文檔、音頻、視頻,還是其它形態(tài)的數(shù)據(jù)。
它工作的速度非??焖伲簩?shí)際上幾乎實(shí)時(shí)。
它具有普及性:因?yàn)樗玫亩际亲钇胀ǖ统杀镜挠布?/p>
大數(shù)據(jù)為以下這些公司提供了解決方案:eBay、Facebook、LinkedIn、Netflix、Twitter以及Zynga。
事實(shí)上大數(shù)據(jù)處理并非一項(xiàng)新的技術(shù),它僅僅是小部分技術(shù)的一個(gè)術(shù)語(yǔ)簡(jiǎn)稱。其中的某些技術(shù)已經(jīng)與我們生活了數(shù)度春秋,然而時(shí)間推移到2012年,其中更小的部分技術(shù)就讓大數(shù)據(jù)一下子火了起來(lái)。
目前大數(shù)據(jù)市場(chǎng)已經(jīng)達(dá)到700億美元規(guī)模并以每年15%的速度增長(zhǎng)
數(shù)據(jù)存儲(chǔ)巨頭EMC的CEO Pat Gelsinger最近透露,大數(shù)據(jù)處理目前的市場(chǎng)規(guī)模已達(dá)700億美元并且正以每年15-20%的速度增長(zhǎng)。幾乎所有主要的大科技公司都對(duì)大數(shù)據(jù)感興趣,對(duì)該領(lǐng)域的產(chǎn)品及服務(wù)進(jìn)行了大量投入。其中包括了IBM、Oracel、EMC、HP、Dell、SGI、日立、Yahoo等,而且這個(gè)列表還在繼續(xù)。
眼見(jiàn)著這些財(cái)大氣粗的大公司動(dòng)作頻繁,VC們也沒(méi)閑著,因?yàn)樵擃I(lǐng)域?qū)⑹撬麄兾磥?lái)的搖錢(qián)樹(shù)。他們正尋找大數(shù)據(jù)領(lǐng)域可靠的創(chuàng)業(yè)企業(yè)進(jìn)行投資,創(chuàng)新孵化機(jī)構(gòu)Accel就于去年11月建立了1億美元的“大數(shù)據(jù)”基金,同樣,IA Ventures也于之前的一個(gè)月建立同樣的基金。
大數(shù)據(jù)領(lǐng)域正吸引大量的人才進(jìn)入
所有關(guān)于大數(shù)據(jù)的東西都在于“大”:潛在市場(chǎng)大、該領(lǐng)域的企業(yè)大,就算是那些剛剛進(jìn)入該領(lǐng)域進(jìn)行創(chuàng)業(yè)的小團(tuán)隊(duì),他們拿到的投資額也大。因此,如果看到大量硅谷工程師牛人進(jìn)入該領(lǐng)域的情形,我們不會(huì)感到意外。來(lái)自Google、Facebook以及Yahoo的工程師,正排隊(duì)進(jìn)入像Cloudera、Hortonworks以及MapR這樣的大數(shù)據(jù)領(lǐng)域創(chuàng)業(yè)公司。
廉價(jià)技術(shù)使大數(shù)據(jù)變成可能
大數(shù)據(jù)處理之所以發(fā)生是因?yàn)榇嬖谶@樣的需求:
◆ 云技術(shù)給了人們廉價(jià)獲取巨量計(jì)算和存儲(chǔ)的能力。你不必去買(mǎi)一個(gè)大型機(jī)或者一個(gè)數(shù)據(jù)處理中心,只需為你使用的部分付費(fèi)。
◆ 社交媒體意味著每個(gè)人都在創(chuàng)造有趣的數(shù)據(jù)也消費(fèi)這些數(shù)據(jù)。
◆ 擁有GPS定位系統(tǒng)的智能手機(jī)正提供人們?nèi)粘I钪行碌囊?jiàn)解。
◆ 寬帶連接的普及使得人們時(shí)刻保持在線狀態(tài)
任務(wù)分解,大數(shù)據(jù)技術(shù)由四種技術(shù)構(gòu)成
我們前面提到大數(shù)據(jù)技術(shù)是很多種技術(shù)的某種集合,它們包括:
◆ 分析技術(shù)
◆ 存儲(chǔ)數(shù)據(jù)庫(kù)
◆ NoSQL數(shù)據(jù)庫(kù)
◆ 分布式計(jì)算技術(shù)
分析技術(shù)意味著對(duì)海量數(shù)據(jù)進(jìn)行分析以實(shí)時(shí)得出答案
人們會(huì)思考運(yùn)用云技術(shù)我們能做什么?IBM副總裁兼云計(jì)算CTO Lauren States解釋說(shuō),運(yùn)用大數(shù)據(jù)與分析技術(shù),我們希望能獲得一種洞察力。她提供了一個(gè)澳大利亞網(wǎng)球公開(kāi)賽的一個(gè)案例。當(dāng)時(shí)組委會(huì)在IBM的云平臺(tái)上建立了一個(gè)叫Slam Tracker的分析引擎,Slam Tracker收集了最近5年比賽的近3900萬(wàn)份統(tǒng)計(jì)數(shù)據(jù)。通過(guò)這些數(shù)據(jù)分析出了運(yùn)動(dòng)員們?cè)讷@勝時(shí)的一些表現(xiàn)模式。
存儲(chǔ)數(shù)據(jù)庫(kù)(In-Memory Databases)讓信息快速流通
大數(shù)據(jù)分析經(jīng)常會(huì)用到存儲(chǔ)數(shù)據(jù)庫(kù)來(lái)快速處理大量記錄的數(shù)據(jù)流通。比方說(shuō),它可以對(duì)某個(gè)全國(guó)性的連鎖店某天的銷售記錄進(jìn)行分析,得出某些特征進(jìn)而根據(jù)某種規(guī)則及時(shí)為消費(fèi)者提供獎(jiǎng)勵(lì)回饋。
NoSQL數(shù)據(jù)庫(kù)是一種建立在云平臺(tái)的新型數(shù)據(jù)處理模式
NoSQL在很多情況下又叫做云數(shù)據(jù)庫(kù)。由于其處理數(shù)據(jù)的模式完全是分布于各種低成本服務(wù)器和存儲(chǔ)磁盤(pán),因此它可以幫助網(wǎng)頁(yè)和各種交互性應(yīng)用快速處理過(guò)程中的海量數(shù)據(jù)。它為Zynga、AOL、Cisco以及其它一些企業(yè)提供網(wǎng)頁(yè)應(yīng)用支持。正常的數(shù)據(jù)庫(kù)需要將數(shù)據(jù)進(jìn)行歸類組織,類似于姓名和賬號(hào)這些數(shù)據(jù)需要進(jìn)行結(jié)構(gòu)化和標(biāo)簽化。但是NoSQL數(shù)據(jù)庫(kù)則完全不關(guān)心這些,它能處理各種類型的文檔。
在處理海量數(shù)據(jù)同時(shí)請(qǐng)求時(shí),它也不會(huì)有任何問(wèn)題。比方說(shuō),如果有1000萬(wàn)人同時(shí)登錄某個(gè)Zynga游戲,它會(huì)將這些數(shù)據(jù)分布于全世界的服務(wù)器并通過(guò)它們來(lái)進(jìn)行數(shù)據(jù)處理,結(jié)果與1萬(wàn)人同時(shí)在線沒(méi)什么兩樣。
NoSQL來(lái)自于大小不一的玩家
現(xiàn)今有多種不同類型的NoSQL模式。商業(yè)化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;開(kāi)源免費(fèi)的模式如CouchDB和Cassandra;還有亞馬遜最新推出的NoSQL云服務(wù)。
分布式計(jì)算結(jié)合了NoSQL與實(shí)時(shí)分析技術(shù)
如果想要同時(shí)處理實(shí)時(shí)分析與NoSQL數(shù)據(jù)功能,那么你就需要分布式計(jì)算技術(shù)。分布式技術(shù)結(jié)合了一系列技術(shù),可以對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術(shù)的普及變成可能。
SGI的Sunny Sundstrom解釋說(shuō),通過(guò)對(duì)那些看起來(lái)沒(méi)什么關(guān)聯(lián)和組織的數(shù)據(jù)進(jìn)行分析,我們可以獲得很多有價(jià)值的結(jié)果。比如說(shuō)可以分發(fā)現(xiàn)一些新的模式或者新的行為。運(yùn)用分布式計(jì)算技術(shù),銀行可以從消費(fèi)者的一些消費(fèi)行為和模式中識(shí)別網(wǎng)上交易的欺詐行為。
分布式計(jì)算技術(shù)讓不可能變成可能
分布式計(jì)算技術(shù)正引領(lǐng)著將不可能變?yōu)榭赡?。Skybox Imaging就是一個(gè)很好的例子。這家公司通過(guò)對(duì)衛(wèi)星圖片的分析得出一些實(shí)時(shí)結(jié)果,比如說(shuō)某個(gè)城市有多少可用停車空間,或者某個(gè)港口目前有多少船只。它們將這些實(shí)時(shí)結(jié)果賣(mài)給需要的客戶。沒(méi)有這個(gè)技術(shù),要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的。
分布式計(jì)算技術(shù)是Google的核心,也是Yahoo的基礎(chǔ)
目前分布式計(jì)算技術(shù)是基于Google創(chuàng)建的技術(shù),但是卻最新由Yahoo所建立。Google總共發(fā)表了兩篇論文,2004年發(fā)表的叫做MapReduce的論文介紹了如何在多計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)處理;另一篇于2003年發(fā)表,主要是關(guān)于如何在多服務(wù)器上存儲(chǔ)數(shù)據(jù)。
來(lái)自于Yahoo的工程師Doug Cutting在讀了這兩篇論文后建立了分布式計(jì)算平臺(tái),以他兒子的玩具大象命名。如今Cutting已經(jīng)離開(kāi)Yahoo,加入了最大的分布式系統(tǒng)創(chuàng)業(yè)公司Cloudera。其它一些創(chuàng)業(yè)企業(yè)包括MapR以及Yahoo自己的Hortonworks。但是所有最大的IT供應(yīng)商都提供這個(gè)技術(shù),它們或者以產(chǎn)品的形式,或者基于其云計(jì)算平臺(tái)。
該技術(shù)經(jīng)常是免費(fèi)的,但是咨詢費(fèi)則相當(dāng)昂貴
大多數(shù)大數(shù)據(jù)技術(shù)都是開(kāi)放項(xiàng)目并且免費(fèi),通過(guò)提供服務(wù)來(lái)盈利。很多有需求的IT企業(yè)不了解如何建立這方面的應(yīng)用,也沒(méi)有這個(gè)必要。主流的IT公司都在建立這方面的產(chǎn)品和服務(wù),以幫助企業(yè)充分利用分布式技術(shù)的強(qiáng)大優(yōu)勢(shì)。其中包括了很多正在崛起的初創(chuàng)企業(yè)。我們可以相信,未來(lái)類似Google這樣的企業(yè)將更多來(lái)自于這些創(chuàng)業(yè)企業(yè)。
原文:http://www.36kr.com/p/85415.html