隨著數(shù)據(jù)量的飛速增長(zhǎng),對(duì)大數(shù)據(jù)進(jìn)行獲取、存儲(chǔ)、組織、分析和決策的基本策略是把大數(shù)據(jù)的計(jì)算推向數(shù)據(jù),而不是移動(dòng)數(shù)據(jù),因?yàn)樵诖髷?shù)據(jù)處理過(guò)程中數(shù)據(jù)移動(dòng)代價(jià)過(guò)高,在分布式環(huán)境中,傳統(tǒng)的數(shù)據(jù)處理方法在不高于TB級(jí)別數(shù)據(jù)處理可能可以接受,但面對(duì)大數(shù)據(jù),其執(zhí)行時(shí)間和執(zhí)行成本至少會(huì)增長(zhǎng)幾個(gè)數(shù)量級(jí),特別是對(duì)大量實(shí)時(shí)數(shù)據(jù)分析,這種移動(dòng)數(shù)據(jù)的計(jì)算模式是不可取的。小編帶大家來(lái)了解一下當(dāng)前研究現(xiàn)狀及未來(lái)大數(shù)據(jù)主要研究熱點(diǎn)。
一般情況下,大數(shù)據(jù)管理全生命周期過(guò)程包括大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策等五個(gè)階段,圍繞大數(shù)據(jù)管理生態(tài)系統(tǒng)的研究,可以圍繞結(jié)構(gòu)化數(shù)據(jù)管理及非結(jié)構(gòu)化數(shù)據(jù)管理兩個(gè)方面進(jìn)行研究。圍繞結(jié)構(gòu)化數(shù)據(jù)管理,即傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),衍生出傳統(tǒng)的大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策生態(tài)系統(tǒng)。而關(guān)系數(shù)據(jù)庫(kù)作為大數(shù)據(jù)管理的核心數(shù)據(jù)引擎,各類結(jié)構(gòu)化數(shù)據(jù)通過(guò)ETI工具按照其結(jié)構(gòu)特征進(jìn)行組織,存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中,再在客戶端通過(guò)SQL語(yǔ)言進(jìn)行例行性的數(shù)據(jù)分析,進(jìn)而根據(jù)數(shù)據(jù)分析結(jié)構(gòu)進(jìn)行技術(shù)性決策分析,目前,處理結(jié)構(gòu)化大數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)管理技術(shù)已經(jīng)非常成熟,如商業(yè)型Oracle、SqlServer、開(kāi)源型MySql等,均具備了強(qiáng)大的結(jié)構(gòu)化數(shù)據(jù)管理功能,并且均擁有較為強(qiáng)大的數(shù)據(jù)倉(cāng)庫(kù)功能,對(duì)于的數(shù)據(jù)挖掘技術(shù)也已經(jīng)充分滿足一般的結(jié)構(gòu)化數(shù)據(jù)分析、決策需求。
但針對(duì)復(fù)雜的結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)處理需求,Sql語(yǔ)言表達(dá)能力就暴露出了一定局限性,在某些特殊大數(shù)據(jù)處理過(guò)程中,需要把數(shù)據(jù)從數(shù)據(jù)庫(kù)中讀取出來(lái),導(dǎo)致大量數(shù)據(jù)的移動(dòng),將數(shù)據(jù)導(dǎo)入到前端分析工具(如SPSS、SAS等),借助于統(tǒng)計(jì)分析軟件進(jìn)行大數(shù)據(jù)深度分析和決策,這樣產(chǎn)生的致命性問(wèn)題就是大數(shù)據(jù)移動(dòng)會(huì)造成性能急劇下降。因此,SPSS、SAS等數(shù)據(jù)分析企業(yè)正在致力于把計(jì)算過(guò)程封裝在數(shù)據(jù)庫(kù)系統(tǒng)中執(zhí)行,但目前進(jìn)展有限,并且大數(shù)據(jù)分析函數(shù)的分布化、并行化、數(shù)據(jù)處理系統(tǒng)的擴(kuò)展性、靈活性、智能性等仍然是難以解決的問(wèn)題。
隨著Hadoop開(kāi)源框架及其相關(guān)技術(shù)的迅速興起和逐步完善,使其成為打開(kāi)大數(shù)據(jù)之門(mén)的金鑰匙,也成為解決傳統(tǒng)的大數(shù)據(jù)處理方式所面臨的兩大難題的關(guān)鍵,從而推動(dòng)大數(shù)據(jù)管理的新生態(tài)系統(tǒng)的浮現(xiàn)。從技術(shù)上看,Hadoop兩項(xiàng)關(guān)鍵服務(wù):采用Hadoop分布式文件系統(tǒng)的可靠大數(shù)據(jù)存儲(chǔ)服務(wù)、及基于MapReduce編程模型的高性能并行大數(shù)據(jù)處理服務(wù),能夠提供對(duì)結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實(shí),并可與老的信息管理系統(tǒng)部署在一起,從而能夠以有利新方式組裝新舊數(shù)據(jù)集合,讓圖書(shū)館可以根據(jù)自有信息和問(wèn)題定制知識(shí)服務(wù)組合方式,更容易地分析和研究復(fù)雜數(shù)據(jù),同時(shí)作為一個(gè)自愈系統(tǒng),在出現(xiàn)系統(tǒng)變化或故障時(shí),它仍可以運(yùn)行大規(guī)模的高性能處理任務(wù),并提供數(shù)據(jù)。其他諸如HadoopCommon、Chukwa、HBase、Hive、Pig、ZooKeeper等大數(shù)據(jù)處理添加件、交叉集成件和定制實(shí)現(xiàn),均能為新生態(tài)系統(tǒng)提供強(qiáng)大的技術(shù)支持。
盡管如此,當(dāng)前各個(gè)方面的相關(guān)研究都不能完美的解決大數(shù)據(jù)核心問(wèn)題,仍然有許多極具挑戰(zhàn)性的工作等待著我們?nèi)パ芯俊?/p>
(1)關(guān)系數(shù)據(jù)庫(kù)和MapReduce技術(shù)有機(jī)融合的研究。如前所述,MapReduce與關(guān)系數(shù)據(jù)庫(kù)各有優(yōu)缺點(diǎn),如何依據(jù)不同的大數(shù)據(jù)處理業(yè)務(wù)需求,設(shè)計(jì)同時(shí)具備兩種技術(shù)優(yōu)勢(shì)的技術(shù)架構(gòu)(即有關(guān)系數(shù)據(jù)庫(kù)的通用性、易操作性和MapReduce的可擴(kuò)展性、開(kāi)放性、靈活性、容錯(cuò)性和智能性),在對(duì)關(guān)系數(shù)據(jù)庫(kù)更深層次了解的基礎(chǔ)上,深入分析MapReduce編程模型內(nèi)在的局限性和并行計(jì)算模型。如何有機(jī)融合關(guān)系數(shù)據(jù)庫(kù)技術(shù)和MapReduce技術(shù),使之能夠有效地支持迭代式并行計(jì)算模型的執(zhí)行,這也是大數(shù)據(jù)處理技術(shù)的核心問(wèn)題之一。
(2)對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)更加復(fù)雜的或更大規(guī)模的分析。MapReduce計(jì)算模型在很大程度上,能夠彌補(bǔ)關(guān)系數(shù)據(jù)庫(kù)在這兩個(gè)方面的缺憾,而在云計(jì)算環(huán)境中可以初步實(shí)現(xiàn)更加復(fù)雜和更大規(guī)模的大數(shù)據(jù)處理,比如大規(guī)模社會(huì)計(jì)算、大規(guī)模社交網(wǎng)絡(luò)、時(shí)間序列分析、大規(guī)模圖分析、及更細(xì)粒度的仿真等,這一類技術(shù)仍然不夠成熟,需要花費(fèi)更多的時(shí)間、精力去探討。
(3)大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口。如何較好的實(shí)現(xiàn)大數(shù)據(jù)處理的各個(gè)階段的可視化、智能化、及個(gè)性化的展示和操作,尤其是多維數(shù)據(jù)操作、及決策結(jié)果評(píng)估的可視化的智能展示。
(4)大數(shù)據(jù)管理系統(tǒng)的可靠性研究。當(dāng)前大數(shù)據(jù)管理體系是基于大規(guī)模廉價(jià)計(jì)算機(jī)集群的云計(jì)算環(huán)境,采用的是主從結(jié)構(gòu),由此決定了主節(jié)點(diǎn)一旦失效,勢(shì)必會(huì)造成整個(gè)大數(shù)據(jù)管理系統(tǒng)失效的局面。因此,如何在不影響全局的情況下,提高大數(shù)據(jù)管理系統(tǒng)的主節(jié)點(diǎn)的可靠性,將是未來(lái)需要解決的關(guān)鍵問(wèn)題之一。
(5)大數(shù)據(jù)的網(wǎng)絡(luò)傳輸和壓縮問(wèn)題。MapReduce編程模型的計(jì)算特征決定了其性能取決于I/O和網(wǎng)絡(luò)傳輸質(zhì)量和計(jì)算代價(jià)。而數(shù)據(jù)壓縮技術(shù)不僅可節(jié)省存儲(chǔ)空間、節(jié)省I/O及網(wǎng)絡(luò)傳輸帶價(jià),還可利用云計(jì)算環(huán)境中存儲(chǔ)能力和并行計(jì)算能力,大幅提升大數(shù)據(jù)管理系統(tǒng)的性能。HeYongqiang和AvriliaFloratou所帶領(lǐng)的兩個(gè)團(tuán)隊(duì)均成功的利用數(shù)據(jù)壓縮技術(shù)提升了大數(shù)據(jù)管理系統(tǒng)的性能,但這些研究都是基于他們各自的大數(shù)據(jù)處理模型,而非默認(rèn)的Hadoop數(shù)據(jù)處理模型。因此,基于MapReduce編程模型的通用型大數(shù)據(jù)壓縮技術(shù)也是尚待研究的核心技術(shù)之一。
聯(lián)系客服