】“企業(yè)信息集成(EII):實(shí)用方式”于2005年發(fā)布,描述了一套集成不同數(shù)據(jù)源的方法論,它利用了當(dāng)時(shí)的先進(jìn)技術(shù),如面向服務(wù)架構(gòu)(SOA)、Web Services、XML、資源描述架構(gòu)(RDF)、基于XML的元數(shù)據(jù)格式、數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)等。EII基本能夠?yàn)殛P(guān)系型數(shù)據(jù)元素提供統(tǒng)一視角,但在性能效率上還無法替代數(shù)據(jù)倉庫和多維數(shù)據(jù)庫。五年之后,技術(shù)已經(jīng)得到了顯著提升,不僅體現(xiàn)在對(duì)分散數(shù)據(jù)的操作上,還體現(xiàn)在簡化了單一容器下不同數(shù)據(jù)的整合,以及對(duì)數(shù)據(jù)深入挖掘的能力上。
數(shù)據(jù)管理方式的技術(shù)正在向虛擬化轉(zhuǎn)換,包括低成本存儲(chǔ)、云計(jì)算、NoSQL數(shù)據(jù)庫以及Hadoop等。當(dāng)我們提起虛擬化時(shí),已經(jīng)遠(yuǎn)遠(yuǎn)超出為一臺(tái)物理機(jī)器提供一套軟件實(shí)例的概念。時(shí)至今日,我們可以對(duì)服務(wù)器、存儲(chǔ)以及網(wǎng)絡(luò)實(shí)現(xiàn)虛擬化。所有這些虛擬化意味著我們不再受這些物理?xiàng)l件的限制,能夠迅速構(gòu)建物理環(huán)境,以支持我們特定時(shí)刻的特定需求。當(dāng)面對(duì)Gb、Tb、Pb等級(jí)數(shù)據(jù)量的處理需求時(shí),我們基本能擺脫結(jié)構(gòu)化的數(shù)據(jù)倉庫。我們不再需要僅僅為了發(fā)掘業(yè)務(wù)的某一方面而建立特殊的環(huán)境了。
低成本存儲(chǔ)在業(yè)務(wù)的數(shù)據(jù)存儲(chǔ)方面節(jié)省了開支。高昂的存儲(chǔ)成本會(huì)使得企業(yè)尋找在有限規(guī)模的數(shù)據(jù)之上進(jìn)行關(guān)鍵業(yè)務(wù)分析的方案,這使得如何選擇最重要的數(shù)據(jù)變得十分關(guān)鍵,而且還限制了系統(tǒng)能夠處理的數(shù)據(jù)的質(zhì)量。負(fù)面影響是業(yè)務(wù)最終可能面臨很少選擇,因?yàn)闊o法提供足夠的歷史數(shù)據(jù),從而識(shí)別一種有效關(guān)鍵模式?;蛘咭?yàn)楦甙旱耐度胧沟脴I(yè)務(wù)停止,而使用常規(guī)慣例來確定模式。
云計(jì)算提供了一種方式,可以滿足需要通過海量數(shù)據(jù)源在合理時(shí)間范圍內(nèi)產(chǎn)生結(jié)果的需求。海量數(shù)據(jù)處理需要兩點(diǎn):彈性存儲(chǔ),CPU。高速網(wǎng)絡(luò)很有幫助,但是稍后我們會(huì)看到,軟件在處理海量數(shù)據(jù)時(shí),它并非是系統(tǒng)的瓶頸。彈性存儲(chǔ)意味著企業(yè)不會(huì)在期望操作的數(shù)據(jù)規(guī)?;蝾愋蜕鲜艿较拗?,從而降低了使用數(shù)據(jù)倉庫無法獲取最佳結(jié)果的風(fēng)險(xiǎn)。更多的CPU使得結(jié)果能夠在期望的時(shí)間范圍內(nèi)更快地被交付。
NoSQL提供了對(duì)海量數(shù)據(jù)的支持,但與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫沒有關(guān)聯(lián)。而且大部分NoSQL數(shù)據(jù)庫是開源的,無須支付購買證書等費(fèi)用。NoSQL對(duì)于表結(jié)構(gòu)有著驚人的靈活性,無須隨著系統(tǒng)的改進(jìn)而不斷修改完善定義。NoSQL可以支持不同數(shù)據(jù)源的合并查看,從而成為EII之后另一種備選方案,這或許是NoSQL最重要的方面了。
NoSQL內(nèi)置了數(shù)據(jù)冗余與分布式數(shù)據(jù)存儲(chǔ)機(jī)制。海量數(shù)據(jù)的最大問題之一就是磁盤讀寫,NoSQL通過將數(shù)據(jù)分布至一系列節(jié)點(diǎn)來緩解這個(gè)問題。當(dāng)發(fā)出查詢請求時(shí),這些節(jié)點(diǎn)能夠并行查詢自身節(jié)點(diǎn),而不是僅僅依靠一塊磁盤,一個(gè)磁盤陣列或一條網(wǎng)絡(luò)連接,數(shù)據(jù)查詢能夠在節(jié)省了讀寫開支之后變得更加迅速。
最終,我們來討論Hadoop,集合了上述所有技術(shù)力量于一身、用于檢測和分析數(shù)據(jù)的框架。有些人可能認(rèn)為Hadoop是一項(xiàng)NoSQL技術(shù),實(shí)際上Hadoop是一個(gè)分布組件的java框架,用于分解“吃大象”(此處是雙關(guān)語,Hadoop是以創(chuàng)立者的兒子給自己的大象玩具起的名字)的工作——每次一口。
Hadoop自身實(shí)際上與待處理數(shù)據(jù)是彼此獨(dú)立的。它將大型查詢?nèi)蝿?wù)分解為小的并行查詢?nèi)蝿?wù),然后收集結(jié)果,并整合出答案返回給用戶。Hadoop相對(duì)于NoSQL來說是一種并行查詢框架,通過云計(jì)算驅(qū)動(dòng)節(jié)點(diǎn),運(yùn)行在低成本存儲(chǔ)及虛擬化技術(shù)之上。
Kickin的知識(shí)回顧
EII第一次作為最佳實(shí)踐出現(xiàn)于2003-2004年,那是的關(guān)鍵要素就是無需再移動(dòng)數(shù)據(jù)了。當(dāng)時(shí)大部分的數(shù)據(jù)中心仍然運(yùn)行于低速網(wǎng)絡(luò)中,有限的空間用于復(fù)制數(shù)據(jù)。之后,EII成為了當(dāng)時(shí)可用技術(shù)和問題域中最優(yōu)秀的解決方案。EII的某些方面的優(yōu)秀即使在海量數(shù)據(jù)中也是很顯著的。
EII的優(yōu)點(diǎn)之一就是將處理過程轉(zhuǎn)移到數(shù)據(jù)所在地。海量數(shù)據(jù)方案的關(guān)鍵架構(gòu)要素之一就是將處理過程轉(zhuǎn)移到數(shù)據(jù)所在地,而不是轉(zhuǎn)移數(shù)據(jù)。EII中的一條重要原則就是使用數(shù)據(jù)歸屬地的查詢功能。這項(xiàng)實(shí)踐就是構(gòu)建靠近數(shù)據(jù)源網(wǎng)絡(luò)的Web Service,能夠建立起通用查詢接口,但只針對(duì)本地?cái)?shù)據(jù)庫進(jìn)行查詢。我們通過開放的基于Web的接口解決了數(shù)據(jù)的專有格式的問題,從而使得多個(gè)數(shù)據(jù)子集能夠迅速的整合并以統(tǒng)一模式展示。
有了低成本存儲(chǔ)和10G網(wǎng)絡(luò)之后,我們就不必那么擔(dān)心數(shù)據(jù)冗余與數(shù)據(jù)遷移,但還是有其他問題存在,數(shù)據(jù)倉庫無法確保數(shù)據(jù)的原始性便是其中之一。在EII中,我們將從原始數(shù)據(jù)源獲取數(shù)據(jù)視為“黃金準(zhǔn)則”,這樣就能夠保證信息未被修改過,且是準(zhǔn)確的。
Big Data要求數(shù)據(jù)必須轉(zhuǎn)移到新的物理位置,這樣可信任度又成為了問題。EII的那些獲取基線數(shù)據(jù)的最佳實(shí)踐仍然是相關(guān)且重要的。實(shí)際上,那些為EII設(shè)計(jì)開發(fā)的Web Services接口最終在Big Data的啟用中扮演主要角色。
當(dāng)然,討論數(shù)據(jù)管理不能不涉及到安全問題。EII在安全領(lǐng)域中還是超過了Big Data。技術(shù)上來說,Big Data在數(shù)據(jù)集成方面更加高效與敏捷,但是大部分缺少了固有的安全性,因?yàn)樵谠O(shè)計(jì)上會(huì)加大處理的難度。所以,可能要由源系統(tǒng)來擔(dān)任起數(shù)據(jù)訪問安全方面的責(zé)任。因?yàn)镋II直接在源系統(tǒng)中查詢數(shù)據(jù),所以必須要求有適當(dāng)?shù)氖跈?quán),否則查詢就將失敗。
上述關(guān)于安全討論描述的是內(nèi)在的安全控制情況。將訪問權(quán)限控制列表集成到數(shù)據(jù)庫中非常合理,這將確保安全能夠作為查詢的一部分進(jìn)行維護(hù)。然后,一旦能夠直接查詢NoSQL數(shù)據(jù)源,就意味著能夠自由的訪問你所有的數(shù)據(jù)。
總結(jié)
引用老的Virginia Slims的廣告中的臺(tái)詞:“我們已經(jīng)歷很長的路途了,寶貝兒!”文中討論到的技術(shù)的發(fā)展已經(jīng)對(duì)21世紀(jì)第二個(gè)10年中的數(shù)據(jù)解決方案產(chǎn)生了巨大的影響。商業(yè)化與小型化掃除了一些思想體系上的障礙,使得架構(gòu)師能夠?qū)W⒂趩栴}本身,而不是尋找一些實(shí)用及可實(shí)現(xiàn)的問題解決方案。構(gòu)建10000個(gè)節(jié)點(diǎn)的處理引擎,能夠在數(shù)秒內(nèi)處理Pb級(jí)別的數(shù)據(jù)量,而每小時(shí)只消耗幾便士,這就是數(shù)據(jù)處理的美好前景。
有了這些新工具,我們就要重新考慮如何推進(jìn)數(shù)據(jù)管理。為何數(shù)據(jù)無法很好地維護(hù)整合,并且需要花費(fèi)數(shù)萬美元。數(shù)據(jù)管理幾乎是每個(gè)大中型企業(yè)的心病。數(shù)據(jù)管理曾經(jīng)在存儲(chǔ)、管理、訪問、整合以及查詢上花費(fèi)巨大,但是今后不再會(huì)是這樣了。
關(guān)于作者
JP Morgenthal 是在IT策略與云計(jì)算方面的世界級(jí)專家之一。他在企業(yè)復(fù)雜問題域的解決方案實(shí)施上擁有25年的經(jīng)驗(yàn)。JP Morgenthal以其在技術(shù)方面的深度和廣度,有利的支持他在企業(yè)問題域中的敏感度。他在集成、軟件開發(fā)和云計(jì)算是一位讓人尊敬的作者,同時(shí)也是InfoQ在引領(lǐng)云計(jì)算方面的編輯,并且參與了“云計(jì)算:評(píng)估風(fēng)險(xiǎn)”項(xiàng)目。
關(guān)于譯者
陳晨, 長期從事互聯(lián)網(wǎng)信息收集分析領(lǐng)域架構(gòu)研究。對(duì)海量數(shù)據(jù)處理,NoSQL等處理運(yùn)用有豐富經(jīng)驗(yàn),關(guān)注過程方法及其自動(dòng)化。他的新浪微博:一酌散千憂
聯(lián)系客服