一、數(shù)據(jù)集成(Data Integration DI)概述
信息技術(shù)發(fā)展迅速。但這并不總是導(dǎo)致現(xiàn)有技術(shù)滅絕。想想信息傳播的渠道,比如廣播、電視和互聯(lián)網(wǎng)。例如,許多人認(rèn)為電視將取代收音機(jī),因特網(wǎng)將使電視和收音機(jī)都變得無用或多余?那還沒有發(fā)生。無線電仍然使用和傳播,但方式與1970年不同。電視一開始可能只有三個(gè)網(wǎng)絡(luò),但現(xiàn)在它的覆蓋面更廣了。互聯(lián)網(wǎng)為分享信息提供了許多新的選擇,但仍有許多人通過廣播或電視收聽或收看。想想流媒體電影、衛(wèi)星廣播和機(jī)頂盒。舊技術(shù)不但沒有消亡,反而常常能夠共存。
數(shù)據(jù)集成就是這樣。數(shù)據(jù)集成現(xiàn)在需要隱式地包含在日常業(yè)務(wù)操作中,而不是主要在批處理的基礎(chǔ)上使用內(nèi)部數(shù)據(jù)。它需要同時(shí)處理本地和外部源,同時(shí)在不同的延遲下工作,從實(shí)時(shí)到流。接下來讓我們看看數(shù)據(jù)集成是如何發(fā)展到現(xiàn)在的,它是如何繼續(xù)發(fā)展的,以及組織必須做些什么來保持他們的DI方法的相關(guān)性。
二、數(shù)據(jù)集成要適應(yīng)環(huán)境變化
當(dāng)組織意識到他們需要多個(gè)系統(tǒng)或數(shù)據(jù)源來管理業(yè)務(wù)時(shí),數(shù)據(jù)集成就開始了。通過數(shù)據(jù)集成,組織可以將多個(gè)數(shù)據(jù)源組合在一起。數(shù)據(jù)倉庫經(jīng)常使用數(shù)據(jù)集成技術(shù)來整合操作系統(tǒng)數(shù)據(jù)并支持報(bào)告或分析需求。
但事情越來越復(fù)雜。當(dāng)大量的應(yīng)用程序、系統(tǒng)和數(shù)據(jù)倉庫形成了一個(gè)難以維護(hù)的數(shù)據(jù)大雜燴時(shí),企業(yè)架構(gòu)師開始創(chuàng)建更智能的框架來集成數(shù)據(jù)。他們創(chuàng)建了規(guī)范模型、面向批處理的ETL/ELT(extract trans-form load,extract load-transform)、面向服務(wù)的體系結(jié)構(gòu)、企業(yè)服務(wù)總線、消息隊(duì)列、實(shí)時(shí)web服務(wù)、使用本體的語義集成、主數(shù)據(jù)管理等等。
經(jīng)過這么長時(shí)間,有了這些成熟的技術(shù),為什么我們還需要新的數(shù)據(jù)集成模式?
數(shù)據(jù)集的變化可以歸結(jié)為以下三種趨勢:
·越來越多的組織為獲得競爭優(yōu)勢除了使用本地?cái)?shù)據(jù)還使用外部數(shù)據(jù),數(shù)據(jù)源包括社交媒體、非結(jié)構(gòu)化文本和來自智能終端和其他設(shè)備的傳感器數(shù)據(jù)。
·數(shù)據(jù)量以前未有的速度增長。
·Hadoop使用的增加。
這些趨勢給現(xiàn)有的基礎(chǔ)設(shè)施帶來了巨大的壓力,迫使它們?nèi)プ鲆恍┰静淮蛩阕龅氖虑椤T诿鎸Υ髷?shù)據(jù)時(shí),由于技術(shù)不靈活,許多組織發(fā)現(xiàn)幾乎不可能充分利用所有的數(shù)據(jù)。除此之外,他們還需要關(guān)注邏輯數(shù)據(jù)倉庫的出現(xiàn)、集成模式的必要共存以及支持這些需求所需的新功能,如Hadoop、NoSQL、內(nèi)存計(jì)算和數(shù)據(jù)虛擬化。
三、大數(shù)據(jù)增加了數(shù)據(jù)集成的復(fù)雜性
在所有影響數(shù)據(jù)整合的趨勢中,最大的改變游戲規(guī)則的是大數(shù)據(jù)。大數(shù)據(jù)正在迅速升級數(shù)據(jù)集成挑戰(zhàn)。為什么?
·隨著大數(shù)據(jù)的出現(xiàn),各種數(shù)據(jù)結(jié)構(gòu)之間的差異變得更加顯著。
·整合外部數(shù)據(jù)源意味著組織對數(shù)據(jù)源的數(shù)據(jù)標(biāo)準(zhǔn)幾乎沒有控制權(quán)。
·體積和速度呈指數(shù)增長,將系統(tǒng)和過程推向極限。
我們必須重新思考組織如何管理數(shù)據(jù)。我們必須重新設(shè)計(jì)我們的信息管理戰(zhàn)略,使之與之相匹配。讓我們看看今天的情況。
1、物聯(lián)網(wǎng)
根據(jù)Gartner的數(shù)據(jù),到2020年,通過物聯(lián)網(wǎng)連接的設(shè)備將超過200億臺。這些設(shè)備已經(jīng)產(chǎn)生了大量連續(xù)流動(dòng)的數(shù)據(jù)。想想遠(yuǎn)程患者監(jiān)控、預(yù)測性資產(chǎn)維護(hù)、智能能源網(wǎng)、基于位置的促銷和智能城市(建筑和交通管理)。這些只是物聯(lián)網(wǎng)將如何改變我們生活的世界的一些場景。
現(xiàn)在最緊迫的挑戰(zhàn)是找到經(jīng)濟(jì)上可行的方法來存儲所有這些流數(shù)據(jù)。云和Hadoop平臺是一些更有希望的答案。另一個(gè)挑戰(zhàn)是通過分析實(shí)時(shí)處理這些數(shù)據(jù)的能力,從數(shù)據(jù)中獲取近乎即時(shí)的洞察力。在這里,像事件流處理這樣的技術(shù)可以在數(shù)據(jù)到達(dá)數(shù)據(jù)存儲之前分析數(shù)據(jù),在創(chuàng)建數(shù)據(jù)時(shí)識別關(guān)注數(shù)據(jù)的模式。
2、新一代客戶智能
客戶關(guān)懷一直是企業(yè)關(guān)注的焦點(diǎn),原因顯而易見。通過客戶關(guān)系管理(CRM)應(yīng)用程序,企業(yè)可以跨渠道改善客戶體驗(yàn),并提出客戶可能購買的產(chǎn)品和服務(wù)。CRM通過主數(shù)據(jù)管理構(gòu)建客戶數(shù)據(jù)的單一視圖。這種單一的視圖可以提高營銷活動(dòng)的效率,推動(dòng)更好的保留率,創(chuàng)造新的交叉銷售和追加銷售機(jī)會,并對客戶終身價(jià)值等方面有更多的了解。
大數(shù)據(jù)帶來的變化是,企業(yè)現(xiàn)在有機(jī)會通過整合全新的數(shù)據(jù)源來構(gòu)建更完整、更準(zhǔn)確的客戶視圖。包括 社交媒體或網(wǎng)絡(luò)論壇,或者組織已經(jīng)擁有但不能很好處理的現(xiàn)有數(shù)據(jù),比如電子郵件和電話錄音。
有了新的數(shù)據(jù)源,組織可以:
·根據(jù)客戶反饋,對客戶保留或產(chǎn)品開發(fā)進(jìn)行情緒分析。
·進(jìn)行實(shí)時(shí)營銷,使他們能夠快速確定最重要的客戶。
·在交互點(diǎn)提供次優(yōu)報(bào)價(jià),或根據(jù)用戶位置向移動(dòng)設(shè)備發(fā)送定制建議。
由于涉及的數(shù)據(jù)量、存儲所有這些額外數(shù)據(jù)所需的成本以及數(shù)據(jù)的非結(jié)構(gòu)化性質(zhì),傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫不適合處理這種新的復(fù)雜性。為了使用這些新的數(shù)據(jù)源實(shí)現(xiàn)高級客戶智能,我們顯然需要新的數(shù)據(jù)集成技術(shù)。
3、防止欺詐和報(bào)告風(fēng)險(xiǎn)的新監(jiān)管要求
金融機(jī)構(gòu)正面臨前所未有的壓力,要求它們加強(qiáng)防范欺詐和風(fēng)險(xiǎn)管理框架。
監(jiān)管機(jī)構(gòu)要求銀行采取的措施帶來了許多數(shù)據(jù)集成挑戰(zhàn):
·風(fēng)險(xiǎn)報(bào)告現(xiàn)在通常以銀行沒有真正準(zhǔn)備好的方式進(jìn)行。風(fēng)險(xiǎn)數(shù)據(jù)匯總必須在企業(yè)級進(jìn)行,整合所有部門、業(yè)務(wù)線和國家/地區(qū)的風(fēng)險(xiǎn)數(shù)據(jù)。
·銀行必須能夠在幾分鐘內(nèi)而不是幾周內(nèi)重新計(jì)算整個(gè)風(fēng)險(xiǎn)投資組合。監(jiān)管報(bào)告以及第三方風(fēng)險(xiǎn)評估必須基于實(shí)時(shí)數(shù)據(jù)實(shí)時(shí)生成。這需要超出當(dāng)前數(shù)據(jù)基礎(chǔ)架構(gòu)范圍的靈活性。
·最后,銀行需要根據(jù)基礎(chǔ)數(shù)據(jù)的質(zhì)量來衡量報(bào)告的可信度。這意味著它們可以建立聚合過程的譜系,并根據(jù)預(yù)定義的標(biāo)準(zhǔn)度量數(shù)據(jù)質(zhì)量。
在欺詐檢測和預(yù)防方面,金融機(jī)構(gòu)必須能夠基于交易數(shù)據(jù)實(shí)時(shí)識別欺詐行為模式。他們需要能夠發(fā)現(xiàn)欺詐網(wǎng)絡(luò)。當(dāng)然,他們需要立即停止欺詐交易。
實(shí)時(shí)處理這些高度不穩(wěn)定的數(shù)據(jù)以便他們能夠立即采取行動(dòng)需要新的數(shù)據(jù)集成技術(shù)。
4、數(shù)據(jù)貨幣化
在物聯(lián)網(wǎng)的推動(dòng)下,數(shù)據(jù)貨幣化現(xiàn)在是一種利用有價(jià)值的數(shù)據(jù)資產(chǎn)創(chuàng)造新收入渠道的具體方式。電信和媒體公司、零售商、金融機(jī)構(gòu)、通信服務(wù)提供商和其他行業(yè)也是如此。這些公司面臨的主要問題是,如何在利用這些數(shù)據(jù)賺錢的同時(shí)遵守隱私問題和法規(guī)。
通常的挑戰(zhàn)仍然存在——在不同的組織之間共享數(shù)據(jù)以及整合內(nèi)部和外部數(shù)據(jù)。但應(yīng)用于數(shù)據(jù)貨幣化計(jì)劃的數(shù)據(jù)集成帶來了一系列全新的問題:
·如何在控制數(shù)據(jù)的同時(shí)共享數(shù)據(jù)。
·如何確保安全和隱私要求得到明確定義和遵守。
·如何管理適當(dāng)?shù)脑L問權(quán)限粒度級別。
·如何確保治理框架和工具能夠有效地定義哪些是可接受的,哪些是不可接受的,如何控制數(shù)據(jù)的共享方式,以及如何監(jiān)控?cái)?shù)據(jù)的使用。
·如何加快數(shù)據(jù)集成以實(shí)現(xiàn)近實(shí)時(shí)決策。
這些挑戰(zhàn)要求我們重新思考現(xiàn)有的數(shù)據(jù)集成模式和工具集。
5、成本優(yōu)化和流程效率壓力
IT和業(yè)務(wù)部門都面臨著降低運(yùn)營成本的壓力。大數(shù)據(jù)給這一領(lǐng)域帶來了新的潛力。下面舉幾個(gè)例子。
·價(jià)格和庫存優(yōu)化。數(shù)據(jù)在通過價(jià)格和銷售效率實(shí)現(xiàn)增長方面起著關(guān)鍵作用。整合大數(shù)據(jù)將帶來更深入的洞察。
·交付優(yōu)化。對于物流或航運(yùn)業(yè)的大公司來說,路線優(yōu)化并不是什么新鮮事,但GPS數(shù)據(jù)以及傳感器數(shù)據(jù)提供了優(yōu)化各種事物的新方法??紤]車輛保養(yǎng)、里程成本、自我完善的路線優(yōu)化、客戶服務(wù)等。車隊(duì)遠(yuǎn)程通信和高級分析可能會將路線優(yōu)化提升到一個(gè)新的水平。但是,能夠有效地集成和準(zhǔn)備生成的大量數(shù)據(jù)是成功的基本條件。
·預(yù)測性資產(chǎn)維護(hù)。這一能力為石油和天然氣、制造業(yè)、物流和電信等行業(yè)削減成本帶來了巨大機(jī)遇。但這給數(shù)據(jù)集成帶來了嚴(yán)重障礙。這是因?yàn)樗枰鲃?dòng)收集和分析來自傳感器的大量數(shù)據(jù),將這些數(shù)據(jù)與歷史數(shù)據(jù)聚合在一起,并能夠識別模式,從而發(fā)出預(yù)警并采取預(yù)防措施。
·IT基礎(chǔ)設(shè)施。在降低IT成本方面,現(xiàn)在能夠以低成本存儲數(shù)據(jù),并通過授權(quán)非技術(shù)用戶來減少技術(shù)資源的工作量。與傳統(tǒng)的數(shù)據(jù)倉庫設(shè)備服務(wù)器相比,Hadoop等大數(shù)據(jù)生態(tài)系統(tǒng)提供了一種經(jīng)濟(jì)高效的數(shù)據(jù)存儲方式。當(dāng)數(shù)據(jù)量越大時(shí)優(yōu)勢越明顯。Hadoop還可以部署在廉價(jià)的硬件上進(jìn)行數(shù)據(jù)處理和存儲,并且該軟件比傳統(tǒng)的數(shù)據(jù)庫軟件便宜。Hadoop還為企業(yè)用戶或數(shù)據(jù)科學(xué)家打開了一扇大門,讓他們能夠在不受IT干預(yù)的情況下使用大數(shù)據(jù)并從中獲取見解。
許多組織正在采用自助數(shù)據(jù)準(zhǔn)備,因此技術(shù)資源不必處理臨時(shí)報(bào)告和準(zhǔn)備請求。
TDWI發(fā)現(xiàn),無論組織在數(shù)據(jù)驅(qū)動(dòng)的道路上走了多遠(yuǎn),他們?nèi)匀涣信e了以下五個(gè)障礙,以改進(jìn)數(shù)據(jù)和分析的使用,從而推動(dòng)決策、管理日常運(yùn)營和制定戰(zhàn)略:
·缺乏執(zhí)行支持公司戰(zhàn)略。
·難以訪問和整合所有相關(guān)數(shù)據(jù)。
·缺乏構(gòu)建BI/分析以支持決策或行動(dòng)的技能。
·數(shù)據(jù)質(zhì)量不足。
·數(shù)據(jù)治理和安全問題。
四、數(shù)據(jù)管理戰(zhàn)略面臨的新挑戰(zhàn)
從數(shù)據(jù)集成的角度來看,大數(shù)據(jù)的破壞性影響是顯而易見的。在這一點(diǎn)上,IT部門試圖弄清楚如何實(shí)現(xiàn)大數(shù)據(jù)的承諾,以及它對他們的數(shù)據(jù)管理戰(zhàn)略意味著什么。三個(gè)領(lǐng)域?qū)?shù)據(jù)戰(zhàn)略尤其重要:數(shù)據(jù)訪問和存儲、元數(shù)據(jù)管理和大數(shù)據(jù)治理。
1、數(shù)據(jù)存取和存儲以及實(shí)時(shí)存取和傳送
大數(shù)據(jù)將涉及大量數(shù)據(jù),這意味著企業(yè)必須找到更省錢的數(shù)據(jù)存儲方式,以便補(bǔ)充現(xiàn)有的數(shù)據(jù)倉庫基礎(chǔ)設(shè)施。傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)不一定是經(jīng)濟(jì)上可行的選擇。
企業(yè)在處理各種各樣的數(shù)據(jù)源和格式時(shí),必須設(shè)法避免與傳統(tǒng)數(shù)據(jù)集成技術(shù)相關(guān)的成本和復(fù)雜性。例如,它們必須適應(yīng)諸如操作應(yīng)用程序、網(wǎng)絡(luò)和社交媒體、傳感器和智能儀表等源,以及包括基于文件、語音記錄、關(guān)系數(shù)據(jù)庫和事件流數(shù)據(jù)在內(nèi)的格式。
Hadoop處理讀模式而不是寫模式的能力提供了所需的敏捷性,可以快速地將新的數(shù)據(jù)源引入系統(tǒng),而不必將不適當(dāng)?shù)母袷饺M(jìn)預(yù)定義的數(shù)據(jù)模型中。Hadoop可以用作:
·新一代數(shù)據(jù)倉庫,以擴(kuò)充或補(bǔ)充傳統(tǒng)的RDBMS。
·為新數(shù)據(jù)類型尤其是RDBMS無法處理的非結(jié)構(gòu)化數(shù)據(jù)和新數(shù)據(jù)源如web、社交網(wǎng)絡(luò)和傳感器數(shù)據(jù)提供新的數(shù)據(jù)存儲。
·數(shù)據(jù)湖,將組織的所有可用數(shù)據(jù)暫存在最低處理狀態(tài)。
傳統(tǒng)上,數(shù)據(jù)訪問取決于預(yù)定義的數(shù)據(jù)模型、預(yù)定義的數(shù)據(jù)集和預(yù)定義的分析模型。任何變更都需要IT部門的參與,這通常意味著在設(shè)計(jì)、實(shí)現(xiàn)和測試方面需要更長的周期。但為了跟上競爭對手的步伐,企業(yè)需要實(shí)時(shí)訪問數(shù)據(jù)。只有這樣,他們才能在需要時(shí)靈活地從數(shù)據(jù)中提取有價(jià)值的見解。
像自助數(shù)據(jù)準(zhǔn)備這樣的技術(shù)使這成為可能。組織需要能夠在數(shù)據(jù)產(chǎn)生或可用后立即使用數(shù)據(jù),以便員工能夠?qū)崟r(shí)做出決策,并在事件發(fā)生時(shí)立即采取行動(dòng)。
要做到這一點(diǎn),他們必須能夠動(dòng)態(tài)地分析數(shù)據(jù)流,甚至在數(shù)據(jù)到達(dá)數(shù)據(jù)存儲之前。事件流處理通過每秒流式傳輸數(shù)百萬條記錄并提供盡可能最新的信息來滿足這一需求。
2、元數(shù)據(jù)管理
傳統(tǒng)的元數(shù)據(jù)管理通過開發(fā)邏輯數(shù)據(jù)模型來描述數(shù)據(jù)庫之間的關(guān)系。這解決了與數(shù)據(jù)豎井相關(guān)的固有不一致性,并支持出于報(bào)告或分析目的的數(shù)據(jù)共享。
但是隨著數(shù)據(jù)源數(shù)量的增加,包括不在消費(fèi)組織控制下的數(shù)據(jù)源,主動(dòng)管理元數(shù)據(jù)變得越來越困難。此外,在Hadoop中使用基于讀取原理的模式時(shí),加載的數(shù)據(jù)的格式在入口可能是未知的。最后,必須定義元數(shù)據(jù),以便共享和理解數(shù)據(jù)。
有了大數(shù)據(jù),通過映射試圖弄清楚每一點(diǎn)數(shù)據(jù)是不現(xiàn)實(shí)的。
相反,組織需要關(guān)注:
·數(shù)據(jù)源映射、意義和相關(guān)性,而不是數(shù)據(jù)模型。
·應(yīng)用于選定數(shù)量的業(yè)務(wù)關(guān)鍵型數(shù)據(jù)元素的語義元數(shù)據(jù)。
·定義業(yè)務(wù)術(shù)語和所有者,并將其與技術(shù)元數(shù)據(jù)相關(guān)聯(lián)。
反過來,使用這些數(shù)據(jù)的人將負(fù)責(zé)提供有用的業(yè)務(wù)定義,說明這些數(shù)據(jù)是什么和做什么。
3、大數(shù)據(jù)治理
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)集成的主要挑戰(zhàn)之一是建立和維持正確的治理水平。也不全是技術(shù)問題。數(shù)據(jù)質(zhì)量、數(shù)據(jù)隱私和安全、相關(guān)性和意義等關(guān)鍵問題必須在企業(yè)級加以考慮。
讓我們再深入一點(diǎn)。鏈接到新的數(shù)據(jù)源,特別是外部數(shù)據(jù)源和非結(jié)構(gòu)化數(shù)據(jù),將使數(shù)據(jù)無法用于典型的數(shù)據(jù)治理計(jì)劃。換言之,標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量將不再受到源頭控制。
盡管如此,試圖強(qiáng)制實(shí)施大數(shù)據(jù)的傳統(tǒng)質(zhì)量級別可能會抹殺與快速數(shù)據(jù)集成和實(shí)時(shí)處理數(shù)據(jù)流相關(guān)的大數(shù)據(jù)計(jì)劃的預(yù)期好處。在數(shù)據(jù)質(zhì)量要求和大數(shù)據(jù)速度的好處之間,顯然可以找到一個(gè)平衡點(diǎn)。
將大量數(shù)據(jù)帶入數(shù)據(jù)湖將引發(fā)圍繞隱私條例和安全的問題。我們有權(quán)存儲這些數(shù)據(jù)嗎?要多久?例如,《一般數(shù)據(jù)保護(hù)條例》規(guī)定了歐盟居民數(shù)據(jù)的隱私和保護(hù)規(guī)則。組織不僅需要考慮如何處理這些數(shù)據(jù),還需要考慮處理這些數(shù)據(jù)的方法。誰應(yīng)該訪問數(shù)據(jù)?我們怎樣才能使用它呢?數(shù)據(jù)治理機(jī)構(gòu)必須通過定義規(guī)則并監(jiān)控其在整個(gè)組織中的應(yīng)用來解決這些問題。元數(shù)據(jù)管理和數(shù)據(jù)血緣是幫助組織遵守隱私和安全要求的重要技術(shù)。
業(yè)務(wù)詞匯表是另一種方法,可以用來存儲諸如“利潤”或“客戶”之類的業(yè)務(wù)術(shù)語,并將它們與字段或報(bào)表之類的技術(shù)元數(shù)據(jù)相關(guān)聯(lián)。通過這種方式,用戶可以看到更改表中的字段將如何影響下游的其他數(shù)據(jù)源、目標(biāo)、分析模型或報(bào)表。
即使不需要從存儲的角度停用數(shù)據(jù),我們?nèi)匀恍枰芾頂?shù)據(jù)生命周期,以保持對相關(guān)數(shù)據(jù)的關(guān)注。這將避免外來噪音,并防止數(shù)據(jù)湖成為數(shù)據(jù)沼澤。
案例:
能源領(lǐng)導(dǎo)者將數(shù)據(jù)轉(zhuǎn)化為客戶智能
Enerjisa為900萬客戶提供服務(wù),它將客戶數(shù)據(jù)保存在不同的系統(tǒng)上,并以不同的格式進(jìn)行數(shù)據(jù)清理和分析。為了使各個(gè)業(yè)務(wù)領(lǐng)域能夠更有效地運(yùn)作,Enerjisa需要?jiǎng)?chuàng)建一個(gè)單一的客戶數(shù)據(jù)源,所有部門都可以方便地訪問該數(shù)據(jù)源,以便進(jìn)行高級分析。
使用SAS數(shù)據(jù)管理和SAS數(shù)據(jù)質(zhì)量,Enerjisa:
·提高了成功聯(lián)系客戶的比率。
·總記錄減少25%。
·將記錄的完整性提高了30%。
·為客戶智能和分析建立了基礎(chǔ)。
五、數(shù)據(jù)集成模式的新范例
在選擇將數(shù)據(jù)與消費(fèi)應(yīng)用程序和進(jìn)程分離的方法時(shí),沒有什么靈丹妙藥。每個(gè)組織都必須采用最適合它的集成規(guī)范和技術(shù)。下面是幾種選擇:
·數(shù)據(jù)虛擬化和邏輯數(shù)據(jù)倉庫可以提高靈活性和快速部署,是對傳統(tǒng)集成體系結(jié)構(gòu)的增強(qiáng),等等。
·數(shù)據(jù)可以通過不同的功能如Hadoop、NoSQL、內(nèi)存計(jì)算等交付。
·可實(shí)時(shí)處理大容量數(shù)據(jù)流。
·數(shù)據(jù)服務(wù)可以通過云交付—例如,集成平臺即服務(wù)。
1、Hadoop以及Hadoop加強(qiáng)
盡管Hadoop是支持大數(shù)據(jù)的現(xiàn)代基礎(chǔ)設(shè)施的關(guān)鍵組件之一,但在數(shù)據(jù)管理方面,Hadoop本身顯然存在不足。
Hadoop在廉價(jià)的數(shù)據(jù)存儲和分布式數(shù)據(jù)處理方面帶來了很多價(jià)值。它還具有容錯(cuò)性和可擴(kuò)展性。但是,如果沒有專門的技能,也不需要在MapReduce、Pig或HiveQL中進(jìn)行大量的定制開發(fā),那么它還不夠成熟,無法有效地操作數(shù)據(jù)。
企業(yè)最好能夠擁有一個(gè)能夠抽象復(fù)雜性的現(xiàn)代數(shù)據(jù)管理平臺。這種平臺還可以跨Hadoop和傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)重用現(xiàn)有的技能和數(shù)據(jù)集成資產(chǎn),如數(shù)據(jù)質(zhì)量驗(yàn)證和數(shù)據(jù)轉(zhuǎn)換流。
為了確保Hadoop不會成為與更廣泛的企業(yè)數(shù)據(jù)管理基礎(chǔ)設(shè)施隔離的另一個(gè)數(shù)據(jù)豎井,建立元數(shù)據(jù)血緣關(guān)系非常重要。組織還需要確保整個(gè)企業(yè)數(shù)據(jù)環(huán)境包括Hadoop中數(shù)據(jù)安全規(guī)則的一致性。數(shù)據(jù)管理平臺應(yīng)在Hadoop和傳統(tǒng)RDBMS之間無縫工作,并應(yīng)提供:
·訪問Hadoop分布式文件系統(tǒng),以便從Hadoop加載/加載到Hadoop。
·嵌入式數(shù)據(jù)治理,包括業(yè)務(wù)術(shù)語表、元數(shù)據(jù)管理和細(xì)粒度安全管理。
·嵌入式數(shù)據(jù)質(zhì)量,包括分析、監(jiān)控和數(shù)據(jù)質(zhì)量轉(zhuǎn)換,如解析、標(biāo)準(zhǔn)化、匹配等。
·分析數(shù)據(jù)準(zhǔn)備,包括聚合、透視、轉(zhuǎn)置等。
2、基于數(shù)據(jù)虛擬化與邏輯數(shù)據(jù)倉庫的模式
我們已經(jīng)知道傳統(tǒng)數(shù)據(jù)倉庫的局限性很多年了。首先,它需要花費(fèi)大量的時(shí)間和資金來建造和維護(hù)。在大數(shù)據(jù)時(shí)代,復(fù)制數(shù)據(jù)和構(gòu)建每個(gè)數(shù)據(jù)集市來回答預(yù)定義的查詢已不再實(shí)用。將數(shù)據(jù)倉庫視為報(bào)告和分析的唯一、單一的“真相版本”的概念已被證明不足以處理當(dāng)今種類繁多、數(shù)量龐大的數(shù)據(jù)。而業(yè)務(wù)用戶對傳統(tǒng)的數(shù)據(jù)倉庫不滿意的原因是它通常提供錯(cuò)誤的數(shù)據(jù)粒度和及時(shí)性級別,并且它們不夠靈活,無法適應(yīng)不斷變化的業(yè)務(wù)需求。
隨著大數(shù)據(jù)的出現(xiàn),新技術(shù)開始發(fā)揮作用,比如Hadoop集群和NoSQL數(shù)據(jù)庫?,F(xiàn)在很明顯,這些新的數(shù)據(jù)存儲方式不會取代傳統(tǒng)的RDBMS。相反,它們將擴(kuò)展或補(bǔ)充RDBMS,以實(shí)現(xiàn)廉價(jià)的數(shù)據(jù)存儲和并行處理。
為了回應(yīng)Hadoop可能成為另一個(gè)數(shù)據(jù)倉庫的想法,幾年前Gartner提出了邏輯數(shù)據(jù)倉庫(LDW)的概念,這是實(shí)現(xiàn)數(shù)據(jù)虛擬化的一種方法。其想法是提供一個(gè)企業(yè)數(shù)據(jù)層,該層提供跨組織豎井的多結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)資產(chǎn)的統(tǒng)一視圖。
這種轉(zhuǎn)變從中央存儲庫和數(shù)據(jù)模型的概念轉(zhuǎn)向了數(shù)據(jù)服務(wù)、數(shù)據(jù)處理和訪問引擎的概念。LDW提供了來自傳統(tǒng)和新興數(shù)據(jù)源的虛擬數(shù)據(jù)層。
新的數(shù)據(jù)集成模式可以通過創(chuàng)建虛擬數(shù)據(jù)層而無需物理移動(dòng)數(shù)據(jù),從而簡化數(shù)據(jù)訪問、管理、安全性和性能。這將業(yè)務(wù)用戶從復(fù)雜的Hadoop環(huán)境中解放出來。他們可以在Hadoop中查看數(shù)據(jù),并將其與SapHana、Ibmdb2、Oracle或Teradata等其他數(shù)據(jù)庫系統(tǒng)進(jìn)行虛擬混合。通過改進(jìn)的安全性和治理特性確保正確的用戶可以訪問正確的數(shù)據(jù)。
3、基于流分析和實(shí)時(shí)數(shù)據(jù)分析的模式
許多大數(shù)據(jù)場景是基于能夠?qū)崟r(shí)分析來自交易系統(tǒng)、傳感器、網(wǎng)絡(luò)導(dǎo)航日志和其他來源的大量流數(shù)據(jù)。在這些情況下,傳統(tǒng)的收集、存儲和分析數(shù)據(jù)的方法不再有效?,F(xiàn)在,我們需要能夠?qū)崟r(shí)監(jiān)控高容量數(shù)據(jù)流的匯合,當(dāng)它們發(fā)生時(shí),識別事件的模式和序列,并生成洞察力,以便我們能夠立即采取行動(dòng)。
新的數(shù)據(jù)集成模式中事件流處理不再對存儲的數(shù)據(jù)運(yùn)行查詢,而是存儲查詢并通過查詢流傳輸大量數(shù)據(jù),實(shí)時(shí)過濾、聚合和檢測模式。這個(gè)過程發(fā)生在數(shù)據(jù)被存儲之前,減少了被分析信息的延遲。
事件流處理還可以區(qū)分與業(yè)務(wù)相關(guān)的信息和無關(guān)緊要的信息—存儲重要信息,同時(shí)丟棄其余信息。反過來,組織可以大大降低存儲和處理成本,減輕傳統(tǒng)數(shù)據(jù)集成框架的負(fù)擔(dān)。最后,數(shù)據(jù)質(zhì)量進(jìn)程如標(biāo)準(zhǔn)化可以在流中應(yīng)用,而數(shù)據(jù)處于運(yùn)動(dòng)狀態(tài)。
4、基于內(nèi)存計(jì)算和數(shù)據(jù)庫計(jì)算模式
內(nèi)存和數(shù)據(jù)庫計(jì)算加快了分析的價(jià)值實(shí)現(xiàn)。但它們也代表了一種減少數(shù)據(jù)移動(dòng)和簡化數(shù)據(jù)集成需求的方法。
通過將邏輯移到數(shù)據(jù)庫,或者將數(shù)據(jù)加載到內(nèi)存中以便在內(nèi)存中進(jìn)行實(shí)時(shí)分析,在分析數(shù)據(jù)之前,不需要將各種數(shù)據(jù)源塞進(jìn)規(guī)范的數(shù)據(jù)模型中。這種模式在解決方案中需要包括可視化分析和可視化統(tǒng)計(jì)、用于Hadoop的內(nèi)存統(tǒng)計(jì)、高性能分析、評分加速器和數(shù)據(jù)庫技術(shù)以及用于Hadoop的數(shù)據(jù)加載器。
越來越多的數(shù)據(jù)集成模式,再加上大量的各種各樣的外部數(shù)據(jù)源,使得組織必須擁有幫助他們從數(shù)據(jù)中獲取價(jià)值的工具。Hadoop不再被視為“ETL殺手”。如今,新的集成模式如事件流處理、數(shù)據(jù)虛擬化、內(nèi)存和數(shù)據(jù)庫處理為數(shù)據(jù)集成領(lǐng)域注入了新的活力。就像互聯(lián)網(wǎng)并沒有真正扼殺電視,電視也沒有讓廣播變得毫無用處一樣,數(shù)據(jù)整合在今天依然存在。在傳媒業(yè)中,多種媒介并存,成為獲取信息、新聞和娛樂的平行渠道,數(shù)據(jù)集成模式一樣,也將百花齊放,百家爭鳴!
聯(lián)系客服