與傳統(tǒng)的數(shù)據(jù)架構(gòu)要求整合、面向主題、固定分層等特點(diǎn)不同,數(shù)據(jù)湖為企業(yè)全員獨(dú)立參與數(shù)據(jù)運(yùn)營和應(yīng)用創(chuàng)新提供了極大的靈活性,并可優(yōu)先確保數(shù)據(jù)的低時(shí)延、高質(zhì)量和高可用,給運(yùn)營商數(shù)據(jù)架構(gòu)優(yōu)化提供了很好的參考思路。運(yùn)營商數(shù)據(jù)架構(gòu)的現(xiàn)狀及挑戰(zhàn)從數(shù)據(jù)的系統(tǒng)歸屬上看,運(yùn)營商數(shù)據(jù)可分為MSS(管理支撐系統(tǒng))的面向人、財(cái)、物管理類數(shù)據(jù),BSS(業(yè)務(wù)支撐系統(tǒng))的面向客戶和產(chǎn)品的營銷及客戶服務(wù)數(shù)據(jù),OSS(運(yùn)營支撐系統(tǒng))的面向產(chǎn)品和網(wǎng)絡(luò)的功能及運(yùn)營服務(wù)數(shù)據(jù),三者之間既相對松耦合,又有著緊密的協(xié)作關(guān)系,BSS和OSS的銜接點(diǎn)主要在產(chǎn)品及開通、排障服務(wù),MSS和BSS、OSS的銜接點(diǎn)主要在參與人和資源。從數(shù)據(jù)分類來看,運(yùn)營商的數(shù)據(jù)可分為作為企業(yè)核心的功能類實(shí)體數(shù)據(jù)、表示企業(yè)所有運(yùn)營過程的活動(dòng)類數(shù)據(jù)、體現(xiàn)內(nèi)外部客戶感知并圍繞兩大主線所產(chǎn)生的感知類指標(biāo)數(shù)據(jù)以及與管理相關(guān)的人、財(cái)、物及流程數(shù)據(jù)。電信運(yùn)營商數(shù)據(jù)范圍示例如圖1所示。
由于國內(nèi)運(yùn)營商以兩級經(jīng)營模式為主體,系統(tǒng)的集約化建設(shè)程度相對較低,以分域(M/B/O)、分省建設(shè)為主,即便是同類系統(tǒng)的數(shù)據(jù),因?yàn)榉?1個(gè)省市建設(shè),各省市的業(yè)務(wù)管理模式、數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)等千差萬別,跨省、跨域、跨系統(tǒng)的模型標(biāo)準(zhǔn)統(tǒng)一非常困難,即便通過數(shù)據(jù)副本的模式進(jìn)行整合匯聚,也存在轉(zhuǎn)換不專業(yè)和數(shù)據(jù)失真等問題。同時(shí),域與域之間雖是松耦合的,但因?yàn)槭褂谜吆徒ㄔO(shè)者的不同,相互之間會(huì)冗余存儲對方數(shù)據(jù),而建模和主數(shù)據(jù)又不同,跨域之間數(shù)據(jù)的關(guān)聯(lián)整合非常復(fù)雜,跨域、跨省的端到端應(yīng)用困難。運(yùn)營商的數(shù)據(jù)還有一個(gè)顯著的特點(diǎn),就是與網(wǎng)絡(luò)密切相關(guān),網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)和網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)需要與網(wǎng)絡(luò)保持實(shí)時(shí)一致,且數(shù)據(jù)量比較大,網(wǎng)絡(luò)智能化后的實(shí)時(shí)數(shù)據(jù)應(yīng)用需求也越來越多。通信網(wǎng)絡(luò)是一張大網(wǎng),即便引入云計(jì)算、虛擬化技術(shù),依然有大量網(wǎng)絡(luò)節(jié)點(diǎn)遍布31個(gè)省市,海量網(wǎng)絡(luò)數(shù)據(jù)的實(shí)時(shí)采集、處理及應(yīng)用也是運(yùn)營商數(shù)據(jù)架構(gòu)需要考慮的一個(gè)重要因素。國內(nèi)運(yùn)營商目前都不同程度地建立了自己的企業(yè)級大數(shù)據(jù)平臺,有的分總部/省兩級部署,支撐兩級數(shù)據(jù)分析,統(tǒng)一全網(wǎng)的架構(gòu)、來源、算法、規(guī)則,總部數(shù)據(jù)輕度匯總,按需采集匯聚高價(jià)值詳單數(shù)據(jù);有的采用1+N模式,建設(shè)總部和省互補(bǔ)協(xié)作平臺,總部提供跨域數(shù)據(jù)和特定的大數(shù)據(jù)能力,作為N的省向總部提供本地化數(shù)據(jù)能力與自定義算法。電信運(yùn)營商數(shù)據(jù)平臺架構(gòu)示例如圖2所示。不管采用哪種模式,都不同程度地存在其下屬各專業(yè)公司、各部門根據(jù)各自需要,或在生產(chǎn)系統(tǒng)內(nèi)構(gòu)建含大數(shù)據(jù)技術(shù)的混搭數(shù)據(jù)架構(gòu),或建設(shè)域內(nèi)自用的大數(shù)據(jù)平臺,因此有很多數(shù)據(jù)未進(jìn)入企業(yè)級大數(shù)據(jù)平臺,或數(shù)據(jù)平臺的應(yīng)用未達(dá)到預(yù)期。其原因可歸結(jié)為如下幾點(diǎn)平臺數(shù)據(jù)來自于M/B/O的生產(chǎn)系統(tǒng),而運(yùn)營商分兩級31省市建設(shè)的生產(chǎn)系統(tǒng),不但數(shù)據(jù)模型、主數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,業(yè)務(wù)管理模式的差異也很大。數(shù)據(jù)經(jīng)過多次模型轉(zhuǎn)換,存在嚴(yán)重失真的問題,且很難對數(shù)據(jù)質(zhì)量問題追蹤溯源。平臺數(shù)據(jù)不夠?qū)崟r(shí)數(shù)據(jù)經(jīng)過多級采集匯聚,處理環(huán)節(jié)多,采集周期長。網(wǎng)絡(luò)相關(guān)海量數(shù)據(jù)跨省傳輸,占用大量帶寬,數(shù)據(jù)時(shí)延較大。數(shù)據(jù)平臺目前只能以支撐離線的決策分析為主,難以滿足SDN/NFV/云網(wǎng)絡(luò)及物聯(lián)網(wǎng)等實(shí)時(shí)/準(zhǔn)實(shí)時(shí)數(shù)據(jù)應(yīng)用需求。數(shù)據(jù)平臺的建設(shè)以存儲計(jì)算一體化架構(gòu)為主,平臺與應(yīng)用緊耦合,多基于公共數(shù)據(jù)平臺和整合后的數(shù)據(jù)支撐應(yīng)用創(chuàng)新。對于新的數(shù)據(jù)整合、數(shù)據(jù)計(jì)算分析技術(shù)引入、平臺擴(kuò)容支撐等需求響應(yīng)不靈活,導(dǎo)致數(shù)據(jù)平臺應(yīng)用不足。平臺和應(yīng)用互鎖,形成惡性循環(huán)企業(yè)級數(shù)據(jù)平臺難以滿足生產(chǎn)系統(tǒng)數(shù)據(jù)應(yīng)用需求,生產(chǎn)系統(tǒng)就沒有動(dòng)力將自身數(shù)據(jù)和應(yīng)用遷入數(shù)據(jù)平臺,進(jìn)而數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量和可用性越來越差。同時(shí),還導(dǎo)致生產(chǎn)系統(tǒng)和各個(gè)大數(shù)據(jù)平臺的數(shù)據(jù)重復(fù)采集、重復(fù)存儲,且相互之間數(shù)據(jù)訪問技術(shù)和管理壁壘嚴(yán)重,建設(shè)和維護(hù)成本大幅提高。數(shù)據(jù)湖方案的價(jià)值及可行性分析數(shù)據(jù)湖推崇存儲原生數(shù)據(jù),對不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲,使不同數(shù)據(jù)有一致的存儲方式,在使用時(shí)方便連接,真正解決數(shù)據(jù)集成問題。數(shù)據(jù)湖的本質(zhì)是一種數(shù)據(jù)管理的思路,利用低成本技術(shù)來捕捉、提煉和探索大規(guī)模、長期的原始數(shù)據(jù)存儲的方法與技術(shù)。數(shù)據(jù)湖可存儲任何種類的數(shù)據(jù),高質(zhì)量、高效率地存儲數(shù)據(jù),更快速、更廉價(jià)地處理數(shù)據(jù),將建模應(yīng)用問題丟給最終開發(fā)者[9]。數(shù)據(jù)湖的方案應(yīng)用可以帶來如下幾個(gè)顯著的好處全企業(yè)海量數(shù)據(jù)統(tǒng)一存儲,采用開源技術(shù),基于低成本硬件資源,建立和維護(hù)成本相比數(shù)據(jù)倉庫低一個(gè)數(shù)量級。數(shù)據(jù)湖以原始形式保存數(shù)據(jù),并在整個(gè)數(shù)據(jù)生命周期捕獲對數(shù)據(jù)和上下文語義的更改,尤其便于進(jìn)行合規(guī)性和內(nèi)部審計(jì)。如果數(shù)據(jù)經(jīng)歷了轉(zhuǎn)換、聚合和更新,將很難在需求出現(xiàn)時(shí)將數(shù)據(jù)拼湊在一起,而且?guī)缀鯖]有希望確定清晰出處。結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)都是原樣加載和存儲,以后再進(jìn)行轉(zhuǎn)換,開發(fā)和保存成本低,產(chǎn)生和使用之間時(shí)延小??蛻簟⒐?yīng)商和數(shù)據(jù)運(yùn)營者不需要數(shù)據(jù)擁有者提供太多幫助即可整合數(shù)據(jù),消除了數(shù)據(jù)共享的內(nèi)部政治或技術(shù)障礙。數(shù)據(jù)湖提供數(shù)據(jù)給靈活的、面向任務(wù)的結(jié)構(gòu)化應(yīng)用,詳細(xì)的業(yè)務(wù)需求和艱苦的數(shù)據(jù)建模都不是數(shù)據(jù)湖的先決條件。數(shù)據(jù)湖給予最終用戶最大的靈活度來處理數(shù)據(jù),對于同一份原始數(shù)據(jù),不同的用戶可能有不同的理解。目前,大部分運(yùn)營商采用傳統(tǒng)的以數(shù)據(jù)為中心的處理架構(gòu)(存儲計(jì)算一體化,如主流MPP、Hive和分布式計(jì)算廠商產(chǎn)品),好處是計(jì)算效率高、技術(shù)成熟,缺點(diǎn)也很明顯,如靈活性不足,使得數(shù)據(jù)應(yīng)用適用于少數(shù)人,這也制約了原生數(shù)據(jù)提供者向平臺提供的積極性,進(jìn)而導(dǎo)致數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的全面性都得不到很好的保障。引入數(shù)據(jù)湖概念的一個(gè)顯著特點(diǎn)就是存儲和計(jì)算松耦合,可采用以計(jì)算為中心的處理模式(存儲與計(jì)算分離,如Spark技術(shù)及AWS、阿里云等云服務(wù)提供商產(chǎn)品),使得運(yùn)營商可以更加專注于數(shù)據(jù)的存儲和管理,存儲和計(jì)算不用相互制約,從而優(yōu)先確保數(shù)據(jù)的高質(zhì)量、低時(shí)延、高可用,并為數(shù)據(jù)應(yīng)用的快速構(gòu)建提供了極大的靈活性。數(shù)據(jù)湖按照成熟度可劃分為4個(gè)階段:第一個(gè)階段,應(yīng)用程序獨(dú)立建設(shè),部分應(yīng)用將數(shù)據(jù)提供給數(shù)據(jù)倉庫,基于數(shù)據(jù)倉庫構(gòu)建分析應(yīng)用;第二個(gè)階段,數(shù)據(jù)湖和數(shù)據(jù)倉庫并存,應(yīng)用程序向數(shù)據(jù)湖提供副本數(shù)據(jù),基于數(shù)據(jù)湖開發(fā)分析型應(yīng)用,數(shù)據(jù)倉庫和應(yīng)用也可從數(shù)據(jù)湖提取數(shù)據(jù);第三個(gè)階段,新系統(tǒng)以數(shù)據(jù)湖為中心構(gòu)建,應(yīng)用通過數(shù)據(jù)湖交互彼此數(shù)據(jù),數(shù)據(jù)湖成為數(shù)據(jù)架構(gòu)的核心,數(shù)據(jù)倉庫基于數(shù)據(jù)湖提供特定的應(yīng)用需求,數(shù)據(jù)治理變得重要;第四個(gè)階段,所有新的應(yīng)用均基于數(shù)據(jù)湖構(gòu)建,數(shù)據(jù)湖成為彈性的分布式平臺,數(shù)據(jù)的治理和安全需持續(xù)加強(qiáng),支撐企業(yè)的數(shù)據(jù)運(yùn)營和分析能力。電信運(yùn)營商目前普遍處于第二個(gè)階段向第三個(gè)階段演進(jìn)的過程中,在構(gòu)建數(shù)據(jù)技術(shù)方案方面具備較好的基礎(chǔ)條件。電信運(yùn)營商數(shù)據(jù)湖建設(shè)思路及實(shí)施要點(diǎn)調(diào)整現(xiàn)有分析型數(shù)據(jù)平臺建設(shè)思路,將其數(shù)據(jù)與應(yīng)用解耦,引入數(shù)據(jù)湖概念,強(qiáng)調(diào)原生數(shù)據(jù)入湖,并與全網(wǎng)生產(chǎn)系統(tǒng)模型和主數(shù)據(jù)標(biāo)準(zhǔn)化協(xié)同推進(jìn),兼顧層次化的傳統(tǒng)數(shù)據(jù)架構(gòu)和扁平化的數(shù)據(jù)湖架構(gòu)的優(yōu)點(diǎn),SchemaonRead和SchemaonWrite并存,統(tǒng)一支撐企業(yè)實(shí)時(shí)、準(zhǔn)實(shí)時(shí)和離線數(shù)據(jù)應(yīng)用快速創(chuàng)新,是電信運(yùn)營商實(shí)現(xiàn)以數(shù)據(jù)為中心IT架構(gòu)轉(zhuǎn)型的有效途徑。數(shù)據(jù)湖作為運(yùn)營商數(shù)據(jù)存儲和訪問的唯一出口,成為所有IT系統(tǒng)共享的基礎(chǔ)設(shè)施,統(tǒng)一存儲全企業(yè)IT和網(wǎng)絡(luò)數(shù)據(jù),通過開放架構(gòu)支撐智慧運(yùn)營,并可作為IT系統(tǒng)集約化演進(jìn)的紐帶。統(tǒng)一存儲MSS、BSS、OSS及網(wǎng)元平臺的實(shí)時(shí)、歷史、在線、離線數(shù)據(jù),全網(wǎng)的原生數(shù)據(jù)只存儲一份在邏輯統(tǒng)一的分布式數(shù)據(jù)湖內(nèi),原生數(shù)據(jù)與生產(chǎn)系統(tǒng)數(shù)據(jù)模型標(biāo)準(zhǔn)和主數(shù)據(jù)一致,新IT系統(tǒng)/網(wǎng)元平臺的生產(chǎn)數(shù)據(jù)直接使用數(shù)據(jù)湖存儲。所有入湖數(shù)據(jù)的目錄、元數(shù)據(jù)、數(shù)據(jù)應(yīng)用及數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)安全必須統(tǒng)一管理。數(shù)據(jù)模型標(biāo)準(zhǔn)和主數(shù)據(jù)動(dòng)態(tài)維護(hù),數(shù)據(jù)質(zhì)量集中治理,原生系統(tǒng)的數(shù)據(jù)問題溯源處理,生產(chǎn)系統(tǒng)建設(shè)者全程參與數(shù)據(jù)管理,責(zé)任權(quán)利保持一致。數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)生產(chǎn)系統(tǒng)管理部門負(fù)責(zé)31省市系統(tǒng)模型和主數(shù)據(jù)的標(biāo)準(zhǔn)化;數(shù)據(jù)湖統(tǒng)一管理生產(chǎn)系統(tǒng)的數(shù)據(jù)模型及主數(shù)據(jù);暫未進(jìn)行標(biāo)準(zhǔn)化的生產(chǎn)系統(tǒng)數(shù)據(jù)模型,由對應(yīng)系統(tǒng)的管理部門負(fù)責(zé)數(shù)據(jù)模型的轉(zhuǎn)換和運(yùn)營,協(xié)調(diào)推進(jìn)生產(chǎn)系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)程。提供數(shù)據(jù)統(tǒng)一采集、實(shí)時(shí)訂閱分發(fā)框架,支撐實(shí)時(shí)/準(zhǔn)實(shí)時(shí)數(shù)據(jù)、離線數(shù)據(jù)的采集。各網(wǎng)元/平臺數(shù)據(jù)采集能力以組件方式納入數(shù)據(jù)湖,分專業(yè)采集、預(yù)處理加工,海量實(shí)時(shí)數(shù)可靠近網(wǎng)絡(luò)近源部署前置采集模塊。非網(wǎng)絡(luò)類數(shù)據(jù)(如BSS、MSS、OSS流程等),初期以副本采集方式匯聚入湖,遠(yuǎn)期直接以服務(wù)交互方式入湖。數(shù)據(jù)應(yīng)用環(huán)境與數(shù)據(jù)存儲環(huán)境分離,按應(yīng)用計(jì)算的網(wǎng)絡(luò)帶寬需要就近部署。提供統(tǒng)一的服務(wù)化訪問、小批量數(shù)據(jù)訂閱、數(shù)據(jù)分析計(jì)算云平臺環(huán)境?;谠破脚_環(huán)境,應(yīng)用開發(fā)者可自行整合數(shù)據(jù)、構(gòu)建應(yīng)用,數(shù)據(jù)存儲、數(shù)據(jù)整合、平臺組件、數(shù)據(jù)應(yīng)用間相互解耦,建設(shè)的進(jìn)程不會(huì)相互制約。同時(shí),建立全生命周期數(shù)據(jù)目錄,統(tǒng)一標(biāo)識各項(xiàng)數(shù)據(jù),完善數(shù)據(jù)治理機(jī)制,管理數(shù)據(jù)湖數(shù)據(jù)的生產(chǎn)加工流程,對各項(xiàng)數(shù)據(jù)生成和使用過程進(jìn)行跟蹤記錄,支撐數(shù)據(jù)的應(yīng)用和溯源,是數(shù)據(jù)湖方案順利實(shí)施的關(guān)鍵要素。并且還需要加強(qiáng)數(shù)據(jù)標(biāo)準(zhǔn)的全生命周期流程以及數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)及數(shù)據(jù)質(zhì)量問題收集、自動(dòng)稽核、問題溯源、影響分析及跟蹤處理等數(shù)據(jù)管理能力??梢圆捎门老x的方式生成數(shù)據(jù)目錄,在不影響數(shù)據(jù)所有者或用戶的情況下自動(dòng)生成,決定數(shù)據(jù)湖能否順利實(shí)施的因素有很多,包括數(shù)據(jù)湖涵蓋哪些數(shù)據(jù)及如何分區(qū)存儲、數(shù)據(jù)湖如何分布式部署、紛繁復(fù)雜的現(xiàn)有IT系統(tǒng)數(shù)據(jù)如何入湖、數(shù)據(jù)和應(yīng)用能否分離、數(shù)據(jù)湖與現(xiàn)有各類數(shù)據(jù)平臺的演進(jìn)關(guān)系等。當(dāng)然,更重要的是數(shù)據(jù)管理思維的轉(zhuǎn)變,這是一切的基礎(chǔ)。針對運(yùn)營商數(shù)據(jù)湖的實(shí)施,提出如下4個(gè)方面的關(guān)鍵要點(diǎn)及建議。要點(diǎn)1:數(shù)據(jù)湖分區(qū)數(shù)據(jù)湖邏輯上可劃分為生產(chǎn)數(shù)據(jù)區(qū)、原生數(shù)據(jù)區(qū)、整合數(shù)據(jù)區(qū)、匯總數(shù)據(jù)區(qū)4個(gè)大的存儲區(qū)域。數(shù)據(jù)湖的應(yīng)用可基于PaaS平臺按需使用各個(gè)區(qū)的數(shù)據(jù),4個(gè)區(qū)的數(shù)據(jù)目錄、元數(shù)據(jù)、數(shù)據(jù)加工處理流程及數(shù)據(jù)應(yīng)用需要統(tǒng)一管理、維護(hù)和治理。M/B/O系統(tǒng)生產(chǎn)數(shù)據(jù)的存儲區(qū)域,涵蓋實(shí)時(shí)交易型數(shù)據(jù)、實(shí)時(shí)/準(zhǔn)實(shí)時(shí)網(wǎng)絡(luò)采集數(shù)據(jù)等,可以是關(guān)系型和非關(guān)系型混搭的存儲結(jié)構(gòu),各生產(chǎn)系統(tǒng)需要進(jìn)行架構(gòu)優(yōu)化,數(shù)據(jù)與應(yīng)用分層解耦,將數(shù)據(jù)存入生產(chǎn)數(shù)據(jù)區(qū)。將各系統(tǒng)的生產(chǎn)數(shù)據(jù)直接寫入數(shù)據(jù)湖原生數(shù)據(jù)區(qū),以非關(guān)系型數(shù)據(jù)格式存儲生產(chǎn)系統(tǒng)數(shù)據(jù),方便各數(shù)據(jù)應(yīng)用使用,生產(chǎn)數(shù)據(jù)和原生數(shù)據(jù)模型標(biāo)準(zhǔn)、主數(shù)據(jù)一致。原生數(shù)據(jù)區(qū)涵蓋企業(yè)的任何內(nèi)容,無限接近企業(yè)各系統(tǒng)、部門的敏感信息。供數(shù)據(jù)湖科學(xué)家和技術(shù)人員訪問使用。存儲按照數(shù)據(jù)分析需求建模加工后的公用數(shù)據(jù)。模型從生產(chǎn)/原生數(shù)據(jù)模型派生而來,被業(yè)務(wù)和IT部門熟知,可供企業(yè)各種應(yīng)用程序使用。原生數(shù)據(jù)區(qū)中依然有很多數(shù)據(jù)或?qū)傩詻]有被真正理解,并未完全包含在這個(gè)數(shù)據(jù)區(qū)的模型中。存儲按需求分析匯總的結(jié)果數(shù)據(jù),一般可存儲在關(guān)系型數(shù)據(jù)存儲內(nèi),便于數(shù)據(jù)服務(wù)的快速加載呈現(xiàn)。數(shù)據(jù)湖生產(chǎn)數(shù)據(jù)區(qū)和原生數(shù)據(jù)區(qū)作為最重要的數(shù)據(jù)分區(qū),是數(shù)據(jù)湖內(nèi)數(shù)據(jù)整合和匯總的源頭數(shù)據(jù),數(shù)據(jù)質(zhì)量必須得到保障。另外,數(shù)據(jù)湖雖不鼓勵(lì)應(yīng)用特定模型,但也可劃分特定數(shù)據(jù)區(qū)給私有應(yīng)用使用,提供快速構(gòu)建數(shù)據(jù)應(yīng)用的途徑,這些應(yīng)用獲取數(shù)據(jù)湖數(shù)據(jù)且具有數(shù)據(jù)處理能力,數(shù)據(jù)湖構(gòu)建初期,可將已有業(yè)務(wù)應(yīng)用數(shù)據(jù)導(dǎo)入數(shù)據(jù)湖特定數(shù)據(jù)區(qū)中。電信運(yùn)營商數(shù)據(jù)湖數(shù)據(jù)分區(qū)示例如圖4所示。數(shù)據(jù)湖部署方案的設(shè)計(jì)需要考慮如下要素:- 現(xiàn)有BSS/OSS系統(tǒng)分省/總部兩級建設(shè)和維護(hù),源系統(tǒng)模型屬地管理;網(wǎng)絡(luò)/平臺數(shù)據(jù)量大,且貼近網(wǎng)絡(luò)建設(shè)歸屬地,屬地應(yīng)用占比大;
- M/B/O及網(wǎng)絡(luò)/平臺之間數(shù)據(jù)松耦合,主要通過企業(yè)主數(shù)據(jù)進(jìn)行銜接。數(shù)據(jù)湖原生數(shù)據(jù)區(qū)和生產(chǎn)數(shù)據(jù)區(qū)與數(shù)據(jù)源系統(tǒng)就近分布式部署(總部1+省市31模式)。
- 生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)由生產(chǎn)系統(tǒng)按需分區(qū)、分片部署,即支撐生產(chǎn)應(yīng)用交易處理,也支撐實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)采集和應(yīng)用。
- 原生數(shù)據(jù)云節(jié)點(diǎn)與生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)就近、集中部署,靠近數(shù)據(jù)歸屬地,數(shù)據(jù)實(shí)時(shí)從生產(chǎn)數(shù)據(jù)云節(jié)點(diǎn)寫入原生數(shù)據(jù)云節(jié)點(diǎn)。原生數(shù)據(jù)云節(jié)點(diǎn)可再細(xì)分為核心數(shù)據(jù)區(qū)(如客戶、銷售品、產(chǎn)品、服務(wù)、資源、組織、人員等)、BSS數(shù)據(jù)區(qū)、OSS數(shù)據(jù)區(qū)、MSS數(shù)據(jù)區(qū)、網(wǎng)絡(luò)/平臺數(shù)據(jù)區(qū)。
數(shù)據(jù)湖整合、匯總數(shù)據(jù)云節(jié)點(diǎn)采用1+N模式部署,統(tǒng)一管理、控制和調(diào)度節(jié)點(diǎn)環(huán)境,兼顧全網(wǎng)統(tǒng)一和個(gè)性化應(yīng)用需求,數(shù)據(jù)科學(xué)家逐步探索和建模數(shù)據(jù),開放數(shù)據(jù)應(yīng)用。1+N模式中的“1”支撐全網(wǎng)應(yīng)用,“N”支撐省內(nèi)應(yīng)用,并作為創(chuàng)新基地,有條件、數(shù)據(jù)量大、應(yīng)用豐富的省可選擇建設(shè)N分區(qū)。分區(qū)節(jié)點(diǎn)內(nèi)可按照應(yīng)用范圍(全局需求、特定需求)、地域歸屬(集團(tuán)、?。?、數(shù)據(jù)層次(整合、匯總)、數(shù)據(jù)分級(普通、密級)等進(jìn)一步分區(qū)存儲。電信運(yùn)營商數(shù)據(jù)湖部署方案示例如圖5所示。要點(diǎn)3:IT系統(tǒng)數(shù)據(jù)入湖數(shù)據(jù)湖的建設(shè)不可能一蹴而就,需要根據(jù)運(yùn)營商IT系統(tǒng)建設(shè)情況分別采用不同策略進(jìn)行數(shù)據(jù)入湖演進(jìn)。電信運(yùn)營商IT系統(tǒng)入湖方案示例如圖6所示。方式一:數(shù)據(jù)同步方式。適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)已全網(wǎng)統(tǒng)一的場景,生產(chǎn)數(shù)據(jù)直接同步寫入原生數(shù)據(jù)區(qū),如BSS、MSS、傳統(tǒng)OSS。方式二:數(shù)據(jù)同步/轉(zhuǎn)換方式。適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)并未全網(wǎng)統(tǒng)一的場景,如BSS、MSS、傳統(tǒng)OSS。將非標(biāo)準(zhǔn)生產(chǎn)數(shù)據(jù)寫入原生數(shù)據(jù)區(qū),支撐省內(nèi)整合匯總應(yīng)用及集團(tuán)標(biāo)準(zhǔn)的寬表需求;將非標(biāo)準(zhǔn)生產(chǎn)數(shù)據(jù)按全網(wǎng)統(tǒng)一標(biāo)準(zhǔn)轉(zhuǎn)換,提供給全網(wǎng)數(shù)據(jù)整合匯總及數(shù)據(jù)治理使用。方式三:數(shù)據(jù)正本方式。適合交易型系統(tǒng)新建模式,如新一代OSS資源、編排、告警等。正本數(shù)據(jù)寫入生產(chǎn)數(shù)據(jù)區(qū),統(tǒng)一模型和主數(shù)據(jù)標(biāo)準(zhǔn),基于交易型PaaS平臺完成應(yīng)用;生產(chǎn)數(shù)據(jù)區(qū)數(shù)據(jù)直接寫入原生數(shù)據(jù)區(qū)。方式四:采集入庫方式。適合網(wǎng)絡(luò)監(jiān)控分析型系統(tǒng)新建模式,如新一代OSS的網(wǎng)絡(luò)采集數(shù)據(jù)、資源拓?fù)?、深度分組檢測(DPI)數(shù)據(jù)等。數(shù)據(jù)采集文件、流數(shù)據(jù)等暫存在生產(chǎn)數(shù)據(jù)區(qū);寫入原生數(shù)據(jù)區(qū)后,生產(chǎn)數(shù)據(jù)區(qū)不再保留;統(tǒng)一原生數(shù)據(jù)模型和主數(shù)據(jù)標(biāo)準(zhǔn),基于實(shí)時(shí)和非實(shí)時(shí)PaaS平臺完成分析型應(yīng)用。要點(diǎn)4:數(shù)據(jù)湖數(shù)據(jù)與應(yīng)用分離數(shù)據(jù)湖通過數(shù)據(jù)服務(wù)平臺、數(shù)據(jù)共享平臺及統(tǒng)一數(shù)據(jù)應(yīng)用環(huán)境按需支持交易類、實(shí)時(shí)監(jiān)控類、分析類應(yīng)用。數(shù)據(jù)增、刪、改、查服務(wù)統(tǒng)一部署在數(shù)據(jù)服務(wù)平臺上,供交易類應(yīng)用訪問調(diào)用;通過訂閱需要監(jiān)控的數(shù)據(jù),由數(shù)據(jù)共享平臺將數(shù)據(jù)實(shí)時(shí)分發(fā)給監(jiān)控類應(yīng)用使用;數(shù)據(jù)的加工整合、分析應(yīng)用、海量搜索、人工智能等應(yīng)用均可部署在應(yīng)用環(huán)境內(nèi),按需動(dòng)態(tài)加載并臨時(shí)存儲數(shù)據(jù),結(jié)果寫回到數(shù)據(jù)湖存儲環(huán)境,以服務(wù)方式啟動(dòng)任務(wù)和查詢結(jié)果數(shù)據(jù)。其中,應(yīng)用環(huán)境公共組件隨著技術(shù)的更新不斷疊加,逐漸平臺化共享,暫時(shí)無法滿足應(yīng)用需求的可由應(yīng)用在統(tǒng)一環(huán)境內(nèi)部署組件及加載數(shù)據(jù)。數(shù)據(jù)湖應(yīng)用加載數(shù)據(jù)的方式可分為實(shí)時(shí)增量加載、準(zhǔn)實(shí)時(shí)增量/全量加載、離線批量加載等,數(shù)據(jù)可按需全量或增量短期加載。對于應(yīng)用和數(shù)據(jù)無法解耦的組件(如Hive、MPP等),按需復(fù)制數(shù)據(jù),以空間換數(shù)據(jù)管理和應(yīng)用的靈活性;對于應(yīng)用和數(shù)據(jù)可以有效解耦的組件(如Spark等),可以按需動(dòng)態(tài)、實(shí)時(shí)加載數(shù)據(jù)。應(yīng)用組件逐漸由與數(shù)據(jù)緊耦合的組件向與數(shù)據(jù)松耦合的組件演進(jìn)。數(shù)據(jù)湖采用讀寫分離、應(yīng)用計(jì)算與數(shù)據(jù)存儲分離、關(guān)系數(shù)據(jù)與非關(guān)系數(shù)據(jù)存儲并存的模式,并提供數(shù)據(jù)存儲節(jié)點(diǎn)分布式部署、服務(wù)化訪問及統(tǒng)一數(shù)據(jù)加載、共享及分發(fā)能力,降低數(shù)據(jù)湖數(shù)據(jù)存儲訪問負(fù)載,提升數(shù)據(jù)的可用性及數(shù)據(jù)訪問效率。由數(shù)據(jù)湖提供數(shù)據(jù)的統(tǒng)一遷移,包括主從庫的復(fù)制、關(guān)系庫到非關(guān)系庫的數(shù)據(jù)轉(zhuǎn)換等;提供統(tǒng)一的關(guān)系和非關(guān)系庫數(shù)據(jù)訪問及分布式數(shù)據(jù)路由以及數(shù)據(jù)共享開放和訂閱分發(fā)管理框架,實(shí)現(xiàn)高效的數(shù)據(jù)訪問;提供統(tǒng)一的數(shù)據(jù)應(yīng)用環(huán)境管理,包括配額管理、數(shù)據(jù)訪問權(quán)限管理、數(shù)據(jù)回寫節(jié)點(diǎn)分配管理等,獨(dú)立部署分析計(jì)算類應(yīng)用,分析計(jì)算節(jié)點(diǎn)與數(shù)據(jù)湖數(shù)據(jù)存儲節(jié)點(diǎn)分離;提供統(tǒng)一的分布式服務(wù)運(yùn)行框架,基于服務(wù)調(diào)用實(shí)現(xiàn)交易類增、刪、改、查應(yīng)用的數(shù)據(jù)訪問,避免直接操作數(shù)據(jù)。電信運(yùn)營商數(shù)據(jù)湖應(yīng)用方案示例如圖7所示。要點(diǎn)5:數(shù)據(jù)湖數(shù)據(jù)統(tǒng)一管理數(shù)據(jù)湖的實(shí)施,需要實(shí)現(xiàn)模型和主數(shù)據(jù)標(biāo)準(zhǔn)的動(dòng)態(tài)維護(hù)以及數(shù)據(jù)的集中治理,避免數(shù)據(jù)湖成為數(shù)據(jù)墓地。而數(shù)據(jù)來源眾多,數(shù)據(jù)管理需要依賴于多方的密切合作以及數(shù)據(jù)標(biāo)準(zhǔn)管理、目錄/元數(shù)據(jù)管理、應(yīng)用/服務(wù)管理、質(zhì)量等管理及海量數(shù)據(jù)探索分析等高效的管理工具。電信運(yùn)營商數(shù)據(jù)湖管理體系示例如圖8所示。電信運(yùn)營商數(shù)據(jù)涉及系統(tǒng)眾多、關(guān)系復(fù)雜,沒有任何一個(gè)獨(dú)立的團(tuán)隊(duì)能夠通曉所有的數(shù)據(jù)模型和關(guān)聯(lián)關(guān)系,因此需要企業(yè)數(shù)據(jù)管理團(tuán)隊(duì)與專業(yè)數(shù)據(jù)管理團(tuán)隊(duì)分工合作,共同完成數(shù)據(jù)模型標(biāo)準(zhǔn)/主數(shù)據(jù)的管理及數(shù)據(jù)集中治理。建立橫縱向一體化的數(shù)據(jù)管理體系,明確企業(yè)數(shù)據(jù)管理和原生數(shù)據(jù)部門職責(zé)分工,固化數(shù)據(jù)管理流程制度。企業(yè)數(shù)據(jù)管理團(tuán)隊(duì)負(fù)責(zé)統(tǒng)籌標(biāo)準(zhǔn)和主數(shù)據(jù)管理及數(shù)據(jù)治理工作,負(fù)責(zé)數(shù)據(jù)建模挖掘和跨專業(yè)數(shù)據(jù)治理協(xié)作,負(fù)責(zé)為業(yè)務(wù)部門和應(yīng)用開發(fā)者提供數(shù)據(jù)建模和平臺技術(shù)支持;專業(yè)數(shù)據(jù)管理團(tuán)隊(duì)負(fù)責(zé)建立專業(yè)數(shù)據(jù)的模型標(biāo)準(zhǔn)和管理主數(shù)據(jù),識別數(shù)據(jù)問題及跟蹤處理;數(shù)據(jù)湖應(yīng)用開發(fā)者負(fù)責(zé)提出數(shù)據(jù)需求,按需整合和構(gòu)建應(yīng)用,反饋數(shù)據(jù)問題,評估數(shù)據(jù)變更影響。另外,作為企業(yè)最核心的數(shù)據(jù)資產(chǎn),其全生命周期的安全管理非常重要。需要針對數(shù)據(jù)采集、數(shù)據(jù)存儲(生產(chǎn)數(shù)據(jù)、原生數(shù)據(jù)、整合數(shù)據(jù)、匯總數(shù)據(jù))、數(shù)據(jù)應(yīng)用、數(shù)據(jù)服務(wù)、數(shù)據(jù)分發(fā)共享等環(huán)節(jié)構(gòu)建端到端的安全管控體系。對涉及用戶行為特征及關(guān)鍵信息的敏感數(shù)據(jù)進(jìn)行統(tǒng)一處理,脫敏后提供給應(yīng)用使用;不管是敏感數(shù)據(jù)還是非敏感數(shù)據(jù),所有數(shù)據(jù)的直接訪問均在數(shù)據(jù)湖的管理范圍內(nèi)進(jìn)行,具體措施包括數(shù)據(jù)應(yīng)用環(huán)境、服務(wù)訪問環(huán)境、共享分發(fā)環(huán)境、數(shù)據(jù)存儲環(huán)境統(tǒng)一管控,需要經(jīng)過統(tǒng)一的對象和屬性等的鑒權(quán)才能訪問數(shù)據(jù),數(shù)據(jù)不出數(shù)據(jù)湖(即數(shù)據(jù)訪問不出臺),只能使用服務(wù)化方式或經(jīng)過鑒權(quán)認(rèn)證的數(shù)據(jù)共享分發(fā)方式進(jìn)行數(shù)據(jù)訪問。同時(shí)需要對大數(shù)據(jù)安全事件具備閉環(huán)管控能力,增強(qiáng)數(shù)據(jù)安全事件快速分析能力,提升安全事件發(fā)
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。