由于切入點(diǎn)和側(cè)重點(diǎn),業(yè)內(nèi)給予了不同的見解。
廣泛認(rèn)可標(biāo)準(zhǔn):DMBOK、COBIT 5、DGI、和IBM數(shù)據(jù)治理委員會(huì)的定義。
數(shù)據(jù)治理的本質(zhì):
數(shù)據(jù)治理不是一門技術(shù),而是邏輯性很強(qiáng)的理論型學(xué)科。
Sunil Soares
(1).大數(shù)據(jù)治理的工作就是制定策略
(2).大數(shù)據(jù)必須被商業(yè)化
從四個(gè)方面理解含義
(1).領(lǐng)域
(2).角色
(3).各角色如何參與
(4).大數(shù)據(jù)治理最終目標(biāo):決策
大數(shù)據(jù)治理范圍
大數(shù)據(jù)質(zhì)量:大數(shù)據(jù)質(zhì)量分析、問題追蹤和合規(guī)性監(jiān)控。
大數(shù)據(jù)生命周期:數(shù)據(jù)的采集、存儲(chǔ)、整合、呈現(xiàn)和展示、分析和應(yīng)用、歸檔與銷毀的流程。
大數(shù)據(jù)架構(gòu):大數(shù)據(jù)基礎(chǔ)資源層、大數(shù)據(jù)管理與分析層、大數(shù)據(jù)應(yīng)用與服務(wù)層。
大數(shù)據(jù)治理指標(biāo) (如下報(bào)表)
大數(shù)據(jù)架構(gòu)(數(shù)據(jù)存儲(chǔ)) | 安全 | 質(zhì)量/標(biāo)準(zhǔn) | 數(shù)據(jù)服務(wù) | |||
---|---|---|---|---|---|---|
清洗特征、畫像 | 分析決策 | 洞察預(yù)測(cè) | ||||
數(shù)據(jù)部門 | ||||||
業(yè)務(wù)部門 | ||||||
數(shù)據(jù)部門和業(yè)務(wù)部門聯(lián)合 |
大數(shù)據(jù)架構(gòu)與設(shè)計(jì):
原則(但凡原則就有例外)
1.31 系統(tǒng)架構(gòu)
分層原則(表現(xiàn)、數(shù)據(jù)、業(yè)務(wù))
模塊化原則
設(shè)計(jì)模式和框架的應(yīng)用
1.32 數(shù)據(jù)架構(gòu)
數(shù)據(jù)模型 (數(shù)據(jù)架構(gòu)核心框架模型)
數(shù)據(jù)的價(jià)值鏈分析 (業(yè)務(wù)流程及組件相一致的價(jià)值分析)
數(shù)據(jù)交付與實(shí)現(xiàn)架構(gòu) (數(shù)據(jù)庫架構(gòu)、數(shù)倉(cāng)、文檔和內(nèi)容架構(gòu),以及元數(shù)據(jù)架構(gòu))
1.33 大數(shù)據(jù)架構(gòu)
數(shù)據(jù)處理中的元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫、數(shù)據(jù)接口技術(shù)。
數(shù)據(jù)采集、存儲(chǔ)、分析和應(yīng)用功能過程的虛擬化技術(shù),分布式文件,非關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)資源管理技術(shù)
面向數(shù)據(jù)挖掘、預(yù)測(cè)、決策的大數(shù)據(jù)分析和可視化技術(shù)等。
1.34大數(shù)據(jù)架構(gòu)參考模型
基礎(chǔ)設(shè)施:商用服務(wù)器、可結(jié)合云計(jì)算虛擬化(比如私有云openstack)
非關(guān)系數(shù)據(jù)庫nosql:類表結(jié)構(gòu)數(shù)據(jù)庫、 文檔數(shù)據(jù)庫、圖數(shù)據(jù)庫和鍵-值存儲(chǔ)。
資源管理:一是虛擬化。二是基于Yarn或Mesos的資源管理層。
包含:元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫、大數(shù)據(jù)分析等。
關(guān)于數(shù)據(jù)的組織、數(shù)據(jù)域及其關(guān)系的信息。(數(shù)據(jù)的數(shù)據(jù),類元注解這類的解釋)
重點(diǎn):元數(shù)據(jù)的管理。
元數(shù)據(jù)標(biāo)準(zhǔn):行業(yè)標(biāo)準(zhǔn)和國(guó)際標(biāo)準(zhǔn)
行業(yè)標(biāo)準(zhǔn):OMG標(biāo)準(zhǔn)、W3C標(biāo)準(zhǔn),空間地理標(biāo)準(zhǔn),非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn),面向領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)。
國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn):ISO/IEC11179
2.21 定義:
面向主題的、集成的、隨時(shí)間變化的、相對(duì)穩(wěn)定的(不可更新是歷史數(shù)據(jù)的快照)、支持決策制定過程的數(shù)據(jù)集合。
2.22 主要功能:
主要有數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)與管理、以及結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及實(shí)時(shí)數(shù)據(jù)管理等功能。
問:傳統(tǒng)數(shù)據(jù)庫有數(shù)據(jù)管理么?
答:有的,傳統(tǒng)數(shù)倉(cāng)管理中,DMBS是主流、大數(shù)據(jù)體系中,基于分布式文件的存儲(chǔ)(hdfs或其他的如淘寶、騰訊等自研的)是主流
元數(shù)據(jù)機(jī)制主要支持以下幾類功能。
(1)描述數(shù)據(jù)在哪個(gè)數(shù)倉(cāng)中。
(2)定義入倉(cāng)和出倉(cāng)的數(shù)據(jù)。
(3)記錄業(yè)務(wù)事件發(fā)生而抽取的時(shí)間安排。
(4)記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況。
2.23 主數(shù)據(jù)
Mater Data指的是各個(gè)系統(tǒng)間要共享的數(shù)據(jù)。比如將人員組織關(guān)系數(shù)據(jù)標(biāo)準(zhǔn)化,統(tǒng)一管理。
構(gòu)建在ETL之上、因此很多主數(shù)據(jù)管理平臺(tái)包含(數(shù)據(jù)抽取、數(shù)據(jù)加載、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)復(fù)制和數(shù)據(jù)同步等功能)。
2.24 大數(shù)據(jù)分析
智能決策支持系統(tǒng)DSS
傳統(tǒng)接口:JDBC、ODBC、WEB接口
DT時(shí)代:開放平臺(tái)接口。https://www.datapipeline.com/
基于hadoop的基礎(chǔ)架構(gòu)
ETL數(shù)據(jù):低質(zhì)量數(shù)據(jù)、無關(guān)數(shù)據(jù)。
Elect抽取數(shù)據(jù)-->從數(shù)據(jù)庫中抽取
了解數(shù)據(jù)結(jié)構(gòu)、字段含義(對(duì)文檔、定需求)-->數(shù)據(jù)質(zhì)量分析報(bào)告。
(1)抽取模式(數(shù)據(jù)平臺(tái)通過一定的工具實(shí)現(xiàn)抽取,系統(tǒng)變更后導(dǎo)致失敗,源系統(tǒng)不對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé),源系統(tǒng)的性能降低問題)(2)供數(shù)模式(源系統(tǒng)抽?。?/p>
!?。。?!數(shù)據(jù)平臺(tái)的項(xiàng)目不能失敗
實(shí)時(shí)數(shù)據(jù)的抽?。?/p>
定時(shí)小批量的面向數(shù)據(jù)采集
實(shí)時(shí)業(yè)務(wù)的數(shù)據(jù)發(fā)送:輪詢或者觸發(fā)方式。
Transfer轉(zhuǎn)換數(shù)據(jù)-->數(shù)據(jù)轉(zhuǎn)換
簡(jiǎn)單映射、數(shù)據(jù)轉(zhuǎn)換、計(jì)算補(bǔ)齊、規(guī)范化。
Load-->數(shù)據(jù)加載
數(shù)據(jù)采集一定要做
數(shù)據(jù)平臺(tái)一定要有
聯(lián)系客服