中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
元數(shù)據(jù)管理在數(shù)據(jù)倉庫的實(shí)踐應(yīng)用

元數(shù)據(jù)管理是企業(yè)數(shù)據(jù)治理的基礎(chǔ),是數(shù)據(jù)倉庫的提升。作為一名數(shù)據(jù)人,首要任務(wù)就是理解元數(shù)據(jù)管理。

本篇文章將為大家梳理元數(shù)據(jù)的概念,介紹元數(shù)據(jù)管理在數(shù)據(jù)倉庫的地位、場(chǎng)景及工具。



01 什么是數(shù)據(jù)倉庫的元數(shù)據(jù)管理?

1、什么是元數(shù)據(jù)?

元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(data about data)。
抽象的描述:一組用于描述數(shù)據(jù)的數(shù)據(jù)組,該數(shù)據(jù)組的一切信息都描述了該數(shù)據(jù)的某方面特征,則該數(shù)據(jù)組即可被稱為元數(shù)據(jù)。
舉幾個(gè)簡(jiǎn)單例子:
  • 如果一本書是一個(gè)“數(shù)據(jù)',那么它的書名、封面、出版社、作者、總頁碼就是它的“元數(shù)據(jù)”。
  • 如果一個(gè)電影是一個(gè)“數(shù)據(jù)”,那么它的總時(shí)長、制作人、總導(dǎo)演、演員列表就是它的“元數(shù)據(jù)”。
  • 如果數(shù)據(jù)庫中某個(gè)表是一個(gè)”數(shù)據(jù)”,那么它的列名、列類型、列長度、表注釋就是它的'元數(shù)據(jù)'。
只要有一類'事物',就可以定義它的“元數(shù)據(jù)”。
大多數(shù)時(shí)候,元數(shù)據(jù)可以根據(jù)代表意義的不同分為業(yè)務(wù)元數(shù)據(jù)技術(shù)元數(shù)據(jù)。
(了解更多元數(shù)據(jù)的概念,點(diǎn)擊閱讀:這是我見過把元數(shù)據(jù)解釋的最通俗易懂的文章了

2、什么是數(shù)據(jù)倉庫?

數(shù)據(jù)倉庫 ,由數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)于 1990 年提出,主要功能仍是將組織透過資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲(chǔ)存架構(gòu),做有系統(tǒng)的分析整理,以利各種分析方法如聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘(Data Mining)之進(jìn)行,并進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價(jià)值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境變動(dòng),幫助建構(gòu)商業(yè)智能(BI)。

3、什么是數(shù)據(jù)倉庫的元數(shù)據(jù)管理?

數(shù)倉中的元數(shù)據(jù),主要記錄各主題的定義、不同層級(jí)間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及 ETL 的任務(wù)運(yùn)行狀態(tài)。一般會(huì)通過元數(shù)據(jù)資料庫來統(tǒng)一地存儲(chǔ)和管理元數(shù)據(jù),其主要目的是使數(shù)據(jù)倉庫的設(shè)計(jì)、部署、操作和管理能達(dá)成協(xié)同和一致。
元數(shù)據(jù)是數(shù)據(jù)倉庫管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理是企業(yè)級(jí)數(shù)據(jù)倉庫中的關(guān)鍵組件,貫穿數(shù)據(jù)倉庫構(gòu)建的整個(gè)過程,直接影響著數(shù)據(jù)倉庫的構(gòu)建、使用和維護(hù)。


02 為什么數(shù)據(jù)倉庫要進(jìn)行元數(shù)據(jù)管理?

1、建設(shè)數(shù)據(jù)倉庫所必須

數(shù)據(jù)倉庫是由外部數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)以及文檔資料通過某些 ETL 工具得到的,如果沒有一個(gè)明確、清晰的規(guī)則,根本不可能實(shí)現(xiàn)這個(gè)過程。

2、幫助快速理解數(shù)倉系統(tǒng)

一方面,數(shù)據(jù)倉庫本質(zhì)上是一個(gè)部門甚至一個(gè)公司的重要項(xiàng)目,開發(fā)時(shí)間冗長。中間不可避免的會(huì)產(chǎn)生人員流動(dòng),如果沒有清楚的元數(shù)據(jù),那會(huì)對(duì)整個(gè)系統(tǒng)乃和整個(gè)項(xiàng)目造成重大影響;
另一方面,數(shù)據(jù)倉庫做為整個(gè)部門、公司的分析數(shù)據(jù)出口,并不僅僅對(duì)數(shù)據(jù)人員服務(wù)。DM 層對(duì)業(yè)務(wù)人員, DIM 對(duì)其他開發(fā)人員都是不可避免的。如果有清楚的元數(shù)據(jù)來說明數(shù)倉系統(tǒng),就會(huì)節(jié)約雙方大量的溝通時(shí)間。

3、高效精準(zhǔn)溝通

一方面,元數(shù)據(jù)中的管理元數(shù)據(jù)會(huì)記錄不同用戶、角色、部門的數(shù)據(jù)權(quán)限。如果有數(shù)據(jù)需要進(jìn)行通知,則可以快速查詢系統(tǒng)進(jìn)行群發(fā)郵件等方式進(jìn)行溝通,從而避免了造成溝通環(huán)節(jié)的缺人和多人情況發(fā)生。
另一方面,在與產(chǎn)品溝通業(yè)務(wù)或是與研發(fā)溝通接口時(shí),可以根據(jù)業(yè)務(wù)元數(shù)據(jù),確認(rèn)彼此溝通的指標(biāo)、維度含義。從而在根源上避免交流的歧義。進(jìn)而提高溝通效率。

4、保證數(shù)據(jù)質(zhì)量

理想的元數(shù)據(jù)做到了對(duì)數(shù)據(jù)倉庫結(jié)構(gòu)的描述,倉庫模式試圖,維,度量,層次結(jié)構(gòu),到處數(shù)據(jù)庫的定義,以及數(shù)據(jù)集市的位置和內(nèi)容。
因此,我們可以很確定的判斷哪些數(shù)據(jù)是肯定準(zhǔn)確無誤的、哪些數(shù)據(jù)是可能有問題的、哪些數(shù)據(jù)是肯定有問題的。
簡(jiǎn)單的說就是每一個(gè)字段都應(yīng)該有它的取值范圍、業(yè)務(wù)定義等信息,元數(shù)據(jù)定義好了自然就可以應(yīng)用到數(shù)據(jù)質(zhì)量檢測(cè)、評(píng)估等方面,進(jìn)而通過數(shù)據(jù)質(zhì)量管理流程真正提高企業(yè)的數(shù)據(jù)質(zhì)量。

5、降低數(shù)據(jù)系統(tǒng)建設(shè)成本

假如元數(shù)據(jù)建設(shè)完備,所以取得信息會(huì)更準(zhǔn)確快捷,使數(shù)據(jù)系統(tǒng)建設(shè)不返工或少返工,減少分析工作量,加強(qiáng)各方的統(tǒng)一理解以及溝通效率,進(jìn)而使開發(fā)成本最小。

6、快速分析變更影響

因元數(shù)據(jù)被集中維護(hù)并管理引用關(guān)系,當(dāng)發(fā)生變更時(shí),可以通過元數(shù)據(jù)管理系統(tǒng)以實(shí)時(shí)分析出其所影響的業(yè)務(wù)功能、應(yīng)用系統(tǒng)、涉及人員、是否涉及監(jiān)管等影響信息。

7、為未來做好準(zhǔn)備

大數(shù)據(jù)、人工智能、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)、商業(yè)智能等企業(yè)的戰(zhàn)略級(jí)應(yīng)用系統(tǒng)能夠依賴良好的元數(shù)據(jù)管理而發(fā)揮出其應(yīng)有的效果。


03 數(shù)據(jù)倉庫中元數(shù)據(jù)的組成

元數(shù)據(jù)貫穿整個(gè)數(shù)據(jù)倉庫,根據(jù)情況可以分為三種:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)管理元數(shù)據(jù)。


1、業(yè)務(wù)元數(shù)據(jù)

業(yè)務(wù)元數(shù)據(jù)主要描述 ”數(shù)據(jù)”背后的業(yè)務(wù)含義,從業(yè)務(wù)角度描述業(yè)務(wù)領(lǐng)域的相關(guān)概念、關(guān)系——包括業(yè)務(wù)術(shù)語和業(yè)務(wù)規(guī)則。
  • 主題定義:每段 ETL、表背后的歸屬業(yè)務(wù)主題。
  • 業(yè)務(wù)描述:每段代碼實(shí)現(xiàn)的具體業(yè)務(wù)邏輯。
  • 標(biāo)準(zhǔn)指標(biāo):類似于 BI 中的語義層、數(shù)倉中的一致性事實(shí);將分析中的指標(biāo)進(jìn)行規(guī)范化。
  • 標(biāo)準(zhǔn)維度:同標(biāo)準(zhǔn)指標(biāo),對(duì)分析的各維度定義實(shí)現(xiàn)規(guī)范化、標(biāo)準(zhǔn)化。
業(yè)務(wù)元數(shù)據(jù),在實(shí)際業(yè)務(wù)中,需要不斷的進(jìn)行維護(hù)且與業(yè)務(wù)方進(jìn)行溝通確認(rèn)。

2、技術(shù)元數(shù)據(jù)

指技術(shù)細(xì)節(jié)相關(guān)的概念、關(guān)系和規(guī)則,包括對(duì)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理方面的描述。以及數(shù)據(jù)倉庫、ETL、前端展現(xiàn)等技術(shù)細(xì)節(jié)的信息。
數(shù)據(jù)倉庫中的技術(shù)元數(shù)據(jù)一般包含以下 4 大系統(tǒng):數(shù)據(jù)源元數(shù)據(jù)、ETL元數(shù)據(jù)數(shù)據(jù)倉庫元數(shù)據(jù)、BI 元數(shù)據(jù)
(1)數(shù)據(jù)源元數(shù)據(jù)
例如:數(shù)據(jù)源的 IP、端口、數(shù)據(jù)庫類型;數(shù)據(jù)獲取的方式;數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu);原數(shù)據(jù)各列的定義及 key 指對(duì)應(yīng)的值。
(2)ETL元數(shù)據(jù)
根據(jù) ETL 目的的不同,可以分為兩類:數(shù)據(jù)清洗元數(shù)據(jù);數(shù)據(jù)處理元數(shù)據(jù)。
  • 數(shù)據(jù)清洗元數(shù)據(jù):數(shù)據(jù)清洗,主要目的是為了解決掉臟數(shù)據(jù)及規(guī)范數(shù)據(jù)格式。因此此處元數(shù)據(jù)主要為:各表各列的'正確'數(shù)據(jù)規(guī)則;默認(rèn)數(shù)據(jù)類型的'正確'規(guī)則。
  • 數(shù)據(jù)處理元數(shù)據(jù):數(shù)據(jù)處理,例如常見的表輸入表輸出;非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化;特殊字段的拆分等。源數(shù)據(jù)到數(shù)倉、數(shù)據(jù)集市層的各類規(guī)則。比如內(nèi)容、清理、數(shù)據(jù)刷新規(guī)則。

(3)數(shù)據(jù)倉庫元數(shù)據(jù)

數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)及數(shù)據(jù)集市的位置和內(nèi)容;

業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式等。

(4)BI 元數(shù)據(jù)
匯總用的算法、包括各類度量和維度定義算法。數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢與報(bào)告。

3、管理元數(shù)據(jù)

管理領(lǐng)域相關(guān),包括管理流程、人員組織、角色職責(zé)等。
也有很多觀點(diǎn)建議將管理元數(shù)據(jù)拆分融入業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)中。


04 如何建設(shè)數(shù)據(jù)倉庫元數(shù)據(jù)管理?

任何系統(tǒng)的元數(shù)據(jù)管理建設(shè)都是十分艱難的,數(shù)據(jù)倉庫更是如此;但另一方面,這個(gè)建設(shè)過程又是非常重要的。我們暫以 CWM 標(biāo)準(zhǔn)作為數(shù)據(jù)倉庫的元數(shù)據(jù)標(biāo)準(zhǔn)參考,在實(shí)際建設(shè)中進(jìn)行借鑒,這樣看起來更專業(yè)。
CWM (CommonWarehouseMetamodel公共倉庫元模型)是 OMG 組織在數(shù)據(jù)倉庫系統(tǒng)中定義了一套完整的元模型體系結(jié)構(gòu),用于數(shù)據(jù)倉庫構(gòu)建和應(yīng)用的元數(shù)據(jù)建模。公共倉庫元模型指定的接口,可用于啟用交換倉庫之間元數(shù)據(jù)倉庫和業(yè)務(wù)智能工具、倉庫平臺(tái)、應(yīng)用的元數(shù)據(jù)建模和倉庫元數(shù)據(jù)存儲(chǔ)在分布式異構(gòu)環(huán)境 CWM 元模型由一系列子元模型構(gòu)成。
由于 CWM 制定時(shí)間是 2001 年,且過于細(xì)節(jié)深入,因此筆者認(rèn)為其更適合作為開發(fā)參考而非開發(fā)標(biāo)準(zhǔn)。
由于元數(shù)據(jù)包含極廣,我們?cè)诮⒃獢?shù)據(jù)管理系統(tǒng)的時(shí)候,絕對(duì)不能盲目追求大而全、一步到位,要堅(jiān)持目標(biāo)驅(qū)動(dòng)的原則,在實(shí)施的時(shí)候要采取增量式、漸進(jìn)式的建設(shè)原則。具體的建設(shè)步驟如下:
  1. 在建設(shè)數(shù)據(jù)倉庫系統(tǒng)的初期,只需確定源系統(tǒng)的元數(shù)據(jù)構(gòu)成和 數(shù)倉我們想要實(shí)現(xiàn)的元數(shù)據(jù)內(nèi)容:比如,我們只想通過元數(shù)據(jù)來管理數(shù)據(jù)倉庫中數(shù)據(jù)的轉(zhuǎn)換過程,以及有關(guān)數(shù)據(jù)的抽取路線,以使數(shù)據(jù)倉庫開發(fā)和使用人員明白倉庫中數(shù)據(jù)的整個(gè)歷史過程。
  2. 確定源系統(tǒng)和元數(shù)據(jù)構(gòu)成后,先將源系統(tǒng)的元數(shù)據(jù)整理并記錄,可以用文檔記錄;也可以存入關(guān)系型數(shù)據(jù)庫中。
  3. 隨著數(shù)據(jù)倉庫系統(tǒng)的建設(shè),逐步將需要的元數(shù)據(jù)補(bǔ)充錄入——例如 DM 的語義層、ETL 的同步規(guī)則。
  4. 數(shù)據(jù)倉庫建設(shè)完成后,對(duì)元數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、標(biāo)準(zhǔn)化儲(chǔ)存。
總之,建立元數(shù)據(jù)管理系統(tǒng)一定要堅(jiān)持關(guān)注標(biāo)準(zhǔn),又不被標(biāo)準(zhǔn)所束縛的原則,建立符合自身目標(biāo)的元數(shù)據(jù)管理系統(tǒng)。


05 元數(shù)據(jù)的應(yīng)用場(chǎng)景

1、影響分析

在開發(fā)中,我們經(jīng)常會(huì)遇到以下問題:
如果我要改動(dòng)某個(gè)表、ETL,會(huì)造成怎樣的影響?
如果沒有元數(shù)據(jù),那我們可能需要遍歷所有的腳本、數(shù)據(jù)。才能得到想要的答案;而如果有成熟的元數(shù)據(jù)管理,那我們就可以直接得到答案,節(jié)省大量時(shí)間。

2、血緣分析

血緣分析是一種技術(shù)手段,用于對(duì)數(shù)據(jù)處理過程的全面追蹤,從而找到某個(gè)數(shù)據(jù)對(duì)象為起點(diǎn)的所有相關(guān)元數(shù)據(jù)對(duì)象以及這些元數(shù)據(jù)對(duì)象之間的關(guān)系。元數(shù)據(jù)對(duì)象之間的關(guān)系特指表示這些元數(shù)據(jù)對(duì)象的數(shù)據(jù)流輸入輸出關(guān)系。
在元數(shù)據(jù)管理系統(tǒng)成型后,我們便可以通過血緣分析來對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)健康、數(shù)據(jù)分布、集中度、數(shù)據(jù)熱度等進(jìn)行分析。
血緣分析是 data science 非常重要的應(yīng)用,未來筆者會(huì)單獨(dú)展開介紹。

3、ETL 自動(dòng)化管理

在數(shù)倉中,很大一部分 ETL 都是枯燥重復(fù)的步驟。
例如源系統(tǒng)-ODS 層的:表輸入——表輸出。
又比如 ODS-DW:SQL 輸入——數(shù)據(jù)清洗——數(shù)據(jù)處理——表輸出。
以上的規(guī)則其實(shí)就屬于一部分元數(shù)據(jù)。
那理論上完全可以實(shí)現(xiàn),寫好固定腳本,然后通過前端選擇——或 api 接口。
進(jìn)而對(duì)重復(fù)的 ETL 實(shí)現(xiàn)自動(dòng)化管理,降低 ETL 開發(fā)的時(shí)間成本。

4、數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)清洗的邏輯,簡(jiǎn)單的說可以分為不同的數(shù)據(jù)類型和指定的特殊處理列。
我們只需指定不同數(shù)據(jù)類型的默認(rèn)清洗規(guī)則,和部分特殊列的特殊處理邏輯,即可實(shí)現(xiàn)智能快捷的數(shù)據(jù)清洗。
數(shù)據(jù)質(zhì)量管理,屬于 數(shù)據(jù)治理 與 元數(shù)據(jù)管理 交集,更偏向數(shù)據(jù)治理方面。未來也會(huì)展開更詳細(xì)介紹。

5、數(shù)據(jù)安全管理

在阿里推崇的數(shù)據(jù)中臺(tái)中,一切數(shù)據(jù)接口指標(biāo),都會(huì)從數(shù)據(jù)倉庫中出口。因此理論上,我們只需在此處的元數(shù)據(jù)中對(duì)管理元數(shù)據(jù)的權(quán)限進(jìn)行配置,即可實(shí)現(xiàn)全公司的數(shù)據(jù)安全管理。


06 常見的元數(shù)據(jù)管理系統(tǒng)

1、apache atlas
Apache Atlas 是 Apache 基金會(huì)的孵化項(xiàng)目,是 Hadoop 生態(tài)圈的數(shù)據(jù)治理和元數(shù)據(jù)框架。Atlas 是一套核心基礎(chǔ)治理服務(wù)的集合,有很好的伸縮性和可擴(kuò)展性,能夠滿足企業(yè)對(duì) Hadoop 生態(tài)系統(tǒng)的多樣性需求,并能和企業(yè)的數(shù)據(jù)生態(tài)系統(tǒng)集成。
它為 Hadoop 集群提供了包括數(shù)據(jù)分類、集中策略引擎、數(shù)據(jù)血緣、安全和生命周期管理在內(nèi)的元數(shù)據(jù)治理核心能力。 
但 atlas 的缺點(diǎn)是:只能對(duì) hadoop 的元數(shù)據(jù)進(jìn)行管理(雖然也是連的 Mysql ),對(duì)傳統(tǒng)數(shù)據(jù)庫的支持力度非常小;同時(shí)血緣分析也只支持特定的數(shù)據(jù)庫。

2、wherehows

Wherehows 定位于元數(shù)據(jù)倉庫,元數(shù)據(jù)存儲(chǔ)于 mysql 中,它從不同的源系統(tǒng)中采集元數(shù)據(jù),并進(jìn)行標(biāo)準(zhǔn)化和建模,從而作為元數(shù)據(jù)倉庫完成血緣分析。由 linkedin 開源。支持 Docker 部署。
優(yōu)勢(shì):
  • 支持元數(shù)據(jù)歷史版本及對(duì)比分析。
  • 一站式的元數(shù)據(jù)分析管理系統(tǒng)。
劣勢(shì):
  • 支持的源系統(tǒng)比較少
  • 開源版本僅支持 Azkaban 調(diào)度任務(wù)的血緣分析。其他調(diào)度任務(wù)僅能獲得元數(shù)據(jù)信息,而沒有血緣信息。
  • 血緣分析較粗,不支持列級(jí)血緣。如 HDFS 僅能顯示數(shù)據(jù)文件之間的血緣。
  • Web UI 僅提供查詢能力,相關(guān)配置需要調(diào)用 API 接口。
  • 缺乏用戶、權(quán)限管理能力。
這個(gè)工具最大的問題是開發(fā)不完善,準(zhǔn)確的說,筆者還未看到有人安裝成功過。

3、其他

元數(shù)據(jù)管理系統(tǒng)的建設(shè),對(duì)整個(gè)公司都有著非常高的需求,因此其他系統(tǒng)會(huì)很難找。而收費(fèi)的例如 informatica 等產(chǎn)品,又很難拿到實(shí)際 demo 來測(cè)試。


06 總結(jié)

元數(shù)據(jù)管理系統(tǒng),是對(duì)一家公司數(shù)據(jù)更高的考驗(yàn),想要搭建成功,至少滿足以下條件:
  1. 整個(gè)公司數(shù)據(jù)的集成——數(shù)據(jù)倉庫的搭建
  2. 整個(gè)公司業(yè)務(wù)流程的完善——'業(yè)務(wù)中臺(tái)'的實(shí)現(xiàn)
  3. 整個(gè)公司技術(shù)開發(fā)的統(tǒng)一——'技術(shù)中臺(tái)'的實(shí)現(xiàn)
如果說數(shù)據(jù)倉庫是數(shù)據(jù)的集成,那元數(shù)據(jù)管理系統(tǒng)就是整個(gè)公司業(yè)務(wù)、技術(shù)、管理的統(tǒng)一。
從這個(gè)角度來看,元數(shù)據(jù)管理系統(tǒng)的定位是高于數(shù)據(jù)倉庫的,這也是筆者雖然標(biāo)題是《數(shù)據(jù)倉庫的“元數(shù)據(jù)管理”》,但花了大量篇幅在介紹元數(shù)據(jù)的原因。
阿里所推崇的數(shù)據(jù)中臺(tái),理念上比較接近 數(shù)據(jù)倉庫+元數(shù)據(jù)管理。
但換個(gè)角度,任何業(yè)務(wù)、技術(shù)、數(shù)據(jù)的規(guī)范過程,短時(shí)間內(nèi)都會(huì)對(duì)實(shí)際工作造成負(fù)面的影響。不是所有人都能理解規(guī)范化所帶來的優(yōu)點(diǎn),這里也需要一定權(quán)衡和反復(fù)的溝通。
用 ETL 的開發(fā)舉一個(gè)例子。
  • 全部用 SQL 解決——開發(fā)很快,結(jié)果也很少出錯(cuò)。但未來可能要讀一個(gè)上千行的 SQL。
  • 全部用 python 解決——開發(fā)、維護(hù)的代碼門檻較高,且性能相比 SQL 相差何止百倍。
  • python 來調(diào)度 SQL ——筆者較為推崇的方法,將處理邏輯變?yōu)?python 的函數(shù)、類,但底層邏輯使用 SQL 實(shí)現(xiàn)。從而達(dá)到一個(gè)相對(duì)平衡的角度。
因此,筆者認(rèn)為,無論是數(shù)據(jù)人員還是 IT 開發(fā)、測(cè)試甚至產(chǎn)品項(xiàng)目業(yè)務(wù),都應(yīng)有元數(shù)據(jù)的概念,記錄有價(jià)值的元數(shù)據(jù),利己利人。如果最終決定進(jìn)行元數(shù)據(jù)管理系統(tǒng)的建設(shè),也會(huì)節(jié)約大量時(shí)間。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一文秒懂BI是什么?
從數(shù)據(jù)治理到數(shù)據(jù)中臺(tái)
十問十答,帶你了解數(shù)據(jù)倉庫 | 人人都是產(chǎn)品經(jīng)理
BI與數(shù)據(jù)倉庫:先數(shù)倉后BI仍是唯一出路嗎?
中小企業(yè)商業(yè)智能(BI)應(yīng)用之路 - - BI商業(yè)智能
山東建設(shè)銀行商務(wù)智能系統(tǒng)應(yīng)用案例
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服