中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開(kāi)通VIP
談?wù)剶?shù)據(jù)湖分布式數(shù)據(jù)治理的數(shù)據(jù)目錄應(yīng)具備的四大能力【數(shù)據(jù)發(fā)現(xiàn)】

在過(guò)去幾年中,數(shù)據(jù)湖已成為現(xiàn)代數(shù)據(jù)堆棧的必備要素。但是,雖然支持我們?cè)L問(wèn)和分析數(shù)據(jù)的技術(shù)已經(jīng)成熟,但在分布式環(huán)境中理解和信任這些數(shù)據(jù)的機(jī)制卻落后了。

數(shù)據(jù)發(fā)現(xiàn)可以幫助確保數(shù)據(jù)湖不會(huì)變成數(shù)據(jù)沼澤。數(shù)據(jù)發(fā)現(xiàn)可以通過(guò)提供跨不同域的數(shù)據(jù)的分布式實(shí)時(shí)洞察力來(lái)取代現(xiàn)代數(shù)據(jù)目錄,同時(shí)遵守一組統(tǒng)一的治理標(biāo)準(zhǔn)。數(shù)據(jù)發(fā)現(xiàn)通過(guò)根據(jù)一組特定消費(fèi)者攝取、存儲(chǔ)、聚合和使用數(shù)據(jù)的方式提供對(duì)數(shù)據(jù)的特定領(lǐng)域動(dòng)態(tài)理解,從而取代了對(duì)數(shù)據(jù)目錄的需求。

在構(gòu)建數(shù)據(jù)平臺(tái)時(shí),數(shù)據(jù)團(tuán)隊(duì)必須做出的首要決定之一是選擇數(shù)據(jù)倉(cāng)庫(kù)還是數(shù)據(jù)湖來(lái)為他們的分析提供存儲(chǔ)和計(jì)算能力。

雖然數(shù)據(jù)倉(cāng)庫(kù)提供的結(jié)構(gòu)使數(shù)據(jù)團(tuán)隊(duì)可以輕松高效地操作數(shù)據(jù),即收集分析洞察力和支持機(jī)器學(xué)習(xí)功能,但該結(jié)構(gòu)可能會(huì)使它們?cè)谀承?yīng)用程序中變得不靈活且成本高昂。

數(shù)據(jù)湖具有無(wú)限的靈活性和可定制性,可以支持廣泛的用例,但隨著這種更大的敏捷性,出現(xiàn)了許多與數(shù)據(jù)組織和治理相關(guān)的其他問(wèn)題。因此,數(shù)據(jù)團(tuán)隊(duì)在轉(zhuǎn)向數(shù)據(jù)湖的路線往往難以回答有關(guān)其數(shù)據(jù)的關(guān)鍵問(wèn)題,例如:

  • 數(shù)據(jù)存放在哪里?

  • 誰(shuí)有權(quán)訪問(wèn)它?

  • 這個(gè)數(shù)據(jù)是最新的嗎?

  • 如何使用這些數(shù)據(jù)?

隨著數(shù)據(jù)操作的成熟和數(shù)據(jù)管道變得越來(lái)越復(fù)雜,傳統(tǒng)的數(shù)據(jù)目錄往往無(wú)法回答這些問(wèn)題。

這就是為什么一些最好的數(shù)據(jù)工程團(tuán)隊(duì)正在重新考慮他們構(gòu)建數(shù)據(jù)目錄的方法以及數(shù)據(jù)湖需要什么。

數(shù)據(jù)目錄可能在湖中失效

數(shù)據(jù)目錄作為元數(shù)據(jù)清單,并提供有關(guān)數(shù)據(jù)健康狀況、可訪問(wèn)性和位置的信息。它們幫助數(shù)據(jù)團(tuán)隊(duì)回答有關(guān)在哪里查找數(shù)據(jù)、數(shù)據(jù)代表什么以及如何使用數(shù)據(jù)的問(wèn)題。但是,如果我們不知道這些數(shù)據(jù)是如何組織的,那么所有最好的計(jì)劃或更確切地說(shuō)是管道都是徒勞的。

對(duì)于現(xiàn)代數(shù)據(jù)團(tuán)隊(duì)來(lái)說(shuō),它越來(lái)越重要。隨著公司向數(shù)據(jù)湖發(fā)展,他們通常會(huì)損害在倉(cāng)庫(kù)中存儲(chǔ)數(shù)據(jù)時(shí)隱含的組織和順序。數(shù)據(jù)倉(cāng)庫(kù)使數(shù)據(jù)工程團(tuán)隊(duì)構(gòu)建或至少半構(gòu)建他們的數(shù)據(jù),這使得根據(jù)業(yè)務(wù)用戶的需求進(jìn)行分類、搜索和檢索變得容易。

從歷史上看,許多公司使用數(shù)據(jù)目錄來(lái)執(zhí)行數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理標(biāo)準(zhǔn),因?yàn)樗麄儌鹘y(tǒng)上依賴數(shù)據(jù)團(tuán)隊(duì)隨著數(shù)據(jù)資產(chǎn)的發(fā)展手動(dòng)輸入和更新目錄信息。在數(shù)據(jù)湖中,數(shù)據(jù)是分布式的,因此很難記錄數(shù)據(jù)在其生命周期過(guò)程中的演變。

非結(jié)構(gòu)化數(shù)據(jù)是有問(wèn)題的,因?yàn)樗c數(shù)據(jù)目錄相關(guān),因?yàn)樗鼪](méi)有組織,即便被組織通常也不會(huì)被作為組織整體擁有。這可能適用于在數(shù)據(jù)倉(cāng)庫(kù)中管理的結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),但在分布式數(shù)據(jù)湖的背景下,如果沒(méi)有某種自動(dòng)化措施,隨著數(shù)據(jù)的發(fā)展手動(dòng)實(shí)施數(shù)據(jù)治理是無(wú)法持續(xù)的。

現(xiàn)在:手動(dòng)和集中式目錄

隨著時(shí)間的推移理解不同數(shù)據(jù)資產(chǎn)之間的關(guān)系是一個(gè)關(guān)鍵,但傳統(tǒng)數(shù)據(jù)目錄往往缺乏維度。雖然包括數(shù)據(jù)湖在內(nèi)的現(xiàn)代數(shù)據(jù)架構(gòu)通常是分布式的,但數(shù)據(jù)目錄通常不是,將數(shù)據(jù)視為一維實(shí)體。非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有大多數(shù)數(shù)據(jù)目錄所依賴的那種預(yù)定義模型,必須經(jīng)過(guò)多次轉(zhuǎn)換才能使用。

盡管如此,公司仍需要知道他們的數(shù)據(jù)存放在哪里以及誰(shuí)可以訪問(wèn)它,并能夠衡量其整體健康狀況,即使是存儲(chǔ)在湖中而不是倉(cāng)庫(kù)中。如果沒(méi)有對(duì)數(shù)據(jù)沿襲的可見(jiàn)性,當(dāng)下游出現(xiàn)數(shù)據(jù)問(wèn)題時(shí),團(tuán)隊(duì)將花費(fèi)大量的時(shí)間進(jìn)行故障排除。

數(shù)據(jù)發(fā)現(xiàn)可以通過(guò)跨數(shù)據(jù)堆棧的不同部分提供分布式、實(shí)時(shí)的數(shù)據(jù)洞察來(lái)取代或補(bǔ)充現(xiàn)代數(shù)據(jù)目錄,同時(shí)遵守通用治理和可訪問(wèn)性標(biāo)準(zhǔn)。

傳統(tǒng)的數(shù)據(jù)目錄通常可以滿足倉(cāng)庫(kù)中結(jié)構(gòu)化數(shù)據(jù)的需求,但是數(shù)據(jù)工程師如何在數(shù)據(jù)湖的復(fù)雜水域中航行呢?

雖然許多數(shù)據(jù)目錄具有以 UI 為中心的工作流,但數(shù)據(jù)工程師需要以編程方式與目錄進(jìn)行交互。他們使用目錄來(lái)管理模式和元數(shù)據(jù),并且需要一種 API 驅(qū)動(dòng)的方法來(lái)完成范圍廣泛的數(shù)據(jù)管理任務(wù)。

此外,數(shù)據(jù)可以通過(guò)多個(gè)入口點(diǎn)進(jìn)入一個(gè)湖泊,工程師需要一個(gè)能夠適應(yīng)并說(shuō)明每個(gè)入口點(diǎn)的目錄。與數(shù)據(jù)在輸入前進(jìn)行清理和處理的倉(cāng)庫(kù)不同,數(shù)據(jù)湖在不對(duì)端到端健康狀況做任何假設(shè)的情況下接收原始數(shù)據(jù)。

在湖中,存儲(chǔ)數(shù)據(jù)既便宜又靈活,但這讓我們了解擁有什么以及如何使用這些數(shù)據(jù)成為真正的挑戰(zhàn)。數(shù)據(jù)可能以多種方式存儲(chǔ),例如 JSON 或 Parquet,數(shù)據(jù)工程師根據(jù)要完成的工作以不同方式與數(shù)據(jù)交互。他們可能將 Spark 用于聚合作業(yè)或?qū)?Presto 用于報(bào)告或臨時(shí)查詢——這意味著損壞或不良數(shù)據(jù)有很多機(jī)會(huì)導(dǎo)致故障。如果沒(méi)有沿襲,數(shù)據(jù)湖中的那些故障可能會(huì)變得混亂且難以診斷。

在湖中,可以通過(guò)多種方式與數(shù)據(jù)進(jìn)行交互,而目錄必須能夠提供對(duì)正在使用的內(nèi)容和未使用的內(nèi)容的理解。當(dāng)傳統(tǒng)目錄不足時(shí),我們可以將數(shù)據(jù)發(fā)現(xiàn)作為前進(jìn)的道路。

未來(lái):數(shù)據(jù)發(fā)現(xiàn)

現(xiàn)代數(shù)據(jù)發(fā)現(xiàn)需要構(gòu)建四種關(guān)鍵能力解決傳統(tǒng)數(shù)據(jù)目錄不足的問(wèn)題:

1跨湖擴(kuò)展的自動(dòng)化

使用機(jī)器學(xué)習(xí),數(shù)據(jù)發(fā)現(xiàn)自動(dòng)跟蹤表和字段級(jí)沿襲,映射上游和下游依賴關(guān)系。隨著數(shù)據(jù)的發(fā)展,數(shù)據(jù)發(fā)現(xiàn)可確保對(duì)數(shù)據(jù)及其使用方式的理解也在發(fā)生變化。

2實(shí)時(shí)了解數(shù)據(jù)健康狀況

與傳統(tǒng)的數(shù)據(jù)目錄不同,數(shù)據(jù)發(fā)現(xiàn)要提供對(duì)數(shù)據(jù)當(dāng)前狀態(tài)的實(shí)時(shí)可見(jiàn)性,而不是其“編目”或理想狀態(tài)。由于發(fā)現(xiàn)涵蓋消費(fèi)者如何攝取、存儲(chǔ)、聚合和使用數(shù)據(jù),因此可以收集洞察力,例如哪些數(shù)據(jù)集已經(jīng)過(guò)時(shí)并且可以棄用,給定的數(shù)據(jù)集是否符合使用質(zhì)量,或者給定的表何時(shí)可用最后更新。

3用于了解數(shù)據(jù)的業(yè)務(wù)影響的數(shù)據(jù)沿襲

數(shù)據(jù)發(fā)現(xiàn)需要具有靈活性和動(dòng)態(tài)性,使數(shù)據(jù)發(fā)現(xiàn)非常適合將沿襲帶入數(shù)據(jù)湖,能夠在正確的時(shí)間顯示正確的信息,并在許多可能的輸入和輸出之間建立聯(lián)系。使用沿襲,可以在數(shù)據(jù)管道中斷時(shí)更快地解決問(wèn)題,因?yàn)閷z測(cè)到模式更改等經(jīng)常被忽視的問(wèn)題并映射相關(guān)依賴項(xiàng)。

4跨域自助服務(wù)發(fā)現(xiàn)

數(shù)據(jù)發(fā)現(xiàn)還需要支持自助服務(wù),使團(tuán)隊(duì)無(wú)需專門的支持團(tuán)隊(duì)即可輕松利用和理解他們的數(shù)據(jù)。為確保這些數(shù)據(jù)值得信賴和可靠,團(tuán)隊(duì)還應(yīng)該專注于數(shù)據(jù)可觀察性,它使用機(jī)器學(xué)習(xí)和自定義規(guī)則在數(shù)據(jù)湖或下游管道出現(xiàn)問(wèn)題時(shí)提供實(shí)時(shí)警報(bào)和監(jiān)控。

跨湖治理與優(yōu)化

現(xiàn)代數(shù)據(jù)發(fā)現(xiàn)使公司不僅可以了解在其生命周期過(guò)程中正在使用、應(yīng)用、存儲(chǔ)和棄用哪些數(shù)據(jù),還可以了解如何使用、應(yīng)用、存儲(chǔ)和棄用數(shù)據(jù),這對(duì)于數(shù)據(jù)治理至關(guān)重要,并提供可用于優(yōu)化整個(gè)數(shù)據(jù)湖的見(jiàn)解.

從優(yōu)化的角度來(lái)看,數(shù)據(jù)發(fā)現(xiàn)工具還可以讓利益相關(guān)者輕松識(shí)別最重要的數(shù)據(jù)資產(chǎn)以及未使用的數(shù)據(jù)資產(chǎn),這兩者都可以為團(tuán)隊(duì)優(yōu)化提供見(jiàn)解他們的管道。

數(shù)據(jù)湖的分布式發(fā)現(xiàn)

隨著公司不斷增加數(shù)據(jù)的攝取、存儲(chǔ)和利用,提高透明度和可發(fā)現(xiàn)性的技術(shù)將成為關(guān)鍵。

一些最好的目錄越來(lái)越多地在分布式、特定于域的發(fā)現(xiàn)中分層,為數(shù)據(jù)團(tuán)隊(duì)提供生命周期的所有階段完全信任和利用數(shù)據(jù)所需的可見(jiàn)性。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
談?wù)勅绾螛?gòu)建受治理的數(shù)據(jù)湖
根據(jù)物聯(lián)網(wǎng)提綱提煉的知識(shí)點(diǎn)(8)
從數(shù)據(jù)治理到數(shù)據(jù)中臺(tái)
十大最熱門的大數(shù)據(jù)技術(shù)
數(shù)字化轉(zhuǎn)型之場(chǎng)景方案篇——數(shù)據(jù)湖解決方案
數(shù)據(jù)湖:現(xiàn)代數(shù)據(jù)管理平臺(tái)的關(guān)鍵
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服