中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
數(shù)據(jù)如水海納百川,數(shù)據(jù)湖如何成為數(shù)據(jù)治理的新范式?

10年前,Pentaho公司創(chuàng)始人兼CTO詹姆斯·迪克遜(James Dixon)在他的博客中第一次提出“數(shù)據(jù)湖”(Data Lake)的概念;10年后的今天,在業(yè)界“數(shù)據(jù)中臺”大火的時代背景下,再來討論“數(shù)據(jù)湖”,別有一番風(fēng)味。


歷史的演變:
從“數(shù)據(jù)倉庫”到“數(shù)據(jù)湖”
 
在萬物互聯(lián)的時代,各行各業(yè)、各類設(shè)備和應(yīng)用都在24小時不間斷產(chǎn)生大量數(shù)據(jù)。IDC統(tǒng)計顯示,全球近90%的數(shù)據(jù)將在這幾年內(nèi)產(chǎn)生,預(yù)計到2025年,全球數(shù)據(jù)量將比2016年的16.1ZB增加十倍,達(dá)到163ZB。數(shù)據(jù)的海量與多元化決定了從數(shù)據(jù)中獲取有用的價值變得越來越困難,如果無法從數(shù)據(jù)中獲得益處,那么數(shù)據(jù)價值就無從談起。
 
這時候,數(shù)據(jù)需要更深度的價值挖掘。目前,數(shù)據(jù)的價值呈現(xiàn)兩極化特征,一是及時發(fā)現(xiàn),實時分析快速促進(jìn)業(yè)務(wù)發(fā)展;二是長期存放,數(shù)據(jù)累積起來,探索數(shù)據(jù)后隱藏的規(guī)律,統(tǒng)一分析其價值,為業(yè)務(wù)發(fā)展提供參考。
 
新的數(shù)據(jù)價值給企業(yè)帶來更多智能創(chuàng)新應(yīng)用,比如增長黑客、推薦系統(tǒng),用戶行為分析,AIoT帶來的更多模型,這也意味著IT基礎(chǔ)設(shè)施的變革。
 
以往的計算和存儲耦合的架構(gòu)就會呈現(xiàn)資源利用率非常低的狀況,數(shù)據(jù)是不斷累積、不斷增長,但計算的算力要求可能是峰谷,為了存儲更多的數(shù)據(jù)購買更多的計算,擴(kuò)容的時候必須一起擴(kuò)容,最終導(dǎo)致穩(wěn)定性不是最優(yōu),兩種資源無法獨立擴(kuò)展,使用成本也不是最優(yōu)。
 
在傳統(tǒng)架構(gòu)中,原始數(shù)據(jù)統(tǒng)一存放在Hadoop分布式文件系統(tǒng)(HDFS)系統(tǒng)上,引擎以Hadoop和Spark 為主,受到開源軟件本身能力的限制,傳統(tǒng)技術(shù)無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲成本、查詢性能以及彈性計算架構(gòu)升級等方面的需求。
 
如果這些多元的數(shù)據(jù)無法被其它應(yīng)用所使用,那么這一過程不可避免地會形成數(shù)據(jù)孤島,以至于無法滿足數(shù)據(jù)量迅速增長的需求。
 
傳統(tǒng)數(shù)據(jù)處理方式,就像“一條小河”,里面有ERP、CRM等各種業(yè)務(wù)系統(tǒng),用戶可以設(shè)計“一個河道”,數(shù)據(jù)庫在最底層。

數(shù)據(jù)經(jīng)過整理后形成中間層的數(shù)據(jù)倉庫,然后通過商務(wù)智能工具(BI)來及進(jìn)行展示。
 
簡單理解,在傳統(tǒng)數(shù)據(jù)處理過程中,用戶大概知道能有多少“水”,還可以通過“閘門”管控水量。
 
但是,在互聯(lián)網(wǎng)時代,各種各樣的視頻、移動終端信息如“洪水猛獸”,形成大規(guī)模的海量數(shù)據(jù),用戶來不及整理和使用。

這時,一個新的設(shè)想打開了人們的視野,假設(shè)有那么一片洼地,沒有河道,所有數(shù)據(jù)先蓄積到里面,然后通過有效的工具進(jìn)行查詢和處理,這便是數(shù)據(jù)湖。
 

國際研究機(jī)構(gòu)MarketsandMarkets最新研究報告顯示,到2024年,全球數(shù)據(jù)湖市場將突破200億美元,增至201億美元,復(fù)合年增長率將高達(dá)20.6%。

可以說,隨著數(shù)據(jù)治理與應(yīng)用需求激增,數(shù)據(jù)湖成為數(shù)據(jù)管理的重要方式已成為不爭的事實。
 
對于數(shù)據(jù)湖而言,有幾個重要特點。第一,存儲的原始自然數(shù)據(jù),既可以是結(jié)構(gòu)化數(shù)據(jù),也可以是非結(jié)構(gòu)化數(shù)據(jù);第二,因為使用了云計算,用戶可以快速縮放海量數(shù)據(jù);第三,在數(shù)據(jù)查詢過程中,除了能進(jìn)行建目錄、數(shù)據(jù)遷移和抽取等動作,還能進(jìn)一步歸類、進(jìn)行數(shù)據(jù)分析等等。

另外,數(shù)據(jù)湖不僅是高可用、高持久、海量數(shù)據(jù)處理的選擇,同時還能滿足安全、合規(guī)和審計等要求。
 

而對于用戶來說,借助最新的數(shù)據(jù)湖解決方案,不僅能解決過去的數(shù)據(jù)孤島問題,同時還能兼容傳統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)分析方法。最重要的是,更適合現(xiàn)代應(yīng)用部署,比如和機(jī)器學(xué)習(xí)結(jié)合,進(jìn)行預(yù)測性的分析。
 
數(shù)據(jù)湖與數(shù)據(jù)倉庫
并不是替代關(guān)系 
湖倉一體化成為新趨勢
 
隨著數(shù)據(jù)湖概念的興起,業(yè)界對于數(shù)據(jù)倉庫和數(shù)據(jù)湖的對比甚至爭論就一直不斷。有人說數(shù)據(jù)湖是下一代大數(shù)據(jù)平臺,各大云廠商也在紛紛的提出自己的數(shù)據(jù)湖解決方案,一些云數(shù)倉產(chǎn)品也增加了和數(shù)據(jù)湖聯(lián)動的特性。

不過在我們看來,數(shù)據(jù)湖與數(shù)據(jù)倉庫并不是替代關(guān)系,而是互為補(bǔ)充、相輔相成。
 
無論是數(shù)據(jù)倉庫,還是數(shù)據(jù)湖,其所要解決的問題離不開數(shù)據(jù)的存儲、調(diào)用、處理、分析、應(yīng)用等。

而隨著需求側(cè)的發(fā)展變化,數(shù)據(jù)湖與數(shù)據(jù)倉庫被寄予了更高的期待:如何完成內(nèi)部的統(tǒng)一,從而滿足數(shù)據(jù)訪問使用的靈活性與高性能并舉。
 
早期業(yè)界認(rèn)為數(shù)據(jù)湖可能將會是未來的主流趨勢,甚至有數(shù)據(jù)湖代替數(shù)據(jù)倉庫之勢,但隨著新技術(shù)發(fā)展的熱度下降,市場對數(shù)據(jù)湖的認(rèn)知愈發(fā)理性。

畢竟,數(shù)據(jù)倉庫在決策支持和商業(yè)智能應(yīng)用方面有著悠久的歷史。
 
也因此,湖倉一體化(Lakehouse)正在成為近些年來的熱點。湖倉一體采用開放式架構(gòu),既構(gòu)建于數(shù)據(jù)湖低成本的數(shù)據(jù)存儲架構(gòu)上,同時具備數(shù)據(jù)倉庫的數(shù)據(jù)處理和管理功能,助力商業(yè)決策。

因此,從某種程度上來講,數(shù)據(jù)湖產(chǎn)品的不斷迭代升級也是在向湖倉一體化趨勢靠近。

隨著企業(yè)及組織不斷上云、數(shù)據(jù)分析需求的激增,湖倉一體化分析方案正在成為下一代數(shù)據(jù)分析系統(tǒng)的核心。
 
如今,越來越多的企業(yè)開始融合數(shù)據(jù)湖和數(shù)據(jù)倉庫的平臺,不僅可以實現(xiàn)數(shù)據(jù)倉庫的功能,還實現(xiàn)了各種不同類型數(shù)據(jù)的處理功能、數(shù)據(jù)科學(xué)、用于發(fā)現(xiàn)新模型的高級功能。
 
相比單獨的數(shù)據(jù)倉庫和數(shù)據(jù)湖,湖倉一體提供完善的數(shù)據(jù)管理能力。數(shù)據(jù)湖中會存在兩類數(shù)據(jù):原始數(shù)據(jù)和處理后的數(shù)據(jù)。

數(shù)據(jù)湖中的數(shù)據(jù)會不斷的積累、演化,包含數(shù)據(jù)源、數(shù)據(jù)連接、數(shù)據(jù)格式、數(shù)據(jù)schema,對于數(shù)據(jù)具有一定的權(quán)限管理能力。
 
其次,湖倉一體為企業(yè)提供全量數(shù)據(jù)的存儲場所,可以對數(shù)據(jù)的全生命周期進(jìn)行管理,包括數(shù)據(jù)的定義、接入、存儲、處理、分析、應(yīng)用的全過程。

一個強(qiáng)大的數(shù)據(jù)湖,需要能做到對其間的任意一條數(shù)據(jù)的接入、存儲、處理、消費(fèi)過程是可追溯的,能夠清楚的重現(xiàn)數(shù)據(jù)完整的產(chǎn)生過程和流動過程。
 
一般情況下,數(shù)據(jù)的加載、轉(zhuǎn)換、處理會使用批處理計算引擎;需要實時計算的部分,會使用流式計算引擎;對于一些探索式的分析場景,可能又需要引入交互式分析引擎。

對此,湖倉一體擁有豐富的計算引擎,提供從批處理、流式計算、交互式分析到機(jī)器學(xué)習(xí)等各類計算引擎。
 
湖倉一體本身還內(nèi)置多模態(tài)的存儲引擎,以滿足不同的應(yīng)用對于數(shù)據(jù)訪問需求。

但是,在實際的使用過程中,為了達(dá)到可接受的性價比,湖倉一體解決方案提供可插拔式存儲框架,支持的類型有HDFS/S3等, 并且在必要時還可以與外置存儲引擎協(xié)同工作,滿足多樣化的應(yīng)用需求。
 
作為全球云計算巨頭,亞馬遜云科技在數(shù)據(jù)倉庫方面已經(jīng)擁有多款產(chǎn)品,比如:AmazonRedshift,是一個基于云的重要的數(shù)據(jù)倉庫產(chǎn)品,不僅具有強(qiáng)大的縮放能力,成本也是傳統(tǒng)的數(shù)據(jù)庫的十分之一。還有圖形數(shù)據(jù)庫Amazon Neptune,也在中國成功落地。
 

近期,亞馬遜云科技又針對數(shù)據(jù)及數(shù)據(jù)分析等服務(wù)持續(xù)發(fā)力,推出“智能湖倉”架構(gòu)。

據(jù)了解,“智能湖倉”架構(gòu)將亞馬遜云科技的數(shù)據(jù)服務(wù)無縫集成,打通數(shù)據(jù)湖和數(shù)據(jù)倉庫之間數(shù)據(jù)移動和訪問,并且進(jìn)一步實現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖、數(shù)據(jù)倉庫,以及在數(shù)據(jù)查詢、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等各類專門構(gòu)建的服務(wù)之間按需移動,從而形成統(tǒng)一且連續(xù)的整體,滿足客戶各種實際業(yè)務(wù)場景下的不同需求。
 
“智能湖倉”架構(gòu)以Amazon Simple Storage Service(AmazonS3)為基礎(chǔ)構(gòu)建數(shù)據(jù)湖,作為中央存儲庫,圍繞數(shù)據(jù)湖集成專門的“數(shù)據(jù)服務(wù)環(huán)”,包括數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理、日志分析等數(shù)據(jù)服務(wù),然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,實現(xiàn)數(shù)據(jù)湖的構(gòu)建、數(shù)據(jù)的移動和管理等。
 
從Linux基金會開啟開源Lakehouse項目、Databricks新添Delta Engine來增強(qiáng)Lakehouse服務(wù)能力,到Apache Iceberg的火熱、AWS Lake Formation等,不難看到,湖倉一體化正在成為主流服務(wù)商們探索的方向。

同時,隨著國內(nèi)外廠商們紛紛加入開源生態(tài),推動生態(tài)不斷成熟,數(shù)據(jù)湖與數(shù)據(jù)倉的關(guān)聯(lián)正在變得愈發(fā)密切。
 
不管是大數(shù)據(jù)開發(fā)者,還是企業(yè)大數(shù)據(jù)技術(shù)決策者,都應(yīng)該重新審視數(shù)據(jù)湖和數(shù)據(jù)倉庫的融合應(yīng)用,通過構(gòu)建更強(qiáng)大的業(yè)務(wù)平臺為企業(yè)減輕運(yùn)營壓力,提高工作效率,讓企業(yè)IT為業(yè)務(wù)創(chuàng)造更多新的可能。
 


本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
什么樣的數(shù)據(jù)架構(gòu),讓初創(chuàng)企業(yè)也能做到全球領(lǐng)先?
4萬字全面掌握數(shù)據(jù)庫, 數(shù)據(jù)倉庫, 數(shù)據(jù)集市,數(shù)據(jù)湖,數(shù)據(jù)中臺
數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺,有什么區(qū)別?
數(shù)據(jù)庫、數(shù)據(jù)湖、數(shù)據(jù)倉庫、湖倉一體、智能湖倉,分別都是什么鬼?
談?wù)勂髽I(yè)如何實施數(shù)據(jù)湖
學(xué)習(xí)大數(shù)據(jù)必知的15個數(shù)據(jù)術(shù)語,需要的朋友歡迎收藏
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服