數(shù)據(jù)流轉(zhuǎn)是持續(xù)的、不斷變化的,我們應(yīng)當(dāng)善用這些數(shù)據(jù)特點(diǎn)來發(fā)揮最大價(jià)值。
在大數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)技術(shù)出現(xiàn)之前,數(shù)據(jù)的流轉(zhuǎn)相對(duì)簡(jiǎn)單,整個(gè)過程類似于工廠的生產(chǎn)線。要么是將數(shù)據(jù)從相對(duì)靜態(tài)的數(shù)據(jù)庫(kù)移動(dòng)到數(shù)倉(cāng)中的適當(dāng)位置,要么是將數(shù)據(jù)以一種標(biāo)準(zhǔn)化的方式在數(shù)據(jù)庫(kù)和應(yīng)用程序之間移動(dòng)。
與過去相比,當(dāng)前環(huán)境是多對(duì)多的場(chǎng)景,例如來自流式、批處理或微批處理的各類數(shù)據(jù),被多個(gè)應(yīng)用程序所消費(fèi)。大規(guī)模數(shù)據(jù)的處理操作也不再遵循傳統(tǒng)數(shù)據(jù)所走的線性路徑,而更像是一個(gè)城市交通網(wǎng)格(即共享資源的網(wǎng)絡(luò))。
此外,由于各方(甚至是第三方)分別管控?cái)?shù)據(jù)來源和應(yīng)用,一旦模式或語(yǔ)義不可避免地發(fā)生變化時(shí)(即數(shù)據(jù)漂移),則會(huì)對(duì)數(shù)據(jù)下游的應(yīng)用(分析或交互)造成嚴(yán)重干擾。
鑒于現(xiàn)代化數(shù)據(jù)的動(dòng)態(tài)特性,我們需要從操作的角度出發(fā),必須每天進(jìn)行管理并隨著時(shí)間的推移不斷迭代。在當(dāng)下,企業(yè)必須基于不斷變化的特性來構(gòu)建架構(gòu),并持續(xù)監(jiān)視和調(diào)整其數(shù)據(jù)流轉(zhuǎn)系統(tǒng)的性能。
下面我們分享一下數(shù)據(jù)集成的11個(gè)最佳實(shí)踐:
雖然編寫定制代碼將數(shù)據(jù)從源頭導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中早已是司空見慣的事,但是鑒于大數(shù)據(jù)的動(dòng)態(tài)特性,這種做法是危險(xiǎn)的。此類操作會(huì)在數(shù)據(jù)流處理中是被證明非常容易出錯(cuò)和難以維護(hù),一旦數(shù)據(jù)模式發(fā)生微小的變化,則會(huì)導(dǎo)致數(shù)據(jù)管道丟失數(shù)據(jù)或完全失敗。除此以外,還存在下述問題:
目前,現(xiàn)代化的數(shù)據(jù)處理系統(tǒng)可以在數(shù)據(jù)源、中間處理系統(tǒng)(如Kafka等消息隊(duì)列)和數(shù)據(jù)倉(cāng)庫(kù)之間建立無代碼的即插即用連接。您可以從此類系統(tǒng)中得到靈活性、可見性和獨(dú)立升級(jí)數(shù)據(jù)處理組件的能力。如果您擔(dān)心定制化或可擴(kuò)展性問題,這些工具一般會(huì)通過支持強(qiáng)大的表達(dá)式語(yǔ)言或插入自定義代碼的能力來增強(qiáng)其內(nèi)置連接器。
Tapdata Real Time DaaS 就是一款基于數(shù)據(jù)即服務(wù)(DaaS)架構(gòu)理念的現(xiàn)代數(shù)據(jù)集成系統(tǒng),具備異構(gòu)數(shù)據(jù)實(shí)時(shí)同步、批流一體數(shù)據(jù)融合、自助式 API 發(fā)布等核心功能,可幫助企業(yè)無代碼快速連接孤島系統(tǒng),構(gòu)建敏捷型的實(shí)時(shí)數(shù)據(jù)服務(wù)平臺(tái),能夠?yàn)槁?lián)機(jī)分析處理(OLAP)業(yè)務(wù)提供實(shí)時(shí)數(shù)據(jù)輸入和為交互式業(yè)務(wù)(OLTP)提供實(shí)時(shí)的數(shù)據(jù)服務(wù)。Tapdata Real Time DaaS 核心優(yōu)勢(shì)是“全鏈路實(shí)時(shí)”:基于CDC方式實(shí)時(shí)采集;實(shí)時(shí)流式建模;亞秒級(jí)真實(shí)時(shí)分析;增量數(shù)據(jù)校驗(yàn);高并發(fā)查詢毫秒級(jí)響應(yīng)。適用于企業(yè)統(tǒng)一數(shù)據(jù)管理、實(shí)時(shí)數(shù)據(jù)中臺(tái)、實(shí)時(shí)數(shù)據(jù)庫(kù)同步、業(yè)務(wù)系統(tǒng)升級(jí)與加速等多個(gè)場(chǎng)景。
雖然完整的 Schema 規(guī)范是傳統(tǒng)數(shù)據(jù)世界的標(biāo)準(zhǔn)要求,但大數(shù)據(jù)場(chǎng)景下,它將導(dǎo)致工程時(shí)間和資源的浪費(fèi)。消費(fèi)應(yīng)用程序通常僅使用幾個(gè)關(guān)鍵字段進(jìn)行分析,加上大數(shù)據(jù)源往往有控制不力的Schema,隨著時(shí)間的推移而變化,迫使人們不斷地進(jìn)行維護(hù)。
數(shù)據(jù)流系統(tǒng)應(yīng)該是由業(yè)務(wù)驅(qū)動(dòng),而不是依賴于完整的 Schema 規(guī)范,因此您只需為下游分析有關(guān)的字段指定條件并執(zhí)行轉(zhuǎn)換。
此類極簡(jiǎn)風(fēng)格不僅減少了開發(fā)和實(shí)施管道所需的工作和時(shí)間,同時(shí)還使數(shù)據(jù)流更加可靠,出錯(cuò)可能性更小。
即使行業(yè)中有很多關(guān)于流分析的聲音,但企業(yè)的數(shù)據(jù)仍然是一個(gè)基于過去30年開發(fā)的應(yīng)用程序和源數(shù)據(jù)庫(kù)的批處理世界。因此,當(dāng)你在規(guī)劃網(wǎng)絡(luò)安全、物聯(lián)網(wǎng)和其他利用流的新時(shí)代應(yīng)用時(shí),您必須考慮這樣一個(gè)事實(shí),即這些數(shù)據(jù)通常需要與批處理源(例如主數(shù)據(jù)或交易數(shù)據(jù))結(jié)合或?qū)ζ溥M(jìn)行分析。
實(shí)際場(chǎng)景中,需要將流合并到遺留的批處理驅(qū)動(dòng)架構(gòu)中,同時(shí)維護(hù)或改進(jìn)整體數(shù)據(jù)操作的性能和可靠性,而不是建立一個(gè)僅用于流的框架。
Tapdata Real Time DaaS 實(shí)時(shí)數(shù)據(jù)服務(wù)平臺(tái)即采用了批流一體的實(shí)時(shí)數(shù)據(jù)融合架構(gòu),能夠非常好的滿足上述場(chǎng)景需求。
早期 Hadoop 用戶的最初口號(hào)是只在數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)只讀不可變的原始數(shù)據(jù)。隨著技術(shù)在真實(shí)場(chǎng)景的應(yīng)用,我們逐漸認(rèn)識(shí)到,如果沒有對(duì)數(shù)據(jù)進(jìn)行清洗有可能引發(fā)一些嚴(yán)重的缺陷。這就好比人喝了未經(jīng)處理的水容易生病一樣。
直接存儲(chǔ)原始數(shù)據(jù)通常會(huì)導(dǎo)致下述問題:
為消除此類風(fēng)險(xiǎn),常見的方法是由數(shù)據(jù)科學(xué)家來清洗每個(gè)消費(fèi)活動(dòng)的數(shù)據(jù),但顯然該方式的效率非常低。通過 Tapdata Real Time DaaS,您將實(shí)現(xiàn)在數(shù)據(jù)攝取時(shí)完成數(shù)據(jù)清洗:
盡可能地靠近數(shù)據(jù)源對(duì)數(shù)據(jù)進(jìn)行清洗可以提高數(shù)據(jù)科學(xué)家的工作效率,讓他們專注于特定用例的“數(shù)據(jù)整理(data wrangling)”,而不是將力氣反復(fù)花在本應(yīng)自動(dòng)化的規(guī)則重建上。
新的數(shù)據(jù)集通常是無限和連續(xù)的,比如不斷變化的日志、點(diǎn)擊流和物聯(lián)網(wǎng)傳感器輸出等。如果對(duì)這些動(dòng)態(tài)數(shù)據(jù)源使用文件傳輸或其他輔助機(jī)制會(huì)導(dǎo)致一個(gè)容易出現(xiàn)數(shù)據(jù)故障的體系結(jié)構(gòu),需要不斷維護(hù)以保持可行性。
由于文件的內(nèi)容在大小、結(jié)構(gòu)和格式上各不相同,因此很難即時(shí)檢查到相關(guān)問題。這意味著無法觀測(cè)到應(yīng)該傳達(dá)給消費(fèi)系統(tǒng)和應(yīng)用的變化。如果您打算依賴于文件傳輸機(jī)制,可以考慮對(duì)文件進(jìn)行預(yù)處理,以標(biāo)準(zhǔn)化數(shù)據(jù)格式簡(jiǎn)化檢查和分析,或者采用一個(gè)提取工具或框架來完成此工作。Tapdata Real Time DaaS 便可以協(xié)助您完成企業(yè)統(tǒng)一數(shù)據(jù)的管理。
在一個(gè)復(fù)雜的數(shù)據(jù)流系統(tǒng)中,你永遠(yuǎn)無法獲得足夠的可見性。當(dāng)你面對(duì)不斷變化的數(shù)據(jù)源和系統(tǒng)的挑戰(zhàn)時(shí),端到端的數(shù)據(jù)流轉(zhuǎn)檢測(cè)為您提供了一個(gè)了解性能的窗口。不僅需要用于對(duì)單個(gè)數(shù)據(jù)流進(jìn)行時(shí)間序列分析以梳理隨時(shí)間的變化,更重要的是,它可以幫助你在不同的數(shù)據(jù)流之間進(jìn)行關(guān)聯(lián),以實(shí)時(shí)識(shí)別關(guān)心的事件。
企業(yè)應(yīng)該盡量捕獲整個(gè)數(shù)據(jù)流架構(gòu)的每個(gè)方面的細(xì)節(jié),同時(shí)最大限度地減少系統(tǒng)之間的緊耦合和磨合成本。一個(gè)好的監(jiān)控方法應(yīng)滿足以下特性:
Tapdata Real Time DaaS 具備詳盡的可觀測(cè)性能力,在完整的數(shù)據(jù)鏈路上,從日志的采集和解析,到各個(gè)處理節(jié)點(diǎn),到最終寫入到目標(biāo),提供了上百個(gè)不同的指標(biāo)監(jiān)控點(diǎn),并可以直接對(duì)接Prometheus平臺(tái),為用戶提供數(shù)據(jù)任務(wù)的詳細(xì)洞察能力。
試想一下,如果機(jī)場(chǎng)安檢只是清點(diǎn)乘客和行李,而不是實(shí)際掃描行李中的異常物品,你會(huì)感到安全嗎?當(dāng)然不會(huì),然而傳統(tǒng)的數(shù)據(jù)提取的指標(biāo)是吞吐量和延遲。
如果您在數(shù)據(jù)流轉(zhuǎn)的過程中對(duì)其進(jìn)行剖析和了解其價(jià)值,您會(huì)得到更好的結(jié)果和價(jià)值。 否則,會(huì)讓自己處于數(shù)據(jù)格式或意義的突發(fā)變化的風(fēng)險(xiǎn)之中。數(shù)據(jù)值的重大變化可能表明現(xiàn)實(shí)世界發(fā)生了真正的變化,或者可能表明未檢測(cè)到的數(shù)據(jù)漂移正在影響您的下游分析。
檢查數(shù)據(jù)內(nèi)容的另一個(gè)好處是,它允許您識(shí)別傳輸基礎(chǔ)設(shè)施的個(gè)人或其他敏感數(shù)據(jù)。許多行業(yè)和地區(qū)對(duì)個(gè)人數(shù)據(jù)的存儲(chǔ)都有嚴(yán)格的要求,例如歐盟 2018 年“即用即棄”的 GDPR 要求。通過提供對(duì)收集和存儲(chǔ)的任何個(gè)人數(shù)據(jù)的實(shí)時(shí)檢測(cè)和跟蹤, 持續(xù)監(jiān)視輸入數(shù)據(jù)的模式有助于公司遵守規(guī)則。
敏捷工作流的 DevOps 敏感性與系統(tǒng)設(shè)計(jì)者和運(yùn)行者之間聯(lián)系緊密,非常適合大數(shù)據(jù)的流轉(zhuǎn)操作。在一個(gè)數(shù)據(jù)源、消費(fèi)用例和數(shù)據(jù)處理系統(tǒng)不斷演進(jìn)的世界里,數(shù)據(jù)管道需要頻繁地調(diào)整。
傳統(tǒng)的數(shù)據(jù)集成系統(tǒng)可以追溯到瀑布開發(fā)方法為王的時(shí)代,彼時(shí)的工具幾乎完全專注于設(shè)計(jì)模式問題。早期的大數(shù)據(jù)采集開發(fā)框架(如Apache Sqoop和Apache Flume)也是如此。如今,使用 Tapdata Real Time DaaS,便可以快速提供了一個(gè)集成開發(fā)環(huán)境(IDE),滿足在不斷發(fā)展的數(shù)據(jù)流生命周期中持續(xù)使用的需求。
與為傳統(tǒng)數(shù)據(jù)架構(gòu)構(gòu)建的單體式解決方案不同,大數(shù)據(jù)基礎(chǔ)設(shè)施需要在同類最佳(通常是開源)組件之間進(jìn)行協(xié)調(diào),以實(shí)現(xiàn)特定功能,例如提取、消息隊(duì)列、存儲(chǔ)、搜索、分析和機(jī)器學(xué)習(xí)。 這些組件按照自己的節(jié)奏發(fā)展,且需要根據(jù)業(yè)務(wù)需求進(jìn)行升級(jí)。因此,大型且昂貴的同步升級(jí)正在被對(duì)組件進(jìn)行的一系列逐項(xiàng)更改所取代。
為了讓您的數(shù)據(jù)操作在這個(gè)日新月異的新時(shí)代中保持最新狀態(tài),您應(yīng)該使用中間件層的數(shù)據(jù)傳送系統(tǒng),它能使每個(gè)傳送鏈上的子系統(tǒng)相互之間松耦合。這使您無需重新實(shí)施基礎(chǔ)設(shè)施的基礎(chǔ)部分即可對(duì) “用菜單點(diǎn)菜”的方式進(jìn)行現(xiàn)代化改造。
數(shù)據(jù)流不僅變得復(fù)雜,而且現(xiàn)在跨越了一系列部署備擇方案。行業(yè)調(diào)查表明,企業(yè)期望跨多個(gè)云部署數(shù)據(jù),同時(shí)仍保留本地?cái)?shù)據(jù)操作。
邊緣操作正在從簡(jiǎn)單的收集轉(zhuǎn)變?yōu)榘ê?jiǎn)單或復(fù)雜的處理,這取決于設(shè)備約束、緊急性和連接的穩(wěn)健性。由于每個(gè)部署選項(xiàng)都有自己的優(yōu)勢(shì),因此不要指望有一種方法能夠一勞永逸。 實(shí)際上,業(yè)務(wù)需求將決定一個(gè)企業(yè)架構(gòu),該架構(gòu)需要將其中的許多元素結(jié)合起來。
無論你處于什么階段,最好進(jìn)行這樣一個(gè)假設(shè):您將數(shù)據(jù)存儲(chǔ)在許多不同的環(huán)境中,并構(gòu)建基于完整“工作負(fù)載可轉(zhuǎn)移”的架構(gòu),您可以基于任務(wù)執(zhí)行的最優(yōu)代價(jià)和性能特征將數(shù)據(jù)流轉(zhuǎn)至分析點(diǎn),并且以最小的阻礙做到這一點(diǎn)。
此外,隨著云產(chǎn)品和業(yè)務(wù)需求的發(fā)展,您的多云架構(gòu)將隨著時(shí)間的推移而變化。
數(shù)據(jù)的移動(dòng)正在從“煙囪模型”演變?yōu)轭愃朴?#34;網(wǎng)格模型"。 你不能再使用“即用即走”的方法來構(gòu)建數(shù)據(jù)攝取管道。 在這樣的系統(tǒng)中,你必須規(guī)范化整體運(yùn)作管理(包括對(duì)人員、流程以及系統(tǒng)的管理),以確保該系統(tǒng)能可靠地運(yùn)行并持續(xù)滿足SLA。這也就意味著:
否則,你就會(huì)像”手握紙質(zhì)地圖嘗試在瞬息萬(wàn)變的繁忙城市交通中導(dǎo)航“一樣感到手足無措,與此同時(shí),還可能存在數(shù)據(jù)延遲、不完整甚至數(shù)據(jù)丟失的風(fēng)險(xiǎn)。
類似于 IaaS,PaaS 或者 SaaS,Tapdata Real Time DaaS 是基于 DaaS (Data as a Service)架構(gòu), 將企業(yè)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)匯總到一個(gè)中央化平臺(tái),經(jīng)過低代碼方式治理以后,形成可復(fù)用的企業(yè)數(shù)據(jù)資產(chǎn),通過無代碼數(shù)據(jù)接口方式提供給業(yè)務(wù)使用方。其特點(diǎn)和創(chuàng)新點(diǎn)是:具備“實(shí)時(shí)同步+實(shí)時(shí)處理+實(shí)時(shí)服務(wù)”的全鏈路實(shí)時(shí)數(shù)據(jù)處理及服務(wù)平臺(tái)。
實(shí)時(shí)數(shù)據(jù)采集同步。 Tapdata 的第一步就是將批量、滯后的 ETL 換成了 CDC 方式,基于數(shù)據(jù)庫(kù) Write Ahead Log 日志同步監(jiān)聽的方式來進(jìn)行在不同系統(tǒng)之間的數(shù)據(jù)復(fù)制,它的優(yōu)勢(shì)在于:對(duì)源庫(kù)性能影響小;資源消耗少;從事務(wù)在源端提交開始到更新寫入同步的目標(biāo)庫(kù),延遲可以小于1秒,能夠滿足對(duì)實(shí)時(shí)性要求較高的業(yè)務(wù)場(chǎng)景;
基于Pipeline的流式數(shù)據(jù)處理建模。 當(dāng)我們把需要的數(shù)據(jù)從源庫(kù)里面無侵入、準(zhǔn)實(shí)時(shí)地抽取了出來之后,可能還需要:對(duì)來自多個(gè)庫(kù)的數(shù)據(jù)進(jìn)行合并;對(duì)表結(jié)構(gòu)進(jìn)行重構(gòu),組成新的模型;構(gòu)建業(yè)務(wù)寬表等?;?Tapdata 實(shí)時(shí)流數(shù)據(jù)處理技術(shù),可以實(shí)現(xiàn)事件觸發(fā)、毫秒級(jí)數(shù)據(jù)更新、不間斷持續(xù)運(yùn)行,從而滿足 TP 業(yè)務(wù)和實(shí)時(shí)分析等場(chǎng)景需求。
基于分布式數(shù)據(jù)庫(kù) MongoDB 或 TiDB 的中間庫(kù)存儲(chǔ)。 相比 AP 數(shù)據(jù)平臺(tái)常用的 Hadoop 大數(shù)據(jù)存儲(chǔ)方案, 比較成熟的分布式數(shù)據(jù)庫(kù)(MongoDB 或 TiDB)更適合作為 DaaS 的存儲(chǔ)方案。主要原因是 DaaS 的很大一部分能力需要直接對(duì)接業(yè)務(wù)系統(tǒng),高并發(fā),毫秒級(jí)響應(yīng)是必備的能力。這種能力只有基于索引機(jī)制的分布式數(shù)據(jù)庫(kù)才可以做到。MongoDB 的模型變動(dòng)靈活,非常適合多源快速融合,無需復(fù)雜關(guān)系建模。而 TiDB 的 HTAP 則能不錯(cuò)的支撐一些常見的分析業(yè)務(wù)。
快速數(shù)據(jù)交付
新型數(shù)據(jù)庫(kù)和國(guó)產(chǎn)數(shù)據(jù)庫(kù)越來越多,每一個(gè)新數(shù)據(jù)庫(kù)場(chǎng)景的落地,都有可能需要獲取已有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。直接從 Tapdata Real Time DaaS 導(dǎo)入并保持持續(xù)同步,滿足實(shí)時(shí)數(shù)據(jù)更新的需求,從數(shù)周的時(shí)間縮短到數(shù)小時(shí)內(nèi)完成數(shù)據(jù)交付;
構(gòu)建實(shí)時(shí)數(shù)據(jù)中臺(tái)
通過 Tapdata Real Time DaaS 實(shí)時(shí)打通企業(yè)數(shù)據(jù)孤島,對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)采集,治理及建模,構(gòu)建企業(yè)的主數(shù)據(jù)系統(tǒng),為企業(yè)的交互式業(yè)務(wù),包括客戶管理、生產(chǎn)運(yùn)營(yíng)管理等提供一個(gè)完整全面的企業(yè)數(shù)據(jù)底座,支撐前端交互式業(yè)務(wù)。
開發(fā)實(shí)時(shí)數(shù)據(jù)大屏
Tapdata Real Time DaaS 完成數(shù)據(jù)采集同步,寬表構(gòu)建,統(tǒng)計(jì)聚合計(jì)算,并為帆軟、Tableau 或自研的數(shù)據(jù)可視化平臺(tái)提供數(shù)據(jù)固化視圖,以亞秒級(jí)的性能為這些可視化平臺(tái)供數(shù),超越傳統(tǒng)大屏依賴 SQL 和邏輯視圖的方案,讓實(shí)時(shí)大屏交互體驗(yàn)無需等待,更流暢。
構(gòu)建實(shí)時(shí)數(shù)倉(cāng)
將企業(yè)主數(shù)據(jù)及運(yùn)營(yíng)數(shù)據(jù)統(tǒng)一匯聚到 Tapdata Real Time DaaS ,按照數(shù)倉(cāng)分層理論分成基礎(chǔ)數(shù)據(jù),主數(shù)據(jù)和匯總數(shù)據(jù)層,為企業(yè)BI、報(bào)表等提供快速的數(shù)據(jù)支撐。
構(gòu)建企業(yè)數(shù)據(jù)服務(wù)平臺(tái)
企業(yè)內(nèi)部部門眾多,各業(yè)務(wù)均需要獲取企業(yè)相關(guān)運(yùn)營(yíng)數(shù)據(jù),通過 Tapdata Real Time DaaS 構(gòu)建一個(gè)統(tǒng)一的數(shù)據(jù)服務(wù)平臺(tái),部門可以快速的獲取業(yè)務(wù)所需要的數(shù)據(jù),并且通過API方式可以實(shí)現(xiàn)自助訪問。
獲取更多 Tapdata Real Time DaaS 的信息,可訪問 Tapdata 官網(wǎng) https://tapdata.net/ ,點(diǎn)擊下載 Tapdata 技術(shù)白皮書 或 免費(fèi)試用 Tapdata Real Time DaaS 。
聯(lián)系客服