來自《2022年中國數(shù)據(jù)庫產(chǎn)品策略解析報告》和《2021年中國分布式數(shù)據(jù)庫市場報告》。分析未來數(shù)據(jù)庫管理領域的重要發(fā)展趨勢,各類技術的互相借鑒、融合和發(fā)展。數(shù)據(jù)庫數(shù)據(jù)庫產(chǎn)業(yè)持續(xù)不斷地適應著市場需求進行改進,而此演進迭代的進程將持續(xù)。
數(shù)據(jù)庫的發(fā)展階段劃分數(shù)據(jù)庫(Database)是指長期保存在計算機的存儲設備上并按照某種模型組織起來的,可以被各種用戶或應用共享的數(shù)據(jù)的集合。
數(shù)據(jù)庫管理系統(tǒng)(Database Management Systems)是指提供各種數(shù)據(jù)管理服務的計算機軟件系統(tǒng),這種服務包括數(shù)據(jù)對象的定義、數(shù)據(jù)存儲與備份、數(shù)據(jù)訪問與更新、數(shù)據(jù)統(tǒng)計與分析、數(shù)據(jù)安全保護、數(shù)據(jù)庫運行管理以及數(shù)據(jù)庫的建立和維護等。數(shù)據(jù)模型是數(shù)據(jù)庫系統(tǒng)的核心和基礎,各種數(shù)據(jù)庫管理軟件都是基于不同的數(shù)據(jù)模型而生的,對數(shù)據(jù)庫技術發(fā)展階段的劃分基本按照數(shù)據(jù)模型的發(fā)展演變作為主要依據(jù)和標志。
數(shù)據(jù)庫設計流程:數(shù)據(jù)庫設計理論正在尋求更有效的語義表達關系,并在各設計階段提供自動或半自動的設計工具和集成化的開發(fā)環(huán)境。
數(shù)據(jù)庫設計:對于給定的應用環(huán)境,構(gòu)造最優(yōu)的數(shù)據(jù)庫模式,建立數(shù)據(jù)庫及其應用系統(tǒng),使之能夠有效地存儲數(shù)據(jù),并滿足各種用戶對信息分類與處理等應用要求。數(shù)據(jù)庫設計理論正在尋求更有效的語義表達關系,并在各設計階段提供自動或半自動的設計工具和集成化的開發(fā)環(huán)境。
中國數(shù)據(jù)庫產(chǎn)品圖譜:中國數(shù)據(jù)庫廠商分為傳統(tǒng)數(shù)據(jù)庫廠商、新興數(shù)據(jù)庫廠商、云廠商、ICT跨界廠商四類,各家提供不同的集中式數(shù)據(jù)庫與分布式數(shù)據(jù)庫產(chǎn)品中國數(shù)據(jù)庫廠商及代表數(shù)據(jù)庫產(chǎn)品。
數(shù)據(jù)庫架構(gòu)維度:數(shù)據(jù)庫技術架構(gòu)整體包括管理模塊、計算模塊和存儲模塊,物理資源層是為數(shù)據(jù)庫提供基礎支撐環(huán)境。四個模塊中分別具有不同的前沿創(chuàng)新技術。
數(shù)據(jù)庫架構(gòu)維度:物理資源層是為數(shù)據(jù)庫及上層業(yè)務系統(tǒng)提供包括物理基礎設施的基礎支撐環(huán)境。
計算模塊負責解析應用程序查詢請求、生成查詢計劃,并將查詢計劃自動分配到各計算節(jié)點并行執(zhí)行。
存儲模塊負責執(zhí)行計算層數(shù)據(jù)操作請求,并實現(xiàn)數(shù)據(jù)在硬件層面的持久化保存,確保數(shù)據(jù)不丟失。管理模塊負責協(xié)調(diào)分布式時鐘和維護元數(shù)據(jù),并提供數(shù)據(jù)庫參數(shù)配置和運行監(jiān)控接口。
HTAP混合事務和分析處理:目前HTAP有兩種方案∶分離架構(gòu)和統(tǒng)一架構(gòu),分離架構(gòu)是目前的主流方案。趨勢中,云原生架構(gòu)環(huán)境與HTAP系統(tǒng)的融合將衍生新的HTAP產(chǎn)品方案和技術特征。
HTAP混合事務和分析處理:HTAP描述的是消除OLTP和OLAP之間的間隔,使一個分布式數(shù)據(jù)庫系統(tǒng)既可以應用于事務型數(shù)據(jù)庫場景,又可以應用于分析型數(shù)據(jù)庫場景,從而滿足實時業(yè)務決策的需求。
HTAP能讓數(shù)據(jù)產(chǎn)生后馬上就可以進入分析場景,但它面臨最大的問題是如何把OLTP和OLAP兩類互斥的工作負載更好放在一個系統(tǒng)上運行,并且實現(xiàn)資源干擾小、數(shù)據(jù)可見度高、延時短。
HTAP的應用場景:HTAP保證一定的實時性能的同時也能充分提升響應速度、吞吐量、并發(fā)訪問量、事務大小、數(shù)據(jù)訪問量及索引規(guī)模,為以下兩個場景帶來了業(yè)務與架構(gòu)的創(chuàng)新和提升∶
數(shù)據(jù)密集型業(yè)務:將分析能力內(nèi)嵌進傳統(tǒng)的OLTP業(yè)務系統(tǒng)。物聯(lián)網(wǎng)、醫(yī)療、風控、個性化推薦營銷等數(shù)據(jù)密集型業(yè)務可以在交易側(cè)完成實時的分析,且不會影響交易的性能與數(shù)據(jù)一致性。
以“用”為核心的實時數(shù)據(jù)服務平臺:在現(xiàn)有的數(shù)據(jù)平臺以'用'為核心,以'管'為基礎的數(shù)據(jù)中臺,將成為企業(yè)數(shù)字化規(guī)劃與實施的重點創(chuàng)新與升級。讓全企業(yè)用戶能自由選擇與應用數(shù)據(jù)資產(chǎn),實時變現(xiàn)數(shù)據(jù)紅利。
壓縮存儲技術:Zstd的壓縮比最高,且壓縮/解壓效率表現(xiàn)較高,適用于冷存儲場景。Iz4對比當前流行的壓縮工具,盡管壓縮比一般,卻具有最快的壓縮和解壓速度,適用于OLAP查詢場景。
數(shù)據(jù)壓縮的目的是為了減少數(shù)據(jù)傳輸或者轉(zhuǎn)移過程中的數(shù)據(jù)。數(shù)據(jù)壓縮存儲技術需要在不丟失信息的前提下,縮減數(shù)據(jù)量以減少存儲空間,提高傳輸、存儲和處理效率,或者是按照一定的算法對數(shù)據(jù)進行重新組織,減少數(shù)據(jù)的冗余和存儲的空間。
目前流行的壓縮算法有Snappy、Terark、zlib、bz2、lz4、lz77、zstd、brotli、B-tree、RLE、Delta Value Encoding、Deflate、Dictionary等。
存儲索引結(jié)構(gòu):在存儲系統(tǒng)的設計中,存儲引擎屬于底層數(shù)據(jù)結(jié)構(gòu),直接決定了存儲系統(tǒng)所能夠提供的性能和功能。常見存儲算法結(jié)構(gòu)涵蓋∶哈希存儲,B、B+、B*樹存儲,LSM樹存儲引擎,R樹,倒排索引,矩陣存儲,對象與塊,圖結(jié)構(gòu)存儲等等。
在存儲系統(tǒng)的設計中,存儲引擎屬于底層數(shù)據(jù)結(jié)構(gòu),直接決定了存儲系統(tǒng)所能夠提供的性能和功能。在數(shù)據(jù)庫產(chǎn)品中以Hash、B+tree、LSM-tree為存儲引擎的主流索引架構(gòu)。
數(shù)據(jù)庫智能自治:數(shù)據(jù)庫的治理是保障數(shù)據(jù)庫安全可控的重要方式。隨著業(yè)務信息化的發(fā)展,數(shù)據(jù)庫面對的數(shù)據(jù)規(guī)模及復雜度井噴式增長,傳統(tǒng)的基于經(jīng)驗的數(shù)據(jù)庫優(yōu)化工具已不能滿足負載調(diào)優(yōu)等高性能要求,需要基于學習的數(shù)據(jù)庫優(yōu)化工具∶Al4DB。
數(shù)據(jù)庫治理模式亟需基于云平臺的操作自動化與基于Al的自動的調(diào)參優(yōu)化、由數(shù)據(jù)驅(qū)動的自監(jiān)控自運維、智能化自診斷自設計,來減輕甚至取消對DBA的依賴。
智能參數(shù)調(diào)優(yōu)∶通過結(jié)合深度強化學習和全局搜索算法等Al技術,實現(xiàn)在無需人工干預的情況下,獲取最佳數(shù)據(jù)庫參數(shù)配置。支持智能參數(shù)調(diào)優(yōu)的廠商有∶華為云、騰訊云、Oceanbase、百度智能云、易鯨捷、星云科技、天云數(shù)據(jù)、阿里云等。
部署模式:數(shù)據(jù)庫的部署模式分為傳統(tǒng)本地部署(on-premise)與云部署。傳統(tǒng)的線下部署數(shù)據(jù)庫架構(gòu)依賴于高端硬件,難以支持新業(yè)務的擴展需求。而云上部署數(shù)據(jù)庫可以橫跨多服務器和虛擬機實現(xiàn)大規(guī)模擴展能力。
聯(lián)系客服