本文以我個人的理解簡單分析下并行數(shù)據(jù)庫的技術要點以及對未來并行數(shù)據(jù)庫的發(fā)展做下展望,理解有偏差的地方,歡迎各位指正。
并行數(shù)據(jù)庫的定義
在維基百科上,并行數(shù)據(jù)庫被定義為通過并行使用多個CPU和磁盤來將諸如裝載數(shù)據(jù)、建立索引、執(zhí)行查詢等操作并行化以提升性能的數(shù)據(jù)庫系統(tǒng)。其中最重要的關鍵詞是并行,分布式。
并行數(shù)據(jù)庫的技術要點
并行數(shù)據(jù)庫主要由執(zhí)行引擎、存儲引擎和管理功能模塊組成,它們的不同技術風格形成了各個有特色的并行數(shù)據(jù)庫產品。隨著Hadoop的興起,目前MPP數(shù)據(jù)庫主要分成兩類,一類是傳統(tǒng)的MPP 關系型數(shù)據(jù)庫,比如。Greenplum,Vertica等,另外一類是借鑒了MPP并行數(shù)據(jù)庫的設計思想的SQL on Hadoop類的方案,比如Impala,HAWQ,SparkSQL等
并行數(shù)據(jù)庫比較關鍵的技術點是存儲引擎,而在存儲引擎中最重要的就是數(shù)據(jù)分布按行進行Hash分布是并行數(shù)據(jù)庫的重要特征。其它數(shù)據(jù)分布方式無法精確控制數(shù)據(jù)擺放,也無法提供足夠的用于查詢優(yōu)化的存儲信息。這種緊密耦合的非透明的方式帶來了巨大的好處(同樣分布的表的高效關聯(lián)),同時也帶來了麻煩(擴展性、高可用等)。
像一些SQL on Hadoop的方案,比如impala,就充分利用了HDFS的短路讀和數(shù)據(jù)本地性的方式來提升SQL查詢的性能。沒有解決Hash分布的解決方案都難以處理多個大表關聯(lián)(Join)的問題,它們多通過預關聯(lián)的方式來規(guī)避這個問題,形成某種類似OLAP多維立方體的解決方案(比如Google Dremel、Mesa,eBayKylin等);或通過shuffle實現(xiàn)重新分布(比如Hive或者SparkSQL)。解決了數(shù)據(jù)分布以后,就要思考計算好Hash后的數(shù)據(jù)在一個節(jié)點中怎么存。通常三種方式:行、列或者行列混合,所以在這基礎上出現(xiàn)了很多列存的文件存儲格式,比如ORC,Parquet等,以及支持列模式存儲的數(shù)據(jù)庫(比如Greenplum,Vertica等就有支持列模式的存儲)。
最后考慮的是硬件,目前典型的并行數(shù)據(jù)庫多使用SAS磁盤,而HDFS使用的容量更大、價格更便宜但性能和可靠性稍差的SATA磁盤。使用這種慢速的磁盤是并行數(shù)據(jù)庫目前最大的瓶頸,使得它無法實現(xiàn)效率和可擴展高可用的兼得。隨著SSD和內存的價格越來越便宜,性能的快速提高,后續(xù)面對以SATA接口SSD代替SAS,SATA磁盤的并行數(shù)據(jù)庫,我覺得很快就會到來,現(xiàn)在一些高端的并行數(shù)據(jù)庫一體機就已經(jīng)可以采用全部SSD的配置了,用硬件來解決軟件的問題是最直接有效的方式。
未來展望
隨著云計算技術的發(fā)展,我認為以后以云的方式提供數(shù)據(jù)庫服務會越來越多,無論是企業(yè)內部的私有云還是對外的公有云。比如AWS RedShift和Openstack Trove (DBaaS)。這給數(shù)據(jù)庫軟件帶來的變化是它需要支持越來越大的集群,技術難度加大但經(jīng)濟性更好。這也要求要具備更好的管控能力。數(shù)據(jù)庫軟件需要越來越為大規(guī)模集群設計。因此我認為,在上述趨勢的發(fā)展之下。并行數(shù)據(jù)庫的軟件模塊或者叫組件的分工會越來越細化。以前只有主節(jié)點和數(shù)據(jù)節(jié)點兩類。有的數(shù)據(jù)庫找一些空的數(shù)據(jù)節(jié)點來作為裝載節(jié)點。那么未來接入節(jié)點、協(xié)調節(jié)點、元數(shù)據(jù)節(jié)點、日志節(jié)點、安全節(jié)點、SQL解析和優(yōu)化節(jié)點、數(shù)據(jù)裝載和導出節(jié)點、數(shù)據(jù)節(jié)點可能會被單獨分析出來(數(shù)據(jù)節(jié)點的對等性必須得到保護)。并且這些組件的實例均需要支持通過軟件的方式靈活配置數(shù)量等,而不是寫到代碼之中。在架構設計之初就考慮并行、負載分擔和可擴展等。組件之間通過Zookeeper之類的方式進行協(xié)調,實現(xiàn)高可用,松耦合,屏蔽內部細節(jié)。
小結
1、 隨著云的發(fā)展,無論是公有云還是私有云,并行數(shù)據(jù)庫可能會發(fā)展的越來越大,專業(yè)性更加強。
2、 隨著SSD和內存的價格越來越便宜,內存可能會成為數(shù)據(jù)讀寫的主要發(fā)生點,這將有效的解決當前計算與存儲緊密結合的并行數(shù)據(jù)庫的難題。
來源:https://www.icode9.com/content-2-894101.html聯(lián)系客服