近日,Spark的官方博客中刊登了其全球戰(zhàn)略合作伙伴SequoiaDB發(fā)布的技術(shù)博客,介紹SequoiaDB對于Spark的整合以及SequoiaDB+Spark的解決方案。而SequoiaDB也成為了Spark官方認證的全球合作伙伴和授權(quán)的Spark提供商之一,目前獲得這一認證的企業(yè)全球僅有14家,SequoiaDB也成為國內(nèi)唯一獲得該認證的數(shù)據(jù)庫。
Spark是新一代的大數(shù)據(jù)分析處理架構(gòu)
如今業(yè)界最具代表性的大數(shù)據(jù)技術(shù)為Hadoop,也是目前大部分的大數(shù)據(jù)分析處理所使用的架構(gòu)之一。Hadoop并不能適用于所有場景,尤其是在海量數(shù)據(jù)并對實時交互性需求較高的企業(yè),因為其使用的MapReduce架構(gòu),需要將每次臨時計算得出的結(jié)果寫回磁盤,下次需要的時候需要再次從磁盤讀取。這種方式會造成數(shù)據(jù)運算的效率較低。
Spark則使用內(nèi)存計算的結(jié)構(gòu),在計算性能上相比Hadoop有了巨大的提高。同時相比于如今Hadoop復(fù)雜繁瑣的生態(tài)系統(tǒng), Spark框架為批處理(Spark Core),交互式(Spark SQL),流式(Spark Streaming),機器學(xué)習(xí)(MLlib),圖計算(GraphX)提供一個統(tǒng)一的數(shù)據(jù)處理平臺,使用更方便統(tǒng)一。目前,Spark也成為了Apache的頂級Project,屬于Apache力捧的云計算、大數(shù)據(jù)架構(gòu),也是目前世界上最大的開源項目之一。
現(xiàn)在,越來越多的企業(yè)也開始使用Spark架構(gòu),Spark極有可能成為替代Hadoop的下一代云計算、大數(shù)據(jù)核心技術(shù)。
SequoiaDB是Spark底層數(shù)據(jù)源首選
SequoiaDB是一款文檔型的分布式NoSQL數(shù)據(jù)庫,其也是國內(nèi)第一款完全自主研發(fā)、并且敢于開源的NoSQL數(shù)據(jù)庫產(chǎn)品。SequoiaDB JSON對象式的存儲結(jié)構(gòu),帶來靈活的數(shù)據(jù)結(jié)構(gòu);分布式的架構(gòu),使得存儲容量可以動態(tài)調(diào)整;高可用和讀寫分離則可以使得數(shù)據(jù)讀寫和離線數(shù)據(jù)分析分離,提升使用的效率;原生的Spark-SequoiaDB Connector 連接器讓Spark與SequoiaDB完美對接。
以上這些特性都讓SequoiaDB可以成為Spark數(shù)據(jù)源的首選。
“SequoiaDB是一款NoSQL數(shù)據(jù)庫,其可以在不同的物理節(jié)點之間對數(shù)據(jù)進行復(fù)制,并且允許用戶指定使用哪一個數(shù)據(jù)備份。SequoiaDB允許在同一集群同時運行數(shù)據(jù)分析和數(shù)據(jù)操作負載,并且保證最小的I/O和CPU使用率?!?/p>
“Spark-SequoiaDB Connector是Spark的數(shù)據(jù)源,可以讓用戶能夠使用SparkSQL對SequoiaDB的數(shù)據(jù)庫集合中的數(shù)據(jù)進行讀寫。連接器用于SequoiaDB與Spark的集成,將無模式的存儲模型、動態(tài)索引以及Spark集群的優(yōu)勢有機的結(jié)合起來?!薄浴禨park官方 Blog》
SequoiaDB+Spark 打造一體化大數(shù)據(jù)平臺
“Apache Spark和SequoiaDB的聯(lián)合解決方案,使得用戶可以搭建一個在同一個物理集群中支持多種類型負載(如,SQL語句和流處理)的統(tǒng)一平臺?!?/p>
SequoiaDB+Spark的一體化大數(shù)據(jù)平臺,通過SequoiaDB與Spark架構(gòu)的結(jié)合,實現(xiàn)了從數(shù)據(jù)的底層存儲,到數(shù)據(jù)的處理分析,最終實現(xiàn)數(shù)據(jù)展現(xiàn)的一體化平臺。平臺打通了數(shù)據(jù)從存儲到最終展現(xiàn)的全過程,不僅大大降低了用戶部署、使用的成本,簡化了整個系統(tǒng)的操作和維護,同時更通過平臺的一體化整合,大大減少了因為不同的產(chǎn)品、架構(gòu)之間對接、通信等操作造成的系統(tǒng)效率和數(shù)據(jù)安全性降低。此外,Spark的SparkSQL解析引擎,結(jié)合非結(jié)構(gòu)化存儲的SequoiaDB,幫助現(xiàn)有的SQL語句比較熟悉的用戶,能在基本不修改業(yè)務(wù)操作的情況下,順利的對接上SequoiaDB+Spark平臺。
目前,一體化的大數(shù)據(jù)平臺,已經(jīng)在各個行業(yè)的大數(shù)據(jù)應(yīng)用中開始普及。我們也舉一個系統(tǒng)的例子來做說明。
SequoiaDB+Spark實戰(zhàn)案例:產(chǎn)品精準(zhǔn)推薦系統(tǒng)
這一系統(tǒng),使用分布式的SequoiaDB,將所有用戶的交易信息、操作信息進行了存儲。這一存儲的量級就已經(jīng)達到了近PB級別。
之后,基于這些歷史交易信息,平臺就可以通過對這些數(shù)據(jù)的分析,對每個用戶的交易行為進行預(yù)測,對用戶進行分類和建模,最終根據(jù)分析的結(jié)果向每個用戶推薦最適合的理財產(chǎn)品。
當(dāng)用戶模型系統(tǒng)通過分析所有的歷史數(shù)據(jù)和日志,計算出需要推薦的產(chǎn)品時,這些用戶特征也會作為這個用戶的一個標(biāo)簽寫入這個用戶的信息中。這些新加入的用戶標(biāo)簽,可以幫助前臺的員工和產(chǎn)品推薦系統(tǒng)快速的分辨出每個顧客的興趣和消費傾向。
部署了這套系統(tǒng)后,該金融產(chǎn)品的推薦成功率提升了10倍以上。
系統(tǒng)架構(gòu)圖
結(jié)束語
Spark將是大數(shù)據(jù)、云計算未來將會占據(jù)主流的計算架構(gòu)之一。如今,國內(nèi)唯一一款開源NoSQL數(shù)據(jù)庫與Spark進行深度結(jié)合,不僅體現(xiàn)出國內(nèi)大數(shù)據(jù)技術(shù)和產(chǎn)品已經(jīng)具備與國際頂尖產(chǎn)品齊頭并進的能力,也體現(xiàn)出了Spark這一新興的大數(shù)據(jù)技術(shù)對于中國這一市場的重視,在產(chǎn)品發(fā)展初期就選擇與中國的廠商進行全面的合作。此外,通過Spark這一技術(shù)在國內(nèi)得到了較多的應(yīng)用,可以看到中國目前企業(yè)對于大數(shù)據(jù)技術(shù)相比于其他方面,開放度和接受度更高,更愿意接收更新的技術(shù),這對于國內(nèi)的大數(shù)據(jù)技術(shù)、產(chǎn)品也是好消息。
聯(lián)系客服