星環(huán)科技于2021年3月發(fā)布了星環(huán)極速大數(shù)據(jù)平臺TDH的8.0版本。相信很多用戶都對這款產(chǎn)品非常感興趣。
本系列文章向您逐一介紹TDH8.0全新功能和技術(shù)創(chuàng)新。幫助企業(yè)級數(shù)據(jù)平臺用戶更全面、深入地了解前沿的大數(shù)據(jù)技術(shù),更好地技術(shù)選型。
您也可以在星環(huán)科技官方視頻號、星環(huán)社區(qū)服務(wù)號、以及bilibili、騰訊視頻等站點(diǎn)看到我們的視頻。
往期內(nèi)容:
TDH8.0 使用必讀 1:為什么需要存算解耦的數(shù)據(jù)管理平臺
2021年,你還在用單模型數(shù)據(jù)庫嗎
如今越來越多的企業(yè)在談?wù)摂?shù)字化轉(zhuǎn)型。早期階段,企業(yè)會選擇一些要點(diǎn)場景,進(jìn)行數(shù)據(jù)采集、存儲、分析、決策、應(yīng)用的嘗試。單一的、相對固定的成熟場景,購買市場上合適的大數(shù)據(jù)或數(shù)據(jù)庫產(chǎn)品通常都能支撐。
隨著數(shù)字化轉(zhuǎn)型的深入和企業(yè)的快速發(fā)展,業(yè)務(wù)部門的擴(kuò)張、不可預(yù)測的需求變化、業(yè)務(wù)創(chuàng)新時(shí)機(jī)的來臨、企業(yè)管理標(biāo)準(zhǔn)的提高等各類情況出現(xiàn)時(shí),各自獨(dú)立的大數(shù)據(jù)和數(shù)據(jù)庫產(chǎn)品如同一個(gè)個(gè)數(shù)據(jù)孤島,成為不同場景、項(xiàng)目、業(yè)務(wù)、部門間數(shù)據(jù)互通的壁壘。
企業(yè)在數(shù)據(jù)融合創(chuàng)新過程中,可能需要使用關(guān)系型存儲、文本存儲、圖存儲、對象存儲、搜索引擎、地理空間存儲、鍵值存儲、寬表存儲、時(shí)序數(shù)據(jù)存儲、事件存儲等更豐富的數(shù)據(jù)存儲模型。使用多種單模型數(shù)據(jù)庫將會導(dǎo)致數(shù)據(jù)冗余、數(shù)據(jù)一致性治理難、數(shù)據(jù)跨庫分析難、資源配置難等一系列問題。同時(shí),多產(chǎn)品的語言與接口不統(tǒng)一,學(xué)習(xí)成本高,運(yùn)維成本高,系統(tǒng)的總擁有成本也會不斷提高。
企業(yè)為什么需要多模型大數(shù)據(jù)平臺
近年來,越來越多的企業(yè)逐漸意識到:未來的大數(shù)據(jù)平臺,既要為不同的項(xiàng)目場景配置不同數(shù)據(jù)模型以保障其高性能,又要讓數(shù)據(jù)操作和運(yùn)維更便捷、更統(tǒng)一。因此在一個(gè)統(tǒng)一平臺中多種數(shù)據(jù)模型并用變得越來越流行。
早期的幾種多模型數(shù)據(jù)平臺實(shí)現(xiàn)路徑,僅僅簡單地將多個(gè)單一模型數(shù)據(jù)庫組合在一個(gè)軟件系統(tǒng)中。用戶可以使用關(guān)系數(shù)據(jù)庫來持久化結(jié)構(gòu)化表格數(shù)據(jù); 使用文檔存儲來存儲非結(jié)構(gòu)化類對象數(shù)據(jù); 使用鍵/值存儲來存儲散列表; 使用圖數(shù)據(jù)庫來存儲高度鏈接的參考數(shù)據(jù)。在同一個(gè)項(xiàng)目中組合多個(gè)單模型數(shù)據(jù)庫,僅僅在界面的統(tǒng)一,并不能根本性的解決問題。
與之相比,原生的多模型大數(shù)據(jù)平臺在以下方面具有天然優(yōu)勢:
更強(qiáng)大的數(shù)據(jù)一致性。業(yè)務(wù)需要不同的數(shù)據(jù)模型時(shí),多模型大數(shù)據(jù)平臺天然支持一份邏輯數(shù)據(jù),多種數(shù)據(jù)建模,應(yīng)用于多個(gè)不同場景。避免了使用多個(gè)單一數(shù)據(jù)模型產(chǎn)品時(shí),面對的數(shù)據(jù)一致性、數(shù)據(jù)導(dǎo)入導(dǎo)出延時(shí)、數(shù)據(jù)冗余等問題。
更靈活的資源彈性。多模型大數(shù)據(jù)平臺,將不同模型的存儲和計(jì)算資源池化,可以根據(jù)業(yè)務(wù)需要隨時(shí)增減數(shù)據(jù)模型的種類,靈活部署和回收計(jì)算和存儲資源,真正做到按需分配,用完回收,更靈活、更充分的使用好存儲計(jì)算資源。
更簡潔的操作與運(yùn)維。多個(gè)單模型數(shù)據(jù)庫產(chǎn)品,往往接口不同、語法各異,開發(fā)人員學(xué)習(xí)成本高昂,專業(yè)技能門檻高。使用統(tǒng)一的多模型大數(shù)據(jù)平臺,開發(fā)人員只用學(xué)習(xí)統(tǒng)一的語言、統(tǒng)一的接口來操作多個(gè)數(shù)據(jù)模型,難度顯著降低。
企業(yè)什
星環(huán)科技的多模型大數(shù)據(jù)平臺實(shí)現(xiàn)路徑
目前常見的多模型數(shù)據(jù)庫架構(gòu)如下所示,傳統(tǒng)的架構(gòu)主要采用了三種實(shí)現(xiàn)模式:
第一種:為每一種新數(shù)據(jù)模型開發(fā)獨(dú)立完整的存算策略。缺點(diǎn)是存算耦合,支持的模型越多,系統(tǒng)的開發(fā)量和復(fù)雜度就越高,消耗存算資源也較多。
第二種:用單一存儲引擎支撐多個(gè)存儲模型。缺點(diǎn)是由于不同計(jì)算數(shù)據(jù)模型對于存儲的要求不同,單一存儲引擎無法隨之匹配適合的存儲策略,從而限制了多模型數(shù)據(jù)庫的性能。
第三種:在多種獨(dú)立數(shù)據(jù)庫之上提供統(tǒng)一的用戶界面,對底層多個(gè)數(shù)據(jù)庫進(jìn)行轉(zhuǎn)發(fā)。缺點(diǎn)是由于底層多個(gè)數(shù)據(jù)庫開發(fā)語言不一致,導(dǎo)致了實(shí)際開發(fā)時(shí)的高難度,排除故障的成本也較高。
這三種實(shí)現(xiàn)方式都存在著不同程度的問題,為了解決這些問題,我們需要一套統(tǒng)一的架構(gòu)來同時(shí)支持多模型、高可用與高性能。星環(huán)極速大數(shù)據(jù)平臺產(chǎn)品 TDH(Transwarp Data Hub)8.0 版本采用了原創(chuàng)的分層架構(gòu)設(shè)計(jì):提供了統(tǒng)一的 SQL 編譯器層,統(tǒng)一的分布式計(jì)算引擎層 ,統(tǒng)一的分布式數(shù)據(jù)管理系統(tǒng)層以及統(tǒng)一的資源調(diào)度層, 基于存算解耦合實(shí)現(xiàn)了支持10種數(shù)據(jù)模型模型。
星環(huán)科技的“異構(gòu)存儲,四層統(tǒng)一”多模型架構(gòu)
SQL層:統(tǒng)一的SQL編譯器
Quark是星環(huán)自主研發(fā)的分布式SQL編譯器,兼容多種方言的SQL編譯器,包括HiveQL,Oracle,DB2,Teradata等方言,也包括了算子和類型系統(tǒng)。TDH中的各個(gè)數(shù)據(jù)庫產(chǎn)品遵從一致的SQL規(guī)范。用戶不需要因?yàn)閳鼍扒袚Q、數(shù)據(jù)庫切換而造成接口、開發(fā)語言切換而煩惱。統(tǒng)一的SQL查詢使得開發(fā)人員學(xué)習(xí)成本極低,開發(fā)的代碼可移植性更強(qiáng),技術(shù)對接更加容易。
計(jì)算層:統(tǒng)一的分布式計(jì)算引擎 Transwarp Nucleon
Nucleon是星環(huán)自主研發(fā)的分布式計(jì)算引擎。計(jì)算引擎能根據(jù)不同的存儲引擎自動匹配高性能算法,無需用戶手工干預(yù),從而便捷地實(shí)現(xiàn) 跨庫關(guān)聯(lián),避免數(shù)據(jù)導(dǎo)入導(dǎo)出。
數(shù)據(jù)管理層:統(tǒng)一的數(shù)據(jù)存儲系統(tǒng)為不同存儲引擎提供公共的存儲管理服務(wù)
TDDMS是星環(huán)自主研發(fā)的分布式數(shù)據(jù)管理系統(tǒng),管理數(shù)據(jù)多副本間的強(qiáng)一致;管理數(shù)據(jù)在存儲介質(zhì)上的合理分片分布,擴(kuò)縮存儲容量時(shí),自動管理數(shù)據(jù)重分布,充分利用存儲資源;保障數(shù)據(jù)高可用,在存儲硬件故障時(shí),保持?jǐn)?shù)據(jù)存儲服務(wù)不中斷。 TDFS (Transwarp Distributed File System)是星環(huán)自主研發(fā)的分布式文件系統(tǒng),提供文件目錄結(jié)構(gòu)及有關(guān)服務(wù);主要用于數(shù)據(jù)批量導(dǎo)入和導(dǎo)出的時(shí)候以文件形式進(jìn)行數(shù)據(jù)交換的功能。
資源管理層:統(tǒng)一的資源調(diào)度系統(tǒng)TCOS
TCOS是星環(huán)自主研發(fā)的云原生操作系統(tǒng),貼合服務(wù)器硬件和操作系統(tǒng);提供統(tǒng)一的資源調(diào)度框架,通過容器化編排,統(tǒng)一調(diào)度計(jì)算、存儲、網(wǎng)絡(luò)等各類基礎(chǔ)資源。支持一鍵部署TDH, 在線擴(kuò)容、縮容, 同時(shí)支持基于優(yōu)先級的搶占式資源調(diào)度和細(xì)粒度資源分配。 TCOS基于先進(jìn)的云原生技術(shù)構(gòu)建,適配了多種主流的CPU架構(gòu)和多種操作系統(tǒng),支持不同硬件、不同操作系統(tǒng)的服務(wù)器混合部署。在集群擴(kuò)容時(shí),客戶不用擔(dān)心新舊設(shè)備兼容性問題,資源利用率更高。
異構(gòu)存儲引擎層:用8款異構(gòu)存儲引擎支持10種存儲模型
采用星環(huán)科技的多模型數(shù)據(jù)管理平臺,不同源的數(shù)據(jù),仍然使用不同存儲引擎存儲,保障其高性能。不同的數(shù)據(jù)庫,都架構(gòu)在統(tǒng)一多模型數(shù)據(jù)平臺中,跨庫的關(guān)聯(lián)分析不需要額外的數(shù)據(jù)導(dǎo)出導(dǎo)入過程,避免了數(shù)據(jù)冗余,使用十分便捷。TDH8.0提供了8款獨(dú)立的存儲引擎保障了不同存儲模型的高性能。用戶可以根據(jù)業(yè)務(wù)的需要,隨時(shí)增減不同的存儲引擎,做到資源按需分配。
Transwarp Inceptor 是星環(huán)科技自主研發(fā)的關(guān)系型分析引擎,提供PB級海量數(shù)據(jù)的高性能分析服務(wù)。Inceptor是全球首個(gè)通過分析決策系統(tǒng)國際基準(zhǔn)測試TPC-DS的產(chǎn)品;同時(shí)支持完整的SQL標(biāo)準(zhǔn)語法,兼容 Oracle、IBM DB2、Teradata方言,兼容Oracle和DB2的存儲過程,可以平滑遷移應(yīng)用;支持分布式事務(wù)處理,保障數(shù)據(jù)強(qiáng)一致性。Inceptor幫助用戶快速開發(fā)數(shù)據(jù)湖、數(shù)據(jù)倉庫等應(yīng)用。
Transwarp Hyperbase是星環(huán)科技自主研發(fā)的NoSQL寬表數(shù)據(jù)庫,支撐百萬級高并發(fā)、毫秒級低延時(shí)業(yè)務(wù)需求。Hyperbase支持結(jié)構(gòu)化數(shù)據(jù),及文本、圖像、視頻、對象等非結(jié)構(gòu)化數(shù)據(jù)的存儲;支持全文索引、二級索引等索引技術(shù);提供多租戶管理;支持SQL標(biāo)準(zhǔn)語法,并兼容開源HBase。Hyperbase幫助用戶快速開發(fā)歷史數(shù)據(jù)查詢、業(yè)務(wù)在線檢索等應(yīng)用。
Transwarp StellarDB是星環(huán)科技自主研發(fā)的企業(yè)級分布式圖數(shù)據(jù)庫,提供高性能的圖存儲、計(jì)算、分析、查詢和展示服務(wù)。StellarDB支持原生圖存儲,百億點(diǎn)、萬億邊、PB級大規(guī)模圖數(shù)據(jù)存儲;具備10+層的深度鏈路分析能力,提供豐富的圖分析算法和深度圖算法;支持標(biāo)準(zhǔn)圖查詢語言并兼容OpenCypher,并具備海量數(shù)據(jù)3D圖展示能力。StellarDB幫助用戶快速開發(fā)欺詐檢測、推薦引擎、社交網(wǎng)絡(luò)分析、知識圖譜等應(yīng)用。
Transwarp Scope是星環(huán)科技自主研發(fā)的分布式搜索引擎,提供PB級海量數(shù)據(jù)的交互式多維檢索分析服務(wù),能夠?qū)崿F(xiàn)高可靠、高擴(kuò)展性的全文搜索與靈活查詢。毫秒級快速響應(yīng)用戶的檢索需求;分鐘級快速恢復(fù)單點(diǎn)故障。Transwarp Scope支持結(jié)構(gòu)化、半結(jié)構(gòu)化,及圖片、音影、互聯(lián)網(wǎng)數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)存儲,并保障數(shù)據(jù)的強(qiáng)一致性。Transwarp Scope幫助用戶快速開發(fā)文本信息分析檢索、企業(yè)級搜索引擎等應(yīng)用。
Transwarp Spacture是一款自主研發(fā)的分布式時(shí)空數(shù)據(jù)庫,提供空間地理、時(shí)空軌跡、遙感影像等海量數(shù)據(jù)的存儲、 查詢、分析和挖掘服務(wù)。Spacture具備高性能數(shù)據(jù)讀寫和分析能力。支持OGC標(biāo)準(zhǔn)圖形類型和空間關(guān)系,兼容常見的開源和商業(yè)GIS軟件;內(nèi)置了時(shí)空索引、空間拓?fù)鋷缀?、遙感影像處理等高效算法。Spacture幫助用戶快速開發(fā)時(shí)空查詢分析、時(shí)空模式挖掘、時(shí)空軌跡聚類等應(yīng)用,廣泛應(yīng)用于位置服務(wù)、城市管理、交通物流、疫情防控等場景。
Transwarp KeyByte是一款高性能鍵值數(shù)據(jù)庫,提供數(shù)據(jù)實(shí)時(shí)插入與高并發(fā)檢索服務(wù)。KeyByte 采用主從高可用架構(gòu),支持容災(zāi)、主備自動切換和故障遷移;兼容Redis核心數(shù)據(jù)結(jié)構(gòu)與API;支持?jǐn)?shù)據(jù)的持久化;支持彈性擴(kuò)展。KeyByte幫助用戶快速開發(fā)熱點(diǎn)數(shù)據(jù)緩存、高并發(fā)數(shù)據(jù)存儲、實(shí)時(shí)或限時(shí)業(yè)務(wù)支持等應(yīng)用。
Transwarp TimeLyre 是一款時(shí)序數(shù)據(jù)庫,提供海量時(shí)間序列數(shù)據(jù)的高效壓縮存儲和高性能分析服務(wù)。TimeLyre 支持?jǐn)?shù)據(jù)高速讀寫,每秒處理數(shù)十萬條記錄和數(shù)百次查詢。TimeLyre幫助用戶快速開發(fā)各類業(yè)務(wù)與設(shè)備的實(shí)時(shí)監(jiān)控、 實(shí)時(shí)預(yù)警、實(shí)時(shí)故障診斷等應(yīng)用。
Transwarp Event Store是一款高吞吐分布式NoSQL數(shù)據(jù)庫,提供消息和事件的存儲與處理服務(wù)。Event Store支持?jǐn)?shù)據(jù)持久化;支持?jǐn)?shù)據(jù)從指定時(shí)間點(diǎn)重放,保證數(shù)據(jù)順序性;具備彈性擴(kuò)展和容錯(cuò)能力。Event Store幫助用戶快速開發(fā)日志收集、應(yīng)用監(jiān)控、流式數(shù)據(jù)處理、在線分析等應(yīng)用。
除了以上的8款存儲引擎之外,TDH8.0還依舊提供了我們的經(jīng)典產(chǎn)品:實(shí)時(shí)流計(jì)算引擎Slipstream和數(shù)據(jù)科學(xué)平臺Sophon Discover,滿足用戶的多樣使用場景。
Transwarp Slipstream是星環(huán)科技自主研發(fā)的企業(yè)級、高性能實(shí)時(shí)流計(jì)算引擎,支撐百萬級高吞吐、毫秒級低延時(shí)業(yè)務(wù)需求。Slipstream 支持事件驅(qū)動和微批處理兩種模式,支持exactly-once語義、復(fù)雜事件處理(CEP)、規(guī)則引擎等功能,支持SQL編程與開發(fā)。Slipstream幫助用戶快速開發(fā)實(shí)時(shí)數(shù)據(jù)倉庫、實(shí)時(shí)報(bào)表分析、實(shí)時(shí)智能推薦、實(shí)時(shí)欺詐檢測與風(fēng)險(xiǎn)控制等應(yīng)用。
Transwarp Sophon Discover是星環(huán)科技自主研發(fā)的數(shù)據(jù)挖掘分析探索工具包,其包含豐富的分布式算法庫,并內(nèi)置了諸如金融反欺詐、輿情文本挖掘等多個(gè)行業(yè)應(yīng)用模塊。Sophon Discover可實(shí)現(xiàn)R、Python、Spark等多種編程語言進(jìn)行數(shù)據(jù)分析處理,并支持Tensorflflow、Torch等深度學(xué)習(xí)算法框架、異構(gòu)硬件資源的統(tǒng)一運(yùn)籌與管理。
TDH8.0 實(shí)踐方案
在TDH 8.0中,實(shí)時(shí)流處理采用Slipstream;結(jié)構(gòu)化數(shù)據(jù)的批處理、數(shù)據(jù)湖、數(shù)據(jù)倉庫采用Inceptor;寬表存儲、文本存儲、對象存儲等非結(jié)構(gòu)化數(shù)據(jù)采用Hyperbase;從而構(gòu)建實(shí)時(shí)流處理、批處理、數(shù)據(jù)湖、數(shù)據(jù)倉庫一體化方案。
平臺還提供其他服務(wù),適用于全文檢索的搜索引擎Scope;適用于實(shí)體間多層級鏈路關(guān)系分析的圖數(shù)據(jù)庫StellarDB;適用于時(shí)空地理分析的時(shí)空庫Spacture等等。
多模型大數(shù)據(jù)平臺,與傳統(tǒng)開源方案相比,架構(gòu)復(fù)雜度低、開發(fā)成本低、運(yùn)維成本低、數(shù)據(jù)處理效率高。
總結(jié)
星環(huán)多模型大數(shù)據(jù)管理平臺TDH 8.0,采用“接口、計(jì)算、管理、調(diào)度四層統(tǒng)一、存儲模型十種異構(gòu)”的創(chuàng)新架構(gòu),在保障不同數(shù)據(jù)模型高性能、高可靠、高可用的同時(shí),實(shí)現(xiàn)了資源配置更靈活、操作運(yùn)維更簡潔易用的目標(biāo)。
在未來,我們相信,從大型企業(yè)和機(jī)構(gòu),到小微企業(yè),再到個(gè)人開發(fā)愛好者,都可以通過便捷接入的方式,友好的開發(fā)環(huán)境,輕松的搭建、開發(fā)、運(yùn)維自己的數(shù)據(jù)平臺和應(yīng)用。將大數(shù)據(jù)來自每個(gè)人,又服務(wù)于每個(gè)人的理念,從科幻變?yōu)榭萍棘F(xiàn)實(shí)。
聯(lián)系客服