隨著數(shù)據(jù)量的不斷增大、接入的系統(tǒng)越來越多,系統(tǒng)加工效率逐步降低,滿足內(nèi)部數(shù)據(jù)分析和監(jiān)管機(jī)構(gòu)的監(jiān)管數(shù)據(jù)不斷增加的需求,農(nóng)業(yè)銀行在2013年開始建設(shè)完全自主可控的大數(shù)據(jù)平臺。
本篇案例為數(shù)據(jù)猿推出的大型“金融大數(shù)據(jù)主題策劃”活動(查看詳情)第一部分的系列案例/征文;感謝 南大通用 的投遞
作為整體活動的第二部分,2017年6月29日,由數(shù)據(jù)猿主辦,上海金融信息行業(yè)協(xié)會、互聯(lián)網(wǎng)普惠金融研究院合辦,中國信息通信研究院、大數(shù)據(jù)發(fā)展促進(jìn)委員會、上海大數(shù)據(jù)聯(lián)盟、首席數(shù)據(jù)官聯(lián)盟、中國大數(shù)據(jù)技術(shù)與應(yīng)用聯(lián)盟協(xié)辦的《「數(shù)據(jù)猿·超聲波」之金融科技·商業(yè)價值探索高峰論壇》還將在上海隆重舉辦【論壇詳情】【上屆回顧(點(diǎn)擊閱讀原文查看)】
在論壇現(xiàn)場,也將頒發(fā)“技術(shù)創(chuàng)新獎”、“應(yīng)用創(chuàng)新獎”、“最佳實(shí)踐獎”、“優(yōu)秀案例獎”四大類案例獎
來源:數(shù)據(jù)猿丨投遞:南大通用
本文長度為4800字,建議閱讀10分鐘
中國農(nóng)業(yè)銀行原有數(shù)據(jù)分析平臺基于SYBASE IQ建設(shè),隨著數(shù)據(jù)量的不斷增大、接入的系統(tǒng)越來越多,系統(tǒng)加工效率逐步降低,同時也無法繼續(xù)接入更多的源系統(tǒng)數(shù)據(jù)。為滿足行內(nèi)數(shù)據(jù)分析和監(jiān)管數(shù)據(jù)不斷增加的需求,農(nóng)業(yè)銀行在2013年開始建設(shè)完全自主可控的大數(shù)據(jù)平臺。
南大通用GBase 8a MPP Cluster集群在眾多備選產(chǎn)品中脫穎而出,被選作大數(shù)據(jù)平臺核心組件企業(yè)數(shù)據(jù)倉庫及集市的數(shù)據(jù)管理基礎(chǔ)軟件。到2016年底,農(nóng)行大數(shù)據(jù)平臺已經(jīng)建成為數(shù)據(jù)源完整、業(yè)務(wù)支撐覆蓋面廣的銀行重要IT基礎(chǔ)。
平臺建設(shè)期間,農(nóng)行與南大通用共同對MPP數(shù)據(jù)庫進(jìn)行深入研究、適配,總計(jì)完成數(shù)百項(xiàng)包括底層架構(gòu)、高可靠性、高可用性、性能等方面的優(yōu)化與改進(jìn)。南大通用GBase 8a MPP Cluster產(chǎn)品也發(fā)展成為國內(nèi)企業(yè)大數(shù)據(jù)、數(shù)據(jù)倉庫領(lǐng)域基礎(chǔ)平臺軟件的領(lǐng)先產(chǎn)品。
周期/節(jié)奏
2012年10月至2013年7月,項(xiàng)目組與多家廠商進(jìn)行了技術(shù)交流,并組織了對Oracle、IBM、EMC、GBase8a等主流數(shù)據(jù)庫,IDH、CDH、ZDH、FusionInsight、Inceptor等Hadoop發(fā)行版的調(diào)研與選型測試,通過MPP數(shù)據(jù)庫、Hadoop的研究、學(xué)習(xí),初步得到結(jié)論,可以將Hadoop與MPP數(shù)據(jù)庫相結(jié)合運(yùn)用。
2013年8月,農(nóng)行數(shù)據(jù)倉庫正式立項(xiàng),確定采用南大通用GBase 8a MPP Cluster與Hadoop的混搭架構(gòu)。
2013年11月30日,數(shù)據(jù)倉庫原型集群及資負(fù)、零售數(shù)據(jù)集市試運(yùn)行(28節(jié)點(diǎn)MPP集群)。
2014年11月,數(shù)據(jù)倉庫原型環(huán)境向生產(chǎn)環(huán)境(56節(jié)點(diǎn)MPP集群)的遷移與切換工作完成,遷移有效數(shù)據(jù)103T。
2014年12月,完成財(cái)會集市(16節(jié)點(diǎn)MPP集群)搭建。
2015年4月5日,數(shù)據(jù)倉庫及資負(fù)、零售數(shù)據(jù)集市投產(chǎn)上線。
2015年底至2016年3月,完成ODS遷移至Hadoop、集市外遷及雙活環(huán)境搭建等一系列架構(gòu)優(yōu)化升級,升級后GBase MPP數(shù)據(jù)庫集群共計(jì)250個節(jié)點(diǎn),容量5.2PB;Hadoop集群共計(jì)150個節(jié)點(diǎn),容量4.3PB。
2016年11月至今,完成五大集市即對公客戶、個人客戶、風(fēng)險、運(yùn)營風(fēng)控等數(shù)據(jù)集市的投產(chǎn)上線,同時建設(shè)集數(shù)據(jù)處理、模型算法、結(jié)果展示于一體的數(shù)據(jù)挖掘平臺。
目前平臺規(guī)模為:GBase MPP數(shù)據(jù)庫集群共計(jì)622個節(jié)點(diǎn),容量約15PB,Hadoop集群共計(jì)263個節(jié)點(diǎn),容量5.6PB;其他數(shù)據(jù)加載服務(wù)器、調(diào)度服務(wù)器等合計(jì)37節(jié)點(diǎn)。
客戶名稱/所屬分類
中國農(nóng)業(yè)銀行/大數(shù)據(jù)技術(shù)服務(wù)
任務(wù)/目標(biāo)
圍繞農(nóng)行發(fā)展戰(zhàn)略,圍繞數(shù)據(jù)管理和數(shù)據(jù)服務(wù)兩個基點(diǎn),按照全行大數(shù)據(jù)平臺統(tǒng)一框架,遵循“統(tǒng)籌規(guī)劃、頂層設(shè)計(jì)、共享復(fù)用、分步實(shí)施”的設(shè)計(jì)思路,構(gòu)建全行企業(yè)級大數(shù)據(jù)平臺,實(shí)現(xiàn)數(shù)據(jù)資源統(tǒng)一管理。
同時,全面提升數(shù)據(jù)服務(wù)能力,充分挖掘數(shù)據(jù)價值,滿足全行客戶營銷、風(fēng)險管控、經(jīng)營管理及外部監(jiān)管需要,推動數(shù)據(jù)治理,全面提升全行數(shù)據(jù)資源管理水平和數(shù)據(jù)資產(chǎn)綜合應(yīng)用能力,促進(jìn)業(yè)務(wù)“用數(shù)據(jù)說話”,為業(yè)務(wù)發(fā)展提供不竭的內(nèi)生動力,持續(xù)推動全行業(yè)務(wù)創(chuàng)新、營銷創(chuàng)新、服務(wù)創(chuàng)新、管理創(chuàng)新。
實(shí)現(xiàn)行內(nèi)業(yè)務(wù)數(shù)據(jù)統(tǒng)一管理,可以采用與第三方合作等方式獲取行外數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)資源的全生命周期管理;向行內(nèi)各層級各業(yè)務(wù)條線,提供全方位的數(shù)據(jù)產(chǎn)品。
建立健全數(shù)據(jù)服務(wù)管理體系;統(tǒng)籌規(guī)劃,建設(shè)個人客戶、對公客戶、運(yùn)營風(fēng)控、風(fēng)險管理、績效管理、審計(jì)內(nèi)控、監(jiān)管統(tǒng)計(jì)、分行集市等八大領(lǐng)域數(shù)據(jù)集市;業(yè)務(wù)支撐涵蓋客戶營銷、風(fēng)險管控、運(yùn)營分析、外部監(jiān)管、資產(chǎn)負(fù)債、績效管理等各個領(lǐng)域;基于行內(nèi)外數(shù)據(jù)開展各領(lǐng)域和熱點(diǎn)業(yè)務(wù)分析,深度挖掘數(shù)據(jù)價值。
挑戰(zhàn)
農(nóng)行大數(shù)據(jù)平臺建設(shè)中面臨以下難點(diǎn):
1、如何實(shí)現(xiàn)MPP數(shù)據(jù)庫與Hadoop平臺完美混搭
MPP數(shù)據(jù)庫適合高密度結(jié)構(gòu)化運(yùn)算,而Hadoop平臺的優(yōu)勢在于非結(jié)構(gòu)化數(shù)據(jù)處理及其擴(kuò)展能力。因此要評估哪些場景適用MPP數(shù)據(jù)庫,哪些場景適用Hadoop平臺,如何實(shí)現(xiàn)MPP與Hadoop的數(shù)據(jù)交互,同時能夠做到2種架構(gòu)功能互補(bǔ)。
2、系統(tǒng)開發(fā)從傳統(tǒng)數(shù)據(jù)庫轉(zhuǎn)至MPP及Hadoop平臺,如何能夠運(yùn)用新的基礎(chǔ)架構(gòu)特性,并快速完成已有數(shù)據(jù)模型遷移,新數(shù)據(jù)模型開發(fā)。
3、大規(guī)模的集群環(huán)境,如何統(tǒng)一規(guī)劃、部署、管理、監(jiān)控。
大數(shù)據(jù)平臺涉及數(shù)十套集群、近千臺服務(wù)器,對機(jī)房環(huán)境、網(wǎng)絡(luò)環(huán)境高,需要提前做好規(guī)劃設(shè)計(jì);同時如此量級的服務(wù)器,操作系統(tǒng)、數(shù)據(jù)庫等安裝部署、升級、管理需要有統(tǒng)一的管理流程及操作方式;對于多集群的監(jiān)控、預(yù)警、健康檢查也需要有有效的流程與系統(tǒng)支撐。
4、如何滿足上層應(yīng)用、聯(lián)機(jī)服務(wù)的多樣性的數(shù)據(jù)需求及響應(yīng)時間
大數(shù)據(jù)平臺上層支撐監(jiān)管、審計(jì)、零售等不同業(yè)務(wù)領(lǐng)域的應(yīng)用,各應(yīng)用的數(shù)據(jù)交互方式差異化明顯,對時效性的要求也各不相同,需要設(shè)計(jì)統(tǒng)一的接口方式并支持配置化管理。
5、如何保證平臺高可靠性,高可用性,容災(zāi)機(jī)制
大數(shù)據(jù)平臺支撐上層多個領(lǐng)域業(yè)務(wù),在整個IT系統(tǒng)中地位非常重要,平臺發(fā)生故障會對業(yè)務(wù)產(chǎn)生不可估量的影響,因此要從數(shù)據(jù)庫、應(yīng)用等多個層面保障平臺的穩(wěn)定性及高可用性;同時要對PB級數(shù)據(jù)備份這一難題深入研究,通過搭建雙活集群、數(shù)據(jù)備份至Hadoop集群等多重災(zāi)備機(jī)制保障數(shù)據(jù)安全。
解決方案
平臺采用南大通用GBase 8a MPP Cluster+Hadoop混搭架構(gòu)建設(shè),其中GBase集群總計(jì)622個數(shù)據(jù)節(jié)點(diǎn),其中主倉共112個節(jié)點(diǎn),采取雙集群組成雙活主庫,其余為8套集市環(huán)境及5套外圍應(yīng)用;Hadoop集群總計(jì)263節(jié)點(diǎn),其中ODS Hadoop集群172節(jié)點(diǎn),其余為流計(jì)算平臺Spark數(shù)據(jù)分析挖掘平臺。
總體架構(gòu)圖
GBase 8a MPP集群承擔(dān)大數(shù)據(jù)平臺核心組件:企業(yè)數(shù)據(jù)倉庫(EDW)、數(shù)據(jù)集市(DW)及數(shù)據(jù)挖掘、數(shù)據(jù)提取、監(jiān)管報送等應(yīng)用;
Hadoop集群承擔(dān)數(shù)據(jù)操作區(qū)(ODS)處理、歷史數(shù)據(jù)備份及流計(jì)算以及部分分析挖掘工作。
大數(shù)據(jù)平臺還包括:統(tǒng)一調(diào)度、統(tǒng)一監(jiān)控、統(tǒng)一ETL開發(fā)工具、統(tǒng)一元數(shù)據(jù)管理、統(tǒng)一數(shù)據(jù)質(zhì)量管理等系統(tǒng)以及統(tǒng)一展示平臺。
關(guān)鍵技術(shù)1:混搭架構(gòu)
運(yùn)用Hadoop集群非結(jié)構(gòu)化數(shù)據(jù)處理優(yōu)勢,將數(shù)據(jù)清洗、轉(zhuǎn)換、字符編碼自動識別轉(zhuǎn)換、去重等ODS任務(wù)分解為分布式、并行執(zhí)行的M­R作業(yè),同時將全量數(shù)據(jù)加工為增量數(shù)據(jù),降低數(shù)據(jù)處理量級,顯著提升ETL性能。
主庫作業(yè)通過GBase 8a MPP加載工具直接從Hadoop讀取并加載LZO文件,數(shù)據(jù)入庫效率提升顯著,同時降低了大量網(wǎng)絡(luò)開銷;主庫MPP集群在增量數(shù)據(jù)入庫后,完成基礎(chǔ)模型加工、指標(biāo)匯總等高價值、大數(shù)據(jù)量復(fù)雜運(yùn)算;集市MPP集群主要負(fù)責(zé)各領(lǐng)域?qū)挶砑庸?、多維分析(CUBE)及部分報表加工。
目前大數(shù)據(jù)平臺日終加工時間為8­10小時,月終加工時間為12­14小時,日終處理數(shù)據(jù)文件1.5TB,月終處理4TB。其中MPP數(shù)據(jù)庫內(nèi)復(fù)雜作業(yè)1萬多個,涉及SQL語句10萬多個,庫內(nèi)總計(jì)約6萬多張表,存儲總數(shù)據(jù)量接近15PB裸數(shù)據(jù),最大表約2萬億行。
關(guān)鍵技術(shù)2:MPP集群雙活
雙活架構(gòu)示意圖
通過運(yùn)用GBase 8a MPP集群間同步工具識別主集群增量數(shù)據(jù)(以DC為單位),點(diǎn)對點(diǎn)傳輸至備集群,實(shí)現(xiàn)主備集群數(shù)據(jù)一致;同時結(jié)合大數(shù)據(jù)平臺批量加工調(diào)度平臺、監(jiān)控平臺,制定雙活方案。
實(shí)現(xiàn):1)、每日增量數(shù)據(jù)備份;2)、主集群負(fù)責(zé)批量加工、備集群負(fù)責(zé)聯(lián)機(jī)查詢的負(fù)載分擔(dān)模式(Active­Query for Asymmetric Workload);3)、主集群發(fā)生異常時,批量加工可在較短時間內(nèi)切換至備集群。
集群雙活機(jī)制解決了大數(shù)據(jù)場景中PB級數(shù)據(jù)備份的難題,也提升了大數(shù)據(jù)平臺業(yè)務(wù)高可用性、穩(wěn)定性,保障了批量加工業(yè)務(wù)的連續(xù)性,同時提升了平臺整體服務(wù)能力。
關(guān)鍵技術(shù)3:MPP集群間數(shù)據(jù)交互
主庫完成基礎(chǔ)模型、指標(biāo)匯總后,各集市按照業(yè)務(wù)領(lǐng)域從主庫獲取全量或增量接口數(shù)據(jù),單日接口數(shù)據(jù)達(dá)上百TB,如采用傳統(tǒng)文件交換的方式,不僅效率遠(yuǎn)無法滿足集市支撐的上層應(yīng)用需求,也會造成系統(tǒng)運(yùn)行不均衡、性能緩慢等異常。
GBase8a MPP數(shù)據(jù)庫提供的透明網(wǎng)關(guān)機(jī)制(DBLink)有效解決這一難題,通過該機(jī)制,8個集市每日獲取主庫接口數(shù)據(jù)的時間縮短至總計(jì)約1小時,同時保障數(shù)據(jù)傳輸?shù)母呖捎眯浴?/span>
Dblink傳輸示意圖
目前大數(shù)據(jù)平臺已經(jīng)接入超過90個業(yè)務(wù)系統(tǒng)源數(shù)據(jù),向資產(chǎn)負(fù)債決策支持、定價管理、資金及FTP管理、信用卡客戶價值、信用卡數(shù)據(jù)平臺、支付信息統(tǒng)計(jì)分析、電子銀行報表、客戶關(guān)系分析、客戶統(tǒng)一視圖、信息共享平臺、數(shù)據(jù)信息報告系統(tǒng)等20個應(yīng)用提供數(shù)據(jù)服務(wù)。
方案價值
這是中國金融行業(yè)最大的數(shù)據(jù)倉庫和大數(shù)據(jù)平臺,也是第一次國產(chǎn)化數(shù)據(jù)庫進(jìn)入4大行的核心業(yè)務(wù)系統(tǒng)。作為農(nóng)行大數(shù)據(jù)平臺核心架構(gòu)的GBase 8a MPP Cluster,其海量數(shù)據(jù)處理能力為用戶提供了性價比很高的海量并行復(fù)雜數(shù)據(jù)處理平臺,幫助客戶形成PB級以上的業(yè)務(wù)數(shù)據(jù)統(tǒng)一視圖,為客戶提供及時高效的數(shù)據(jù)分析結(jié)果。
其高性能、系統(tǒng)架構(gòu)高可擴(kuò)展特性,保證平臺接入更全面的業(yè)務(wù)數(shù)據(jù),滿足市場營銷、內(nèi)部管理、內(nèi)外監(jiān)管的分析需求;其高壓縮比特性,為用戶提供完備壓縮態(tài)存儲管理海量數(shù)據(jù)的能力,進(jìn)一步降低客戶數(shù)據(jù)倉庫建設(shè)的成本;其高可靠性、高可用性包括世界首例PB級數(shù)據(jù)量下的雙活集群,保障了農(nóng)行大數(shù)據(jù)平臺連續(xù)穩(wěn)定運(yùn)行超過600天。
在不斷的市場實(shí)踐和用戶反饋中,GBase 8a體現(xiàn)出8大價值,可分為兩級:
一級價值
這是中國金融行業(yè)最大的數(shù)據(jù)倉庫和大數(shù)據(jù)平臺,也是第一次國產(chǎn)化數(shù)據(jù)庫進(jìn)入4大行的核心業(yè)務(wù)系統(tǒng)
二級價值
提速:查詢分析類性能提升10­­—100倍
省盤:存儲空間節(jié)省50%­­—90%
省錢:軟硬件投資節(jié)省50%­­—90%,節(jié)電30%­—50%
成云:支持云計(jì)算架構(gòu),橫向擴(kuò)展能力
全文:集成全文檢索,管理半結(jié)構(gòu)化數(shù)據(jù)(云文件)
轉(zhuǎn)非:非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化提取和轉(zhuǎn)化
全數(shù)據(jù):統(tǒng)一處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
可視化:GBase BI,可視化的分析平臺
GBase 8a已經(jīng)在電信、金融和政務(wù)等領(lǐng)域取得規(guī)模化市場應(yīng)用,主要包括中國移動、中國聯(lián)通、中國電信、銀監(jiān)會、公安部、安全部、工信部、國稅總局、國家海洋局、中國石油等。
企業(yè)介紹:
天津南大通用數(shù)據(jù)技術(shù)股份有限公司是國產(chǎn)數(shù)據(jù)庫的領(lǐng)軍企業(yè)。2013­­2016連續(xù)四年在賽迪顧問發(fā)布的《中國平臺軟件市場研究年度報告》中位列國產(chǎn)數(shù)據(jù)庫市場占有率第一,并在IDC年度研究報告中被評為“國產(chǎn)數(shù)據(jù)庫第一品牌”。
南大通用以“讓中國用上世界級國產(chǎn)數(shù)據(jù)庫”為使命,打造了GBase 8a/8t/8m/8s/8d/UP等多款國內(nèi)領(lǐng)先、國際同步的自主可控?cái)?shù)據(jù)庫、大數(shù)據(jù)產(chǎn)品,并在金融、電信、政務(wù)、國防、企事業(yè)等領(lǐng)域擁有上萬家用戶。
產(chǎn)品國內(nèi)領(lǐng)先、國際同步
GBase 8a是結(jié)構(gòu)化大數(shù)據(jù)分析領(lǐng)域的產(chǎn)品,與國外同類主流產(chǎn)品保持技術(shù)同步,市場同級。以大規(guī)模并行處理、列存儲,高壓縮和智能索引技術(shù)為基礎(chǔ),具有滿足各個數(shù)據(jù)密集型行業(yè)日益增大的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和即席查詢等需求的能力。
GBase 8t是基于IBM informix源代碼、編譯和測試體系自主研發(fā)的交易型數(shù)據(jù)庫產(chǎn)品,通過中國信息安全認(rèn)證中心的安全可靠認(rèn)證并在高可用、災(zāi)備、空間數(shù)據(jù)、時序數(shù)據(jù)等方面技高一籌。
GBase 8m產(chǎn)品是面向高頻交易的事務(wù)型數(shù)據(jù)庫,采用多核、多進(jìn)程、大內(nèi)存、SSD等最新硬件技術(shù),比同類內(nèi)存數(shù)據(jù)庫的性能有了大幅度的提升。
案例豐富、為核心系統(tǒng)國產(chǎn)化提供可靠選擇
GBASE是唯一規(guī)?;M(jìn)入高端行業(yè)核心系統(tǒng)的國產(chǎn)數(shù)據(jù)庫。
GBase 8a支撐了農(nóng)行核心數(shù)據(jù)倉庫、中行大數(shù)據(jù)平臺、招行審計(jì)風(fēng)控,以及移動、聯(lián)通、電信20多個省的大數(shù)據(jù)平臺、經(jīng)營分析等關(guān)鍵業(yè)務(wù)系統(tǒng)。已經(jīng)在銀行、保險、證券、電信、電力、公安、安全、機(jī)要、稅務(wù)、社保、財(cái)政、衛(wèi)計(jì)、食藥監(jiān)、統(tǒng)計(jì)、海洋、軍隊(duì)、軍工等十七個行業(yè)規(guī)?;瘧?yīng)用。
GBase 8t已經(jīng)在華夏銀行、北京農(nóng)商、雅礱江水電、貴州移動等17個關(guān)鍵領(lǐng)域的核心業(yè)務(wù)系統(tǒng)中上線,在銀行、保險、電信、政府、軍工、電力等106個行業(yè)用戶完成測試,確認(rèn)能夠替代Oracle。
資質(zhì)全面、為數(shù)據(jù)安全提供堅(jiān)實(shí)基礎(chǔ)
GBase 8s通過公安部等保四級、國家保密局認(rèn)證,還是唯一符合信息安全政采要求,具備3C證書的數(shù)據(jù)庫產(chǎn)品。加上密碼局頒發(fā)的商用密碼型號證書,已囊括信息安全產(chǎn)品類所有資質(zhì),是中國安全等級最高、資質(zhì)最全的數(shù)據(jù)庫。
聚集人才、蓄勢待發(fā)
2015年7月31日,南大通用成功登陸全國中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)(新三板)(證券代碼:833056),成為國產(chǎn)數(shù)據(jù)庫第一股。
聯(lián)系客服