來源:
4月28日,由工業(yè)和信息化部指導(dǎo)、中國信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)" 上的現(xiàn)場演講,IDC圈報(bào)道
中國建設(shè)銀行
中國建設(shè)銀行信息技術(shù)管理部資深經(jīng)理林磊明
▼
▼
從十二五走到十三五期間,銀行業(yè)面臨的各方面的壓力越來越大,從我們的年報(bào)數(shù)字可以看出去年四大行的利潤增長基本上趨近于零增長。在這樣的情況下,我們怎樣通過IT的引領(lǐng)提升傳統(tǒng)銀行的競爭力,這是擺在我們面前的一個(gè)很重要的課題。
大數(shù)據(jù)怎么樣能夠在智慧銀行的方向上起到更大的作用呢?
通過銀行的歷程佐證這樣一個(gè)觀點(diǎn)。過去十多年期間銀行基本上有兩個(gè)拐點(diǎn),
第一個(gè)拐點(diǎn)就是發(fā)生在互聯(lián)網(wǎng)銀行慢慢取代柜員,IT支持從支持幾萬十幾萬的柜員到支持面向所有的互聯(lián)網(wǎng)客戶,這里面發(fā)生了一個(gè)根本性的變化,無論是服務(wù)的形態(tài)還是IT的支撐,都發(fā)生了很根本的變化,這是移動(dòng)和云要在里面發(fā)揮作用。
下一個(gè)拐點(diǎn)是什么?銀行要從原來做的賬務(wù)性的、交易性的處理轉(zhuǎn)向能夠滲透到經(jīng)濟(jì)生活的方方面面,這是一個(gè)場景化,如果抓不住這個(gè)拐點(diǎn),銀行就要被互聯(lián)網(wǎng)金融顛覆或者管道化。
這幾年銀行三大互聯(lián)網(wǎng)渠道已經(jīng)建立:
手機(jī)銀行,已達(dá)到1.8億多
網(wǎng)上銀行,我們有2億
微信銀行,它占的客服服務(wù)總量已經(jīng)超過了傳統(tǒng)的客戶服務(wù)
這意味著我們的渠道、我們場景化的實(shí)踐已經(jīng)見到了效果,另外我們做大數(shù)據(jù)要具備的基礎(chǔ)已經(jīng)存在。
談大數(shù)據(jù),對傳統(tǒng)銀行來講,要解決3大問題
怎么樣提升對于客戶的識(shí)別?
怎么樣對于客戶的營銷?
怎么樣提升對于風(fēng)險(xiǎn)的防范?
所以,無論是用傳統(tǒng)的結(jié)構(gòu)化的數(shù)據(jù),還是用現(xiàn)在互聯(lián)網(wǎng)形態(tài)下面非結(jié)構(gòu)化的數(shù)據(jù),要解決的問題都是這些,只不過我們現(xiàn)在有了更豐富的數(shù)據(jù)源,有了更好的對于數(shù)據(jù)處理的方法。
目前,建設(shè)銀行已經(jīng)成立了上海大數(shù)據(jù)分析中心,這不屬于技術(shù)部門,屬于信息管理部門。
從設(shè)計(jì)目標(biāo)有這幾條:
策略上架構(gòu)先行,我們已經(jīng)有很好的基礎(chǔ)架構(gòu)。1、基礎(chǔ)能力上,我們在做一些基礎(chǔ)的大數(shù)據(jù)分析工具的搭建。2、要想明白用數(shù)據(jù)做什么?我一直不太同意你先不要管你做什么,先把平臺(tái)搭起來,我不太清楚有多少人從做數(shù)據(jù)倉庫過來,當(dāng)時(shí)提的很多的概念是垃圾進(jìn)垃圾出,到了大數(shù)據(jù)時(shí)代沒人提這個(gè)事情了,好像所有大數(shù)據(jù)都是質(zhì)量很高的,但這方面要警惕。
功能架構(gòu)設(shè)計(jì),和大家都差不多,從采集、存儲(chǔ)、分析、展現(xiàn)到應(yīng)用。我要強(qiáng)調(diào)的是從這個(gè)結(jié)構(gòu)來說,這是很完美的一個(gè)結(jié)構(gòu),但要能夠?qū)崟r(shí)或者及時(shí)地反映到你的業(yè)務(wù)流程當(dāng)中去,反映到你的營銷當(dāng)中去。不要拘泥于一個(gè)結(jié)構(gòu)。
數(shù)據(jù)設(shè)計(jì),我們有一個(gè)演變過來的整體的結(jié)構(gòu)。這里面我想強(qiáng)調(diào)一點(diǎn),大數(shù)據(jù)是數(shù)據(jù)的一部分,結(jié)構(gòu)化的數(shù)據(jù)是大數(shù)據(jù)的一部分,這兩個(gè)東西不要割裂來看。
我們的大數(shù)據(jù)平臺(tái)取得了一些成果:
實(shí)時(shí)的數(shù)據(jù)倉庫上:我們能夠?qū)蛻艚?jīng)理做實(shí)時(shí)的數(shù)據(jù)提供和交付,提供無論是并發(fā)的訪問還是實(shí)時(shí)服務(wù)方面。
從數(shù)據(jù)的應(yīng)用模式上:我們總結(jié)了六類數(shù)據(jù)應(yīng)用模式,包括挖掘類、數(shù)據(jù)實(shí)驗(yàn)室、機(jī)器查詢、儀表盤、固定報(bào)表、自動(dòng)查詢等等。
建立“模型實(shí)驗(yàn)室”:現(xiàn)在越來越發(fā)揮了更大的作用,我們能夠基于結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)支持大數(shù)據(jù)模型的研發(fā),這個(gè)模型研發(fā)出來我們能夠很快地把它部署到生產(chǎn)當(dāng)中去,能夠?yàn)橐恍Q策,未風(fēng)先管理服務(wù)。
在非結(jié)構(gòu)化大數(shù)據(jù)的應(yīng)用方面,做探索:比如客戶行為偏好的數(shù)據(jù),錄音文本、地理數(shù)據(jù)的應(yīng)用、能耗數(shù)據(jù)的應(yīng)用、媒體信息、員工行為數(shù)據(jù)等等。通過位置服務(wù)終端識(shí)別的新技術(shù)新數(shù)據(jù)的采用,拒絕可疑風(fēng)險(xiǎn)事件,上半年避免1.9萬起,避免客戶損失1.4億,這種數(shù)據(jù)越來越大。
剛才我提到了場景化,我們希望能夠把金融數(shù)據(jù)的服務(wù)將來標(biāo)準(zhǔn)化和平臺(tái)化,平臺(tái)化之后能夠在基礎(chǔ)的大數(shù)據(jù)能力、基礎(chǔ)數(shù)據(jù)的提供甚至一些分析數(shù)據(jù)的提供,基礎(chǔ)應(yīng)用,客戶花香、征信評(píng)級(jí)的監(jiān)測,為無論是內(nèi)部的客戶還是外部的客戶提供更好的大數(shù)據(jù)技術(shù),這是從技術(shù)方面來看大數(shù)據(jù)下一步做的工作。
中國工商銀行
中國工商銀行軟件開發(fā)中心信息科技專家王曉平
▼
▼
如何處理數(shù)據(jù)量的快速增長?首先全行的數(shù)據(jù)量的快速增長,包括我們現(xiàn)在工行每天的交易量,外部互聯(lián)網(wǎng)金融,工行的三大互聯(lián)網(wǎng)平臺(tái)造成用戶的交易數(shù)據(jù)和行為數(shù)據(jù)有大幅的增長。
如何快速智能分析歷史數(shù)據(jù)? 工行從2000年開始建立數(shù)據(jù)倉庫以來,擁有了龐大的歷史數(shù)據(jù)資產(chǎn),在新的環(huán)境下怎么能夠快速地智能分析,對我們提出了更高的挑戰(zhàn)。
如何使用內(nèi)外數(shù)據(jù),描述客戶特征?在數(shù)據(jù)源方面,除了本單位數(shù)據(jù),也需要采納外部的數(shù)據(jù)來配合進(jìn)行分析。工行已經(jīng)引入了征信數(shù)據(jù)、稅務(wù)數(shù)據(jù)等,怎么做到比較全的數(shù)據(jù)去描繪我行的客戶特征,這是作為我們的一個(gè)新的課題。
工行整個(gè)的戰(zhàn)略思路是通過我們行的兩庫一司的建設(shè)來完善大數(shù)據(jù)體系。
兩庫是信息庫和數(shù)據(jù)倉庫,數(shù)據(jù)倉庫在工行的建設(shè)和銀行的建設(shè)中都是比較傳統(tǒng)的,主要是應(yīng)對我們之前的銀行交易數(shù)據(jù)、賬戶數(shù)據(jù),采用結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)來進(jìn)行相關(guān)的處理。前兩年的時(shí)候工行啟動(dòng)了信息庫的建設(shè),主要指非結(jié)構(gòu)的數(shù)據(jù)。
通過兩庫的建設(shè),我們還建設(shè)了一支分析師隊(duì)伍,能夠?qū)@些龐大的數(shù)據(jù)進(jìn)行相關(guān)業(yè)務(wù)的加工處理和分析。
工行大數(shù)據(jù)的發(fā)展歷程可以分幾個(gè)階段,從TB級(jí)已經(jīng)進(jìn)入了PB級(jí)的建設(shè)階段,接下去在可預(yù)見的幾年內(nèi)會(huì)進(jìn)入EB級(jí)的龐大體量。
最早工行是2000年初,那個(gè)時(shí)候大數(shù)據(jù)的領(lǐng)域更多的還是應(yīng)用在一些報(bào)表的快速展現(xiàn),所以那個(gè)時(shí)候我們是基于比較傳統(tǒng)的Oracle和SaaS,做了T+1的動(dòng)態(tài)報(bào)表,行領(lǐng)導(dǎo)和管理層能夠在第二天上班前看到我們行昨天的經(jīng)營數(shù)據(jù),這是最早建立的。
2007年工行基于當(dāng)時(shí)最先進(jìn)的企業(yè)級(jí)的數(shù)據(jù)倉庫的體系架構(gòu)啟動(dòng)了工行的企業(yè)級(jí)數(shù)據(jù)體系的建設(shè),做了全行統(tǒng)一的管理數(shù)據(jù)的大集中。
2010年基于我們的數(shù)據(jù)倉庫的數(shù)據(jù)支持,我們推出了工行的MOVA管理會(huì)計(jì)系統(tǒng),做了全行績效考核的管理系統(tǒng)。
2013年隨著外部形勢的發(fā)展,大量數(shù)據(jù)爆發(fā)式的出現(xiàn),我們引進(jìn)了大數(shù)據(jù)領(lǐng)域在業(yè)界最流行的Hadoop技術(shù),在Hadoop基礎(chǔ)上搭建了信息庫,發(fā)展是非??斓?。
2014年工行基于大數(shù)據(jù),原來的大數(shù)據(jù)采用連機(jī)異部批量的方式,通過文件存儲(chǔ)的方式,不管是數(shù)據(jù)倉庫還是信息庫,在時(shí)效上相對來說比較慢,所以自主研發(fā)了一個(gè)流數(shù)據(jù)平臺(tái),能夠提供實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)的流數(shù)據(jù)處理。
2015年下半年和今年正在推動(dòng)分布式數(shù)據(jù)庫的落地工作,會(huì)和企業(yè)級(jí)數(shù)據(jù)倉庫做一個(gè)互補(bǔ)。這是大數(shù)據(jù)的主要技術(shù)演進(jìn)。
在大數(shù)據(jù)平臺(tái)上,我們可以把它抽象成如下幾層:
第一層是數(shù)據(jù)采集,統(tǒng)一針對外部和內(nèi)部的數(shù)據(jù)進(jìn)行相關(guān)的數(shù)據(jù)收集,包括日志信息、行為信息和業(yè)務(wù)信息。
再上面一層計(jì)算層,是我們不單單提供了傳統(tǒng)數(shù)據(jù)倉庫的批量計(jì)算的能力,也通過一些流數(shù)據(jù)的技術(shù)提供了實(shí)時(shí)的計(jì)算能力。
再上面一層應(yīng)用層,抽象了大數(shù)據(jù)相關(guān)的應(yīng)用,包括用戶可以自定義的查詢功能。通過這些信息的服務(wù),把這些服務(wù)抽象到我們的業(yè)務(wù)系統(tǒng)中,通過我們的管理會(huì)計(jì)系統(tǒng),通過分析師平臺(tái)、風(fēng)險(xiǎn)系統(tǒng)、營銷系統(tǒng),為我們在數(shù)據(jù)的運(yùn)營、風(fēng)險(xiǎn)控制和營銷方面都提供相關(guān)的支持,這就是主要的大數(shù)據(jù)分層體系。
從大數(shù)據(jù)的起源開始,數(shù)據(jù)倉庫到目前的大數(shù)據(jù)新形勢下,數(shù)據(jù)倉庫已經(jīng)在做非常大的升級(jí)換代和變化。2014年工行從高成本封閉的專業(yè)系統(tǒng)(如:Teradata),開始向高性價(jià)比、通用設(shè)備和開放技術(shù)的系統(tǒng)轉(zhuǎn)變。
轉(zhuǎn)型有兩個(gè)原因:
第一是數(shù)據(jù)量太大了,原來只需要處理TB級(jí)已經(jīng)轉(zhuǎn)向需要處理PB級(jí)甚至以后EB級(jí)的數(shù)據(jù)量。如果是這么大的數(shù)據(jù)量,運(yùn)用傳統(tǒng)的設(shè)備沒有辦法進(jìn)行相關(guān)的處理。
第二,性價(jià)比,我們做過測量,通過開放式的彈性可擴(kuò)展的普通PC服務(wù)器的方式,比傳統(tǒng)設(shè)備在成本上介紹十幾分之一或者幾十分之一。我們在新平臺(tái)上一方面引進(jìn)了Hadoop平臺(tái)基于普通的PC服務(wù)器進(jìn)行搭建,短短一兩年的時(shí)間已經(jīng)擴(kuò)展到150個(gè)節(jié)點(diǎn),存儲(chǔ)空間已經(jīng)超過1PB,超過建設(shè)了十幾年二十年的Teradata的數(shù)據(jù)容量。
另外我們在研究也會(huì)盡快落地的分布數(shù)據(jù)庫,會(huì)基于開源的底層架構(gòu),基于普通的PC服務(wù)器完成數(shù)據(jù)倉庫體系的擴(kuò)充。后續(xù)在大數(shù)據(jù)的處理加工方面會(huì)基于分布數(shù)據(jù)庫進(jìn)行處理。
從目前的分析角度來看,Teradata會(huì)保留,著重在高端的分析師分析挖掘的探索性的工作方面。后續(xù)工行的大數(shù)據(jù)體系會(huì)采用多種技術(shù)路線、多種技術(shù)平臺(tái)共存的方式。
非結(jié)構(gòu)化數(shù)據(jù)信息庫的建設(shè)情況,建行已經(jīng)介紹了,工行也有點(diǎn)像。信息庫的建設(shè)原則,因?yàn)榉墙Y(jié)構(gòu)化的數(shù)據(jù)的量是非常大的,所以我們的原則是信息庫建設(shè)沒有把非結(jié)構(gòu)化建設(shè)進(jìn)行物理存儲(chǔ)的集中,我們只是通過統(tǒng)一的搜索引擎讓用戶能夠快速地搜索找到他需要的非結(jié)構(gòu)化的信息。
工行在大數(shù)據(jù)應(yīng)用方面主要側(cè)重在風(fēng)險(xiǎn)方面。
工行通過大數(shù)據(jù)在事前、事中、事后三個(gè)環(huán)節(jié)的運(yùn)用進(jìn)行風(fēng)險(xiǎn)的柔性控制。簡單地舉一個(gè)例子,事前,比如銀行卡的授信過程中,或者信貸要進(jìn)行發(fā)放做凈值調(diào)查中,數(shù)據(jù)能給它一個(gè)支撐。事中,比如銀行卡最近比較多地發(fā)生盜刷行為,我們可以在事中通過大數(shù)據(jù)的方式發(fā)現(xiàn)銀行卡的盜刷行為。事后,可以根據(jù)事后的交易或者發(fā)生的事件進(jìn)行相關(guān)的分析,分析我們后續(xù)在業(yè)務(wù)的拓展或者風(fēng)險(xiǎn)控制方面有哪些需要進(jìn)一步改進(jìn)或者補(bǔ)救的工作。
這里舉了幾個(gè)簡單的案例。非常好的大數(shù)據(jù)的應(yīng)用場景,
第一,交易反欺詐,需要利用大數(shù)據(jù)流數(shù)據(jù)的技術(shù),用戶在做交易的過程中采用主機(jī)旁路技術(shù),交易沒有完成之前通過大數(shù)據(jù)在內(nèi)存中進(jìn)行一個(gè)判斷。
第二,大數(shù)據(jù)怎么運(yùn)用模型,通過比較好的用戶特征的總結(jié)和模型做一個(gè)監(jiān)控。通過標(biāo)簽信息,比如我們定義了兩個(gè)標(biāo)簽,一個(gè)是用戶開戶的地區(qū)比較廣泛,另一個(gè)他持有比較多的借記卡,我們可以認(rèn)為他涉嫌倒賣銀行卡的嫌疑,我們通過大數(shù)據(jù)的計(jì)算可以把這些人員抓出來,可以進(jìn)行后續(xù)的業(yè)務(wù)處理和防空。這也是大數(shù)據(jù)應(yīng)用的比較好的方面。
第三,現(xiàn)在各個(gè)銀行業(yè)碰到的比較大的困境,信貸資產(chǎn)的質(zhì)量問題。工行持續(xù)在推動(dòng)運(yùn)用大數(shù)據(jù)驅(qū)防控信貸風(fēng)險(xiǎn),工行成立了信貸防控中心,運(yùn)用大數(shù)據(jù)技術(shù)在進(jìn)行相關(guān)的防控。
中國農(nóng)業(yè)銀行
中國農(nóng)業(yè)銀行軟件開發(fā)中心的專家趙維平
▼
▼
我們在2003年初開始搞大數(shù)據(jù),當(dāng)時(shí)有很多困惑,首先感覺到大數(shù)據(jù)到來了,現(xiàn)在各個(gè)行業(yè),中央臺(tái)什么東西都用大數(shù)據(jù)說話,我們在銀行業(yè)我們能做什么呢?
早期在十幾年前我們大家做數(shù)據(jù)倉庫的時(shí)候,大家可能選擇面都很窄,四大行除了我們沒用TD其他都是用TD做的數(shù)據(jù)倉庫。我們當(dāng)時(shí)某系統(tǒng)也很痛苦,計(jì)算資源可以擴(kuò),但I(xiàn)O能力就在那里。當(dāng)時(shí)覺得列存儲(chǔ)帶來很大的優(yōu)勢,處理通用的數(shù)據(jù)量減少了很多IO。平臺(tái)選用什么?還用傳統(tǒng)的嗎?新型的怎么樣?
金融在有些技術(shù)的選擇上還是相對比較保守的,我們不會(huì)用最新的技術(shù),不會(huì)用最新的版本,這也因?yàn)榻鹑诠の蛧胰嗣胥y行對于我們的連續(xù)服務(wù)要求特別高,一旦出了事情領(lǐng)導(dǎo)交不了差。
在自主可控上,基礎(chǔ)硬件、基礎(chǔ)軟件、數(shù)據(jù)模型、工具平臺(tái)和制度管理都是自主可控的。
硬件方面,采用華為的RH2288系列,2C、docore、256內(nèi)存、12 4T硬盤,不同時(shí)期買的硬盤的容量是不一樣的,后來是4T,之前是3T。
基礎(chǔ)軟件方面,我們引進(jìn)了國產(chǎn)的南大通用做的MPP架構(gòu)數(shù)據(jù)庫,我們在原形試運(yùn)行階段從2013年圓形環(huán)境開始投產(chǎn),采用28個(gè)數(shù)據(jù)節(jié)點(diǎn),2014年3月份把它擴(kuò)到56個(gè)節(jié)點(diǎn)。非結(jié)構(gòu)化,結(jié)構(gòu)化的數(shù)據(jù)上游生產(chǎn)數(shù)據(jù)基本都是放在MPV架構(gòu)數(shù)據(jù)庫里,使用起來技術(shù)上更流暢,效率更好。Hadoop方面,非結(jié)構(gòu)方面目前使用的是CDH開源版,大概有100個(gè)左右的Datanode。
數(shù)據(jù)模型方面,我們結(jié)合先進(jìn)的建模理論,我們?nèi)诤狭朔妒胶途S度的思路。我們在主庫核心層面基本是范式建模減少重復(fù)。維度方面由業(yè)務(wù)驅(qū)動(dòng)的方式建立維度模型為主。
基礎(chǔ)的工具方面,大家知道有ETL、批量調(diào)度、源數(shù)據(jù)的管理,這些東西都是我們自主開發(fā)的。我們制定了一套比較完備的規(guī)范、制度、方法、標(biāo)準(zhǔn)。
這是我們整體的邏輯架構(gòu)圖,
數(shù)據(jù)源層,上游的生產(chǎn)系統(tǒng),幾乎全行所有的生產(chǎn)系統(tǒng)的數(shù)據(jù)到今年底已經(jīng)全部進(jìn)來了,金融交易類百分之百都進(jìn)來了,現(xiàn)在有60多個(gè)上游系統(tǒng),通過一個(gè)交換平臺(tái),交換平臺(tái)不僅僅為大數(shù)據(jù)服務(wù),負(fù)責(zé)上游生產(chǎn)和下游數(shù)據(jù)消費(fèi)系統(tǒng)總分行之間、總行各應(yīng)用系統(tǒng)間數(shù)據(jù)交互的平臺(tái)。
數(shù)據(jù)處理層,淡黃色指關(guān)系型的數(shù)據(jù)庫,也就是MPP架構(gòu)數(shù)據(jù)庫。操作數(shù)據(jù)區(qū)、非結(jié)構(gòu)化數(shù)據(jù)區(qū)、歷史數(shù)據(jù)平臺(tái)、流計(jì)算,流計(jì)算用Hadoop Stam架構(gòu)。
下面是Hadoop的東西。我們在整個(gè)大數(shù)據(jù)平臺(tái)的結(jié)構(gòu)化主庫里分了基礎(chǔ)數(shù)據(jù)庫、共性加工區(qū)和指標(biāo)區(qū),非結(jié)構(gòu)化有操作數(shù)據(jù)區(qū)、非結(jié)構(gòu)化處理和歷史數(shù)據(jù)平臺(tái)。影像那部分早期已經(jīng)建好了,為了減少網(wǎng)絡(luò)壓力基本上存在分行。
跟傳統(tǒng)不一樣的是,大數(shù)據(jù)平臺(tái)的日加工時(shí)間目前在七八個(gè)小時(shí),早期批量一個(gè)是優(yōu)化不到位,一個(gè)是處理的分層,所以用了Hadoop把ETL和操作數(shù)據(jù)區(qū)都放在Hadoop里,因?yàn)榭梢怨?jié)點(diǎn)多、計(jì)算能力強(qiáng),完成了ET的過程,上游來的全量數(shù)據(jù)在這里做了歸類,生成了一個(gè)純層量的數(shù)據(jù),減少了一天的批量時(shí)間幾個(gè)小時(shí),提升33%的性能。
數(shù)據(jù)集市層,現(xiàn)在規(guī)劃8個(gè)數(shù)據(jù)集市,跟其他行沒有太多區(qū)別,客戶營銷、風(fēng)險(xiǎn)管控、外部監(jiān)管,對分行服務(wù)的集市,各行服務(wù)的對象都是一樣的。底下研了數(shù)據(jù)提取平臺(tái),外部監(jiān)管和數(shù)據(jù)提取任務(wù)特別重,早期都得到生產(chǎn)去導(dǎo)帶生成,現(xiàn)在我們通過單獨(dú)建一個(gè)環(huán)境,把一些數(shù)據(jù)預(yù)加工好,基本以寬表的模式,以前做加法的事情變成了做減法,至少80%的提出需求都在我的環(huán)境里直接提取,大大減輕了人力。
底下是分析挖掘平臺(tái),ODM、SaaS都是農(nóng)行已有的云,大數(shù)據(jù)只是它的用戶而已,我們在Hadoop分裝了應(yīng)用,為全行的分期挖掘提供服務(wù)支撐。對上層應(yīng)用的服務(wù)有直接訪問,數(shù)據(jù)文件和外部服務(wù)和數(shù)據(jù)快速復(fù)制等技術(shù)和應(yīng)用進(jìn)行連接。應(yīng)用主要是對資產(chǎn)負(fù)債領(lǐng)域、電子銀行領(lǐng)域、信用卡和個(gè)人金融領(lǐng)域、風(fēng)險(xiǎn)和財(cái)務(wù)提供了一些支撐。
大數(shù)據(jù)平臺(tái)和集市,我們建成了4個(gè)集市,有3個(gè)集市在建的過程中,今年分行下半年要搞分行集市的試點(diǎn)。應(yīng)用,我們提供統(tǒng)一的數(shù)據(jù)展示和服務(wù)。展示服務(wù)一個(gè)是對所有全行業(yè)的用戶,對所有行業(yè)監(jiān)管的各種報(bào)送,因?yàn)楦鞣N報(bào)送比較零亂,點(diǎn)也比較多,趨向不同部署也不一樣,底層做了統(tǒng)一調(diào)度、統(tǒng)一監(jiān)控和ETL,對全行描述類數(shù)據(jù)進(jìn)行了統(tǒng)一管理,包括我們的數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量管理都在這里統(tǒng)一進(jìn)行。
這是硬件的環(huán)境,
在Gbase方面,56是生產(chǎn)環(huán)境,現(xiàn)在實(shí)現(xiàn)了56環(huán)境的雙活,這兩個(gè)56環(huán)境同時(shí)在工作,一個(gè)做T+1當(dāng)天的數(shù)據(jù)加工,一個(gè)做隔一天的連級(jí)服務(wù),這樣的話連級(jí)服務(wù)的能力,按實(shí)側(cè)的話會(huì)比以前做TD的測試中更強(qiáng)一點(diǎn),另外個(gè)人客戶集市、資產(chǎn)負(fù)債集市,還做了數(shù)據(jù)挖掘?qū)哟?,Gbase集成了WODM和SaaS。Hadoop的生產(chǎn)環(huán)境是92個(gè)datanode和2個(gè)namenode。我們現(xiàn)在Gbase有236個(gè)節(jié)點(diǎn),庫內(nèi)主副本的整個(gè)容量有5.2PB數(shù)據(jù),Hadoop的集群是150個(gè)節(jié)點(diǎn),容量是4.3PB。
56+8是56個(gè)數(shù)據(jù)計(jì)算環(huán)境,8個(gè)是加載機(jī),56個(gè)環(huán)境每個(gè)節(jié)點(diǎn)是12塊3T的硬盤,有2塊做Read1,是存放操作系統(tǒng)和重要的參數(shù)信息和數(shù)據(jù)庫環(huán)境,其他10個(gè)環(huán)境是Read5來存放數(shù)據(jù),一個(gè)節(jié)點(diǎn)存放有效數(shù)據(jù)10幾個(gè)T,56的環(huán)境里有效數(shù)據(jù)將近300個(gè)T,Gbase有5到10的壓縮比,各個(gè)字段可以選擇壓縮去,300個(gè)TB的數(shù)據(jù)換算成倉外的文本量,就算簡單乘以300T也是1.5PB以上,現(xiàn)在折算成1.8PB左右,是PB級(jí)的。
我們跟Gbase從這個(gè)時(shí)候開始合作,我們在八方面跟他們共同做了一些優(yōu)化工作,跟Gbase做了大量優(yōu)化,有近百個(gè)優(yōu)化的細(xì)項(xiàng)。MPP數(shù)據(jù)庫,我們搭建了雙活機(jī)制,兩個(gè)庫之間的同步加驗(yàn)證現(xiàn)在每天大概是22TB的數(shù)據(jù),僅需要3小時(shí)。早期在給主庫做備份的時(shí)候,100TB的數(shù)據(jù)有小40個(gè)小時(shí),后來我們用了Hadoop做備份,100TB用了不到10小時(shí),大家用TB備份一直是比較難的事情,在Hadoop方面我們做了大量基礎(chǔ)性的工作,非結(jié)構(gòu)化的數(shù)據(jù)、文件的服務(wù)、數(shù)據(jù)的備份等等。
我們做了MPP和Hadoop的交互,有些應(yīng)用要交互,我們做了非結(jié)構(gòu)化MPP和HDFS之間的融合。后來啟用了MPP和Hadoop之間的備份,大大提高了效率,300T也需要將近20個(gè)小時(shí),所以我們做了雙活,如果雙活穩(wěn)定的話我們就不用備份數(shù)據(jù)了。開發(fā)的基礎(chǔ)工具包括ETL工具、批量調(diào)度、整個(gè)的監(jiān)控和統(tǒng)一訪問層,監(jiān)控這塊我們還做了健康檢查,通過SaaS把半年的日志交過去,最后生成一些模型,給我預(yù)測整個(gè)系統(tǒng)運(yùn)行的安全狀況。數(shù)據(jù)混搭的模型設(shè)計(jì),我們有一套完整的方法論,能保證數(shù)據(jù)的準(zhǔn)確、穩(wěn)定、完整和可用。同時(shí)我們在方法論、開發(fā)規(guī)范、數(shù)據(jù)規(guī)范和流程規(guī)范都積攢了一系列文檔。整個(gè)模型是分層的,操作數(shù)據(jù)區(qū)、基礎(chǔ)數(shù)據(jù)區(qū)、共性加工區(qū)、指標(biāo)層和集市層,完成了客戶的統(tǒng)一試圖、產(chǎn)品的統(tǒng)一管理和客戶的精準(zhǔn)營銷和風(fēng)險(xiǎn)管控等等。
通過6個(gè)方面對大數(shù)據(jù)平臺(tái)的數(shù)據(jù)進(jìn)行了全生命周期的管理,包括建模、驗(yàn)證、清理、準(zhǔn)入、數(shù)據(jù)地圖和一些規(guī)范。
我們在大數(shù)據(jù)的建設(shè)中充分體現(xiàn)了數(shù)據(jù)的價(jià)值:
分析挖掘上,跟業(yè)務(wù)融合,分別在多個(gè)領(lǐng)域?qū)懗隽?0多份分析報(bào)告,有精準(zhǔn)營銷和業(yè)績價(jià)值等九個(gè)方面都落到不同的應(yīng)用去嘗試實(shí)現(xiàn)。
培養(yǎng)的人才,對SaaS、Spack、R語言,熟悉這些算法,對聚類、分類、回歸、神經(jīng)網(wǎng)絡(luò)等等進(jìn)行了研究,
要好用,建立一套多場景的實(shí)驗(yàn)環(huán)境,流水線式的作業(yè)、組建化的模型集脫拉拽式的服務(wù),使業(yè)務(wù)人員能更快地使用我的系統(tǒng)。多個(gè)技術(shù)對用戶來講是透明的,用戶要使用的話非常方便。我們展示了非常完整的服務(wù),對基礎(chǔ)環(huán)境融合,對資源的管理展現(xiàn)進(jìn)行全覆蓋,部署的模式也是收放自如的,展現(xiàn)也突破了傳統(tǒng)的思維,我們在報(bào)表展示層面是可交付的、動(dòng)態(tài)的,可以放大縮小,可以按某一列去排序,可以鎖定表頭,不是一個(gè)靜態(tài)的頁面,報(bào)表是可操作的。
中國銀行
中國銀行總行軟件中心上海分中心副總經(jīng)理牛曉峰
▼
▼
2015年下半年將近年底,Ganner對這1000多家企業(yè)和機(jī)構(gòu)做了另外一次調(diào)查,大數(shù)據(jù)項(xiàng)目成功上馬的不到9%,為什么?Ganner對他們沒有成功做了原因的分析,其中比較重要的幾條是這樣的。
排在第一位的是無法挖掘出數(shù)據(jù)的價(jià)值是什么,
第二位是企業(yè)或機(jī)構(gòu)沒有明確的大數(shù)據(jù)的戰(zhàn)略目標(biāo)和戰(zhàn)略規(guī)劃,
第三是缺乏核心技術(shù),
第四是無法有效的整合數(shù)據(jù)資源,
第五是企業(yè)的內(nèi)部無法對大數(shù)據(jù)的實(shí)施和規(guī)劃達(dá)成共識(shí)。
總結(jié)了這樣一些不太順利的原因之后,我覺得有一個(gè)清晰的完整的系統(tǒng)性的戰(zhàn)略規(guī)劃,對中國銀行以后大數(shù)據(jù)的建設(shè)的作用是非常巨大的。
中行的戰(zhàn)略方向:
以平臺(tái)為支撐構(gòu)建大數(shù)據(jù)的技術(shù)體系
以數(shù)據(jù)為基礎(chǔ)充分整合數(shù)據(jù)資源
以應(yīng)用為驅(qū)動(dòng)深入挖掘數(shù)據(jù)價(jià)值
以人才為核心提升數(shù)據(jù)分析能力
以平臺(tái)為支撐構(gòu)建大數(shù)據(jù)的技術(shù)體系。我們把大數(shù)據(jù)的技術(shù)體系分成戰(zhàn)略層面、規(guī)劃層面和設(shè)計(jì)及交付層面,在這里面最重要的是大數(shù)據(jù)的體系架構(gòu),分為業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)、信息架構(gòu)和技術(shù)架構(gòu)四個(gè)不同的架構(gòu),在這四個(gè)不同的架構(gòu)里分別支撐我們的業(yè)務(wù)流程和端到端的場景及應(yīng)用的組建及分析模塊,最后是設(shè)計(jì)跟交付。
我們在實(shí)施的方面采用分行試點(diǎn)的模式,有很多的調(diào)查機(jī)構(gòu)在對大企業(yè)實(shí)施大數(shù)據(jù)項(xiàng)目做了總結(jié)之后發(fā)現(xiàn)大數(shù)據(jù)的項(xiàng)目實(shí)施方法上分兩個(gè)流派,一個(gè)流派是自頂向下的,上來規(guī)劃很大的大叔據(jù)的東西,從地層往下逐漸延伸,累了大量的數(shù)據(jù),在這里面做清洗分析,在這里面找規(guī)律,再看這個(gè)企業(yè)怎么從數(shù)據(jù)里得到什么樣的東西。另一個(gè)流派是從底向上的,先看需要哪些東西,再對這些數(shù)據(jù)進(jìn)行整合。我看了很多相關(guān)的實(shí)例之后,后一個(gè)方法在現(xiàn)階段的效果會(huì)更明顯,有了清晰的需求才會(huì)更準(zhǔn)確的對位需求的產(chǎn)品。所以我們在大數(shù)據(jù)實(shí)施的策略上采取小步快跑、快速迭代、迅速試錯(cuò)的方式。
中銀開放平臺(tái),2014年IDC金融的大獎(jiǎng),去年獲得人民銀行的獎(jiǎng),亞洲金融家組織把它評(píng)為今年最佳的金融云服務(wù)產(chǎn)品,這個(gè)產(chǎn)品是我們對大戰(zhàn)略的落地實(shí)施的例子。這個(gè)產(chǎn)品的主要設(shè)計(jì)思路是我們把整個(gè)中國銀行的大數(shù)據(jù)進(jìn)行了歸并整理之后,開發(fā)了1000多個(gè)標(biāo)準(zhǔn)的API接口,這些API接口可以用與我們的分行甚至我們的客戶,在我們規(guī)劃的未來里,可以通過這些API訪問和使用中國銀行的數(shù)據(jù),用于加工得到自己想要的相關(guān)結(jié)果。
目前已經(jīng)有很多分行利用這樣的平臺(tái)開發(fā)出了很多比較受歡迎的產(chǎn)品,大家如果有興趣的話可以在蘋果的APP Store或者安卓的平臺(tái)下載這個(gè)產(chǎn)品看一下。
1、我們非常希望在合規(guī)的前提下充分利用銀行外部的數(shù)據(jù)服務(wù)。因?yàn)殂y行或者金融企業(yè)的數(shù)據(jù)在深度上不是一般的互聯(lián)網(wǎng)企業(yè)能夠比擬的,如果我們金融行業(yè)跟其他的相關(guān)企業(yè)進(jìn)行有效的數(shù)據(jù)交換,大家彼此利用對方的優(yōu)勢,就能夠使我們這個(gè)數(shù)據(jù)得到更完美的使用。
2、以應(yīng)用為驅(qū)動(dòng),深入挖掘數(shù)據(jù)價(jià)值。做大數(shù)據(jù)應(yīng)用的場景產(chǎn)品。此外中國銀行還推出來口碑貸、中銀沃金融的服務(wù),都是按照這個(gè)思路去進(jìn)行我們產(chǎn)品的組合規(guī)劃和設(shè)計(jì)。
3、精準(zhǔn)地建設(shè)客戶的營銷平臺(tái),把線下的客戶信息和線上的客戶行為統(tǒng)一在一起,把結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)有機(jī)地提煉并且整合,爭取能夠精確地描述客戶的各項(xiàng)屬性特征。
以上整理,部分演講內(nèi)容有刪減!
聯(lián)系客服