吳濤,劉韜,王斌
(中國聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司,安徽 合肥 230069)
摘 要:完整地總結(jié)了中國聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司建設(shè)大數(shù)據(jù)面對的挑戰(zhàn)和機(jī)遇以及通過快速構(gòu)建B/O域融合的智慧運(yùn)營平臺累積的跨域數(shù)據(jù)多維度、多層次融合治理經(jīng)驗(yàn)。此外,安徽聯(lián)通還對用戶離網(wǎng)預(yù)測進(jìn)行了深入研究,通過大數(shù)據(jù)平臺構(gòu)建離網(wǎng)預(yù)測模型,實(shí)現(xiàn)離網(wǎng)預(yù)測模型查準(zhǔn)率90%、查全率9%的突破,并通過提升用戶感知等應(yīng)用深入推廣大數(shù)據(jù)在各領(lǐng)域的融合應(yīng)用,對內(nèi)提升了運(yùn)營效率,實(shí)現(xiàn)了NOC(networkoperations center,網(wǎng)絡(luò)運(yùn)維中心)向SOC(service operations center,業(yè)務(wù)運(yùn)營中心)的轉(zhuǎn)型。
關(guān)鍵詞:運(yùn)營商大數(shù)據(jù);B/O域數(shù)據(jù)融合;離網(wǎng)預(yù)測大數(shù)據(jù)應(yīng)用;NOC向SOC的轉(zhuǎn)型
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A
doi: 10.11959/j.issn.1000?0801.2018036
Construction and application of Anhui Unicom
enterprise big data platform
WU Tao, LIU Tao, WANG Bin
Anhui Branch ofChinaUnited Network Communications Co., Ltd., Hefei 230069,China
Abstract: Thechallenges and opportunities faced by Anhui Unicom of big data construction,and the experience of Anhui Unicom rapidly constructing B+O convergent smartoperation platform which realized multi-dimensional and multi-level fusionmanagement of cross-domain platform were summarized. In addition, the customeroff-grid prediction was also deeply studied by Anhui Unicom. Achieving theoff-grid prediction model through the big data platform which made theprecision ratio get 90% and the recall ration get 9%. On the other hand, thebig data platform has been popularized to other departments by integratedapplications, such as, user awareness enhancement etc. Internal operation efficiencywas improved and NOC (network operations center) was transformed to SOC (serviceoperations center).
Key words: carrier big data, B+Oconvergent scenario, big data applications of off-grid prediction, transformfrom NOC to SOC
1 引言
2015年中國政府提出“互聯(lián)網(wǎng)+行動(dòng)計(jì)劃”,互聯(lián)網(wǎng)化已經(jīng)成為各個(gè)傳統(tǒng)行業(yè)升級和創(chuàng)新商業(yè)模式最重要的議題?!盎ヂ?lián)網(wǎng)+”時(shí)代的到來,不僅在改善和提升用戶體驗(yàn)上發(fā)揮作用,也將誕生海量的數(shù)據(jù)資產(chǎn)。根據(jù)愛立信的報(bào)告,2020年大數(shù)據(jù)的產(chǎn)生量將接近目前的10倍,大數(shù)據(jù)的激增以及各類大數(shù)據(jù)的融合使得大數(shù)據(jù)的大規(guī)模商業(yè)化和落地成為可能[1]。
2 運(yùn)營商發(fā)展大數(shù)據(jù)的優(yōu)勢
電信運(yùn)營商發(fā)展大數(shù)據(jù)具有天然的優(yōu)勢,主要體現(xiàn)為數(shù)據(jù)資源的豐富性、完整性和連續(xù)性。
? 豐富性:主要指運(yùn)營商擁有的數(shù)據(jù)涉及范圍廣,不但涉及財(cái)務(wù)收入、業(yè)務(wù)發(fā)展量等結(jié)構(gòu)化數(shù)據(jù),也會(huì)涉及圖片、文本、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量級已從TB(1 012 GB)發(fā)展至PB乃至ZB。
? 完整性:主要指運(yùn)營商擁有的數(shù)據(jù)涵蓋全業(yè)務(wù)、全用戶和全渠道,數(shù)據(jù)信息完整。
? 連續(xù)性:主要指運(yùn)營商擁有的數(shù)據(jù)記錄周期長,數(shù)據(jù)延續(xù)性好,覆蓋用戶從入網(wǎng)到離網(wǎng)前的全生命周期[2]。
3 安徽聯(lián)通建設(shè)大數(shù)據(jù)的現(xiàn)狀及挑戰(zhàn)
大數(shù)據(jù)給電信運(yùn)營商帶來機(jī)遇的同時(shí),也給運(yùn)營商相關(guān)技術(shù)帶來極大挑戰(zhàn)[3]。
中國聯(lián)合網(wǎng)絡(luò)通信有限公司安徽分公司(以下簡稱安徽聯(lián)通)擁有龐大的用戶資源,隨著實(shí)名制的開展,數(shù)據(jù)會(huì)更加翔實(shí),并通過分析移動(dòng)互聯(lián)網(wǎng)生成的多樣化數(shù)據(jù),了解人們生活的方方面面,具備非常高的價(jià)值純度。安徽聯(lián)通還具備豐富的IDC(integrated data center,集成數(shù)據(jù)中心)資源,能夠保證海量數(shù)據(jù)擁有足夠的存儲(chǔ)空間,從而保證數(shù)據(jù)分析的時(shí)間連續(xù)性,以把握數(shù)據(jù)趨勢。但是,安徽聯(lián)通傳統(tǒng)的建設(shè)模式基本采用封閉、獨(dú)立、各系統(tǒng)自成一體的建設(shè)方式,導(dǎo)致大量的數(shù)據(jù)分布在各個(gè)底層應(yīng)用系統(tǒng)中,沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),各自私有的數(shù)據(jù)結(jié)構(gòu),且存在大量的冗余建設(shè),如何有效地實(shí)現(xiàn)數(shù)據(jù)的各域、各系統(tǒng)的數(shù)據(jù)統(tǒng)一采集、治理、共享,將是安徽聯(lián)通面臨的巨大挑戰(zhàn),歸納起來,有以下5點(diǎn)。
(1)接口復(fù)雜覆蓋面廣
智慧運(yùn)營平臺的數(shù)據(jù)來源于安徽聯(lián)通各業(yè)務(wù)系統(tǒng),涉及計(jì)費(fèi)、網(wǎng)管、核心網(wǎng)、無線等跨領(lǐng)域業(yè)務(wù)。不同系統(tǒng)間數(shù)據(jù)結(jié)構(gòu)、接口千差萬別,這就對大數(shù)據(jù)平臺的采集能力提出了很高的要求。如何保質(zhì)保量地將不同系統(tǒng)的數(shù)據(jù)準(zhǔn)確采集過來,是智慧運(yùn)營平臺數(shù)據(jù)整合首先要解決的問題。例如,實(shí)時(shí)數(shù)據(jù)通過SDTP(serial data transport protocol,串行數(shù)據(jù)傳輸協(xié)議)進(jìn)行采集,B域的數(shù)據(jù)通過SFTP(secure file transfer protocol,安全文件傳輸協(xié)議)進(jìn)行采集,流日志數(shù)據(jù)通過syslog方式進(jìn)行采集;各系統(tǒng)的數(shù)據(jù)接口格式也存在千差萬別,例如4G MR(mobile router,移動(dòng)路由器)數(shù)據(jù)是XML(extensible markup language,可擴(kuò)展標(biāo)記語言)報(bào)文格式,CBSS數(shù)據(jù)文件格式是固定長度記錄格式,ECS是特殊字符串分割方式,大數(shù)據(jù)平臺需要支持各種差異化接口、格式,實(shí)現(xiàn)數(shù)據(jù)的異構(gòu)。
(2)數(shù)據(jù)標(biāo)準(zhǔn)不一致
不同業(yè)務(wù)系統(tǒng)對同一個(gè)事物的理解存在差異,同樣的事物可能具有不同的命名規(guī)則、不同的度量單位。如果不進(jìn)行有效的數(shù)據(jù)治理,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),大數(shù)據(jù)只能是一堆雜亂數(shù)據(jù)的集合,實(shí)現(xiàn)統(tǒng)一建模、統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),是智慧運(yùn)營平臺面臨的最大挑戰(zhàn)。例如,在CBSS系統(tǒng)中流量單位是比特,但是,在BSS系統(tǒng)中流量單位為KB,兩者相差一個(gè)數(shù)量級。如果不進(jìn)行標(biāo)準(zhǔn)統(tǒng)一,就會(huì)導(dǎo)致數(shù)據(jù)失真,在大數(shù)據(jù)挖掘的過程中錯(cuò)誤會(huì)指數(shù)級別放大。
(3)異廠商技術(shù)壁壘
大數(shù)據(jù)平臺數(shù)據(jù)來源于各應(yīng)用廠商,各應(yīng)用廠商系統(tǒng)接口通常采用私有協(xié)議,具有特殊的數(shù)據(jù)結(jié)構(gòu),且不對外提供數(shù)據(jù)解析能力,導(dǎo)致大數(shù)據(jù)平臺采集數(shù)據(jù)后,需要協(xié)調(diào)各廠商提供數(shù)據(jù)解析支撐,并做好各廠商數(shù)據(jù)的異構(gòu)適配。因此,大幅度地提升了大數(shù)據(jù)平臺的數(shù)據(jù)采集難度,降低數(shù)據(jù)采集效率。例如,2G/3G 用戶MR數(shù)據(jù),中興通訊、華為、諾基亞西門子3個(gè)廠商數(shù)據(jù)格式各不一樣,任何兩個(gè)廠商之間數(shù)據(jù)都無法相互解析,大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)采集后,需要根據(jù)業(yè)務(wù)理解對各廠商數(shù)據(jù)進(jìn)行定制化的轉(zhuǎn)化,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一建模,對外提供統(tǒng)一的數(shù)據(jù)格式。
(4)煙囪發(fā)展各自為政
由于歷史發(fā)展,各業(yè)務(wù)系統(tǒng)各自為政,形成一個(gè)個(gè)數(shù)據(jù)煙囪,煙囪長短不一、數(shù)據(jù)質(zhì)量參差不齊,各業(yè)務(wù)分析支撐只能基于單系統(tǒng)數(shù)據(jù)展開,缺少一個(gè)全量數(shù)據(jù)的整合平臺,影響數(shù)據(jù)價(jià)值的深度挖掘,智慧運(yùn)營平臺將致力于抹平煙囪,實(shí)現(xiàn)全量數(shù)據(jù)的統(tǒng)一共享。
(5)開放及安全防護(hù)
大數(shù)據(jù)的重要特點(diǎn)就是數(shù)據(jù)的開放和互通,隨著大數(shù)據(jù)的廣泛應(yīng)用,數(shù)據(jù)共享和開放勢在必行,但大數(shù)據(jù)平臺數(shù)據(jù)包含了大量的用戶隱私數(shù)據(jù),如用戶行為偏好、位置軌跡、消費(fèi)數(shù)據(jù)等隱私數(shù)據(jù),如何在不侵犯個(gè)人隱私、保障數(shù)據(jù)安全的情況下,做好數(shù)據(jù)開放實(shí)現(xiàn)互利共贏,是智慧運(yùn)營平臺需要面對的一大挑戰(zhàn)。智慧運(yùn)營平臺通過網(wǎng)絡(luò)隔離、數(shù)據(jù)加密、去隱私化等方式保障數(shù)據(jù)的安全[4]。
4 安徽聯(lián)通技術(shù)+管理的應(yīng)對措施
面對建設(shè)大數(shù)據(jù)遇到的挑戰(zhàn),安徽聯(lián)通迎難而上,自上而下明確了整體的工作思路:在組織機(jī)制保障下,借助智慧運(yùn)營平臺相關(guān)建設(shè),實(shí)現(xiàn)大數(shù)據(jù)采集、建模、開放及安全管理。
(1)組織保障
安徽聯(lián)通調(diào)整組織架構(gòu),成立了智慧運(yùn)營專(兼)職運(yùn)營團(tuán)隊(duì),負(fù)責(zé)智慧運(yùn)營平臺建設(shè)及日常運(yùn)營、需求受理等,并基于大數(shù)據(jù)挖掘的應(yīng)用場景使用。
(2)系統(tǒng)建設(shè)
安徽聯(lián)通智慧運(yùn)營平臺是業(yè)內(nèi)領(lǐng)先的企業(yè)級大數(shù)據(jù)平臺,包括分布式存儲(chǔ)計(jì)算平臺、大數(shù)據(jù)應(yīng)該管理平臺、流處理平臺三大資源池,為大數(shù)據(jù)采集和整合奠定了堅(jiān)實(shí)基礎(chǔ)。
(3)數(shù)據(jù)整合
建立全新的四層融合數(shù)據(jù)模型,通過數(shù)據(jù)采集、數(shù)據(jù)建模、數(shù)據(jù)挖掘、數(shù)據(jù)服務(wù)和數(shù)據(jù)開放等過程,實(shí)現(xiàn)了大數(shù)據(jù)的處理、加工、應(yīng)用和價(jià)值變現(xiàn)。
(4)數(shù)據(jù)安全
在流程方面建立嚴(yán)格的數(shù)據(jù)管理流程,數(shù)據(jù)的接入和獲取需要逐層審批,并實(shí)現(xiàn)不同賬號的分權(quán)分域;在平臺方面實(shí)現(xiàn)數(shù)據(jù)隔離,做到“進(jìn)不來、看不見、拿不走”的三“不”要求;在對外合作方面做到數(shù)據(jù)脫敏,保障用戶信息的安全。
(5)數(shù)據(jù)管理
依托智慧運(yùn)營平臺的資產(chǎn)管理平臺,建立一系列領(lǐng)先的大數(shù)據(jù)管理能力,實(shí)現(xiàn)對智慧運(yùn)營平臺的數(shù)據(jù)以及數(shù)據(jù)生產(chǎn)的全生命周期進(jìn)行的全面管控。
5 安徽聯(lián)通智慧運(yùn)營平臺的構(gòu)建
安徽聯(lián)通于2016年底成功構(gòu)建基于華為FusionInsight解決方案的B域、O域數(shù)據(jù)融合的企業(yè)級大數(shù)據(jù)平臺——智慧運(yùn)營平臺,目的是對內(nèi)實(shí)現(xiàn)智慧運(yùn)營、精準(zhǔn)營銷,對外實(shí)現(xiàn)價(jià)值變現(xiàn)。
智慧運(yùn)營平臺基于“M+1+N”的理念構(gòu)建,即N個(gè)可擴(kuò)展的數(shù)據(jù)源、1個(gè)企業(yè)級大數(shù)據(jù)融合平臺、基于平臺實(shí)現(xiàn)的多(M)個(gè)對內(nèi)、對外應(yīng)用,如圖1所示。遵循“M+1+N”的建設(shè)理念,安徽聯(lián)通在搭建智慧運(yùn)營平臺架構(gòu)時(shí)首要考慮的是對融合數(shù)據(jù)的統(tǒng)一采集、統(tǒng)一存儲(chǔ)、跨域數(shù)據(jù)的共享以及跨域數(shù)據(jù)的精品應(yīng)用[5]。
圖1 安徽聯(lián)通智慧運(yùn)營平臺“M+1+N”架構(gòu)
5.1 融合數(shù)據(jù)統(tǒng)一采集
安徽聯(lián)通現(xiàn)網(wǎng)有多個(gè)煙囪狀系統(tǒng),這些系統(tǒng)的數(shù)據(jù)相互獨(dú)立、類型互不相同,如BSS、ECS、Gn上網(wǎng)日志、CS信令、基站小區(qū)基本信息、網(wǎng)絡(luò)感知系統(tǒng)、客服系統(tǒng)、號線資源系統(tǒng)等,通過梳理涉及的接口共197個(gè)。為了實(shí)現(xiàn)對任何系統(tǒng)各類數(shù)據(jù)的統(tǒng)一采集,安徽聯(lián)通智慧運(yùn)營平臺摒棄傳統(tǒng)ETL(無法支持非結(jié)構(gòu)化文本,不支持流式數(shù)據(jù)處理),而采用云化ETL(BDI)技術(shù)。 BDI實(shí)現(xiàn)融合數(shù)據(jù)統(tǒng)一采集 & BDI功能視圖如圖2所示。
云化ETL(BDI)技術(shù)的數(shù)據(jù)采集功能支持采集多種類型數(shù)據(jù),并將數(shù)據(jù)源不同的字段類型進(jìn)行統(tǒng)一。如,OGG采集B域增量數(shù)據(jù)、FTP/SFTP對文本文件進(jìn)行抽取、Flume/Kafka對O域數(shù)據(jù)實(shí)時(shí)采集、RDB和MPPDB對數(shù)據(jù)庫直接采集等。數(shù)據(jù)轉(zhuǎn)換功能對異構(gòu)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、統(tǒng)一標(biāo)準(zhǔn),包括過濾、分組、查找、去重、路由、合并、拆分、排序、轉(zhuǎn)換、聯(lián)合、統(tǒng)計(jì)、加密等,最終實(shí)現(xiàn)維度命名統(tǒng)一、數(shù)據(jù)數(shù)值統(tǒng)一等。數(shù)據(jù)加載/分發(fā)功能將融合數(shù)據(jù)加載分發(fā)到不同的數(shù)據(jù)源,支持異構(gòu)數(shù)據(jù)源并行加載、加載前過濾、加載前路由以及不落地加載等。
5.2 融合數(shù)據(jù)統(tǒng)一存儲(chǔ)/統(tǒng)一處理
安徽聯(lián)通智慧運(yùn)營平臺采用FusionInsight Hadoop平臺作為融合數(shù)據(jù)統(tǒng)一存儲(chǔ)和處理中心,如圖3所示,采用分布式共享存儲(chǔ),不需要額外的磁陣和雙機(jī)軟件,實(shí)現(xiàn)現(xiàn)網(wǎng)B/O/M三域一份數(shù)據(jù)的統(tǒng)一集中化存儲(chǔ),確保B域全部、O域全部和M域核心價(jià)值數(shù)據(jù)的統(tǒng)一與一致性存儲(chǔ),并通過云化ETL平臺向數(shù)據(jù)倉庫、實(shí)時(shí)查詢庫和流處理平臺進(jìn)行統(tǒng)一分發(fā)[6]。
圖3 FusionInsightHadoop邏輯架構(gòu)
5.3 跨域數(shù)據(jù)共享
安徽聯(lián)通智慧運(yùn)營平臺通過強(qiáng)大的多租戶能力(在一套服務(wù)器上運(yùn)行某個(gè)應(yīng)用實(shí)例,它為多個(gè)租戶提供服務(wù),租戶之間不感知)進(jìn)行權(quán)限控制和資源隔離,解決部門間大數(shù)據(jù)平臺資源共享與數(shù)據(jù)共享困難,實(shí)現(xiàn)跨域數(shù)據(jù)的共享。多租戶邏輯架構(gòu)如圖4所示。
圖4 多租戶邏輯架構(gòu)
5.4 跨域數(shù)據(jù)精品應(yīng)用[7]
安徽聯(lián)通智慧運(yùn)營平臺整合B/O域多種數(shù)據(jù)源,在如圖5所示的六大實(shí)體數(shù)據(jù)(參與人、服務(wù)、資源、賬務(wù)、營銷、企業(yè)管理)和事件數(shù)據(jù)基礎(chǔ)上,通過表1的九大主題域統(tǒng)一建模,以“數(shù)據(jù)→信息→知識→智慧”為核心將跨域數(shù)據(jù)關(guān)聯(lián)的價(jià)值提煉。目前,采用的融合建模方法主要有維度建模(基于靜態(tài)信息,一般是“人”和“物”)和事件+規(guī)則建模(基于動(dòng)態(tài)信息,即時(shí)間軸模型,如離散模型、步進(jìn)模型、連續(xù)模型和恒定模型等),已經(jīng)在現(xiàn)網(wǎng)實(shí)現(xiàn)的跨域數(shù)據(jù)應(yīng)用主要有離網(wǎng)預(yù)測、云砥交通監(jiān)控、2G退網(wǎng)、用戶感知等精品應(yīng)用開發(fā)等。
6 安徽聯(lián)通智慧運(yùn)營平臺主要技術(shù)和能力
大數(shù)據(jù)具備4 V特點(diǎn):volume(大量)、variety(多樣)、veleocity(高速)、value(價(jià)值),第一,數(shù)據(jù)體量巨大,從TB級別躍升為PB級別;第二,數(shù)據(jù)結(jié)果類型繁多;第三,數(shù)據(jù)處理速度快,可以從各種類型數(shù)據(jù)中快速獲得高價(jià)信息;第四,合理利用數(shù)據(jù)并進(jìn)行正確的分析,將會(huì)獲取高價(jià)值回報(bào)。
傳統(tǒng)數(shù)據(jù)倉庫在PB級數(shù)據(jù)處理上已經(jīng)力不從心,在大數(shù)據(jù)領(lǐng)域中,Hadoop目前已經(jīng)是大數(shù)據(jù)平臺中應(yīng)用效率最高的技術(shù),特別是針對文本、社交媒體訂閱及視頻等非結(jié)構(gòu)化數(shù)據(jù),支撐多種并行處理架構(gòu),如MapReduce、Spark、Storm;關(guān)注NoSQL數(shù)據(jù)庫,解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫引擎瓶頸;基于內(nèi)存的并行實(shí)時(shí)分析,使實(shí)時(shí)流式數(shù)據(jù)分析成為可能。安徽聯(lián)通智慧運(yùn)營平臺采用華為公司FusionInside-Hadoop + Universe 解決方案實(shí)現(xiàn),該技術(shù)架構(gòu)具備Hadoop所有的特性功能,并在Hadoop的基礎(chǔ)制定專業(yè)的應(yīng)用解決方案,使智慧運(yùn)營平臺成為一個(gè)安全、開放、便捷的大數(shù)據(jù)平臺,主要具備以下功能特點(diǎn)。
6.1 多樣化的數(shù)據(jù)采集
智慧運(yùn)營平臺支持對表、文件、消息等多種數(shù)據(jù)的實(shí)時(shí)增量數(shù)據(jù)采集(使用Flume、消息隊(duì)列、Ogg等技術(shù))和批量數(shù)據(jù)分布式采集等能力(Sqoop、FTP VOER HDFS),比基于傳統(tǒng)ETL的采集性能有數(shù)量級的提升,采集能力在業(yè)界處于領(lǐng)先地位。另外,還支持與DB2、Oracle、Hadoop(Hive)、Hadoop(Impala)、Hadoop(HBase)、Hadoop(Spark)、MPP(Aster)、MPP(GBase)、Sqlfire、GemfireXD以及IBMStreams共11類數(shù)據(jù)庫技術(shù)平臺的對接,真正地實(shí)現(xiàn)了跨平臺開發(fā)和數(shù)據(jù)管理。
6.2 統(tǒng)一建模、多域數(shù)據(jù)融合
智慧運(yùn)營平臺將數(shù)據(jù)模型框架分為原始數(shù)據(jù)層(original data store,ODS)、基礎(chǔ)數(shù)據(jù)層(basic data store,BDS)、融合數(shù)據(jù)層(convergence information store,CIS)和應(yīng)用數(shù)據(jù)層(application data store,ADS)4個(gè)層次。原始數(shù)據(jù)層數(shù)據(jù)結(jié)構(gòu)與源系統(tǒng)完全一致,基礎(chǔ)數(shù)據(jù)模型、融合數(shù)據(jù)模型和應(yīng)用層是平臺重點(diǎn)建設(shè)的數(shù)據(jù)模型。數(shù)據(jù)模型架構(gòu)如圖6所示。
在智慧運(yùn)營平臺總體設(shè)計(jì)中,遵循高層級可以從低層級獲取數(shù)據(jù)、低層級不允許從高層級獲取數(shù)據(jù)的整體原則,見表2。
表2 數(shù)據(jù)模型框架
DWD
整合層
統(tǒng)一視圖層
目標(biāo)
標(biāo)準(zhǔn)化、原生態(tài)的企業(yè)級細(xì)節(jié)數(shù)據(jù)中心
定義數(shù)據(jù)模型,清晰數(shù)據(jù)關(guān)系,通過橫向數(shù)據(jù)整合,減少系統(tǒng)冗余度
面向業(yè)務(wù)應(yīng)用的抽象數(shù)據(jù)模型,經(jīng)過簡單加工快速支持上層應(yīng)用
原則
面向主題,完成結(jié)構(gòu)的轉(zhuǎn)換、數(shù)據(jù)標(biāo)準(zhǔn)化,編碼轉(zhuǎn)換
面向主題,主題域內(nèi)的整合與輕度匯總
面向應(yīng)用,提煉共性需求,進(jìn)行廣泛主題域的匯總
模型設(shè)計(jì)方法
表結(jié)構(gòu)與原系統(tǒng)保持一致,但做命名的規(guī)范化、標(biāo)準(zhǔn)化
星型模型設(shè)計(jì),反規(guī)范化的設(shè)計(jì),降低系統(tǒng)冗余度
星型、雪花模型設(shè)計(jì),反規(guī)范化的設(shè)計(jì),適當(dāng)冗余
重點(diǎn)
主題定義
框架設(shè)計(jì)
標(biāo)準(zhǔn)化
減少或控制冗余
基礎(chǔ)數(shù)據(jù)定義
派生數(shù)據(jù)設(shè)計(jì)
數(shù)據(jù)關(guān)系管理
在于對業(yè)務(wù)需求的抽象
考慮生成的性能
考慮查詢的性能
用途
便捷查詢,可以回答任務(wù)問題
便捷數(shù)據(jù)組織,盡量避免數(shù)據(jù)跨域訪問
支持上層應(yīng)用
支持最終使用者進(jìn)行即席查詢
智慧運(yùn)營平臺在數(shù)據(jù)融合方面,目前實(shí)現(xiàn)B域、O域數(shù)據(jù)融合,共采集八大系統(tǒng)300多個(gè)接口數(shù)據(jù),日存儲(chǔ)處理B域數(shù)據(jù)500GB,O域數(shù)據(jù)10 TB,數(shù)據(jù)源見表3。
表3 數(shù)據(jù)源范圍
數(shù)據(jù)域
系統(tǒng)
數(shù)據(jù)內(nèi)容
B域
BSS
用戶信息、消費(fèi)信息、計(jì)費(fèi)話單、投訴、終端信息、渠道、營銷活動(dòng)等數(shù)據(jù)
CBSS
ECS
客服
O域
SEQ
A/IUCS、Iups、S1-MME、GN、GB、S1-U、MR、基站等數(shù)據(jù)
博瑞德
永鼎
綜合網(wǎng)管
在數(shù)據(jù)準(zhǔn)確性方面,智慧運(yùn)營平臺在建模階段開始介入,制定嚴(yán)格數(shù)據(jù)校驗(yàn)規(guī)則及數(shù)據(jù)異常處理規(guī)則,確保模型加載數(shù)據(jù)的準(zhǔn)確性。針對跨域同類數(shù)據(jù),安徽聯(lián)通獨(dú)創(chuàng)單用戶流程數(shù)據(jù)準(zhǔn)確性比較方案,取得平臺與網(wǎng)元及KPI對比差異小于1%,單天流量差異小于0.2%,當(dāng)天存在流量差異用戶比例小于30%的成果。
6.3 支持多框架,實(shí)現(xiàn)統(tǒng)一調(diào)度
智慧運(yùn)營平臺內(nèi)置多種計(jì)算框架(MapReduce、Spark、Storm),能夠高效地處理海量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)。同時(shí),滿足批處理、實(shí)時(shí)處理等多種計(jì)算場景需求;可支持個(gè)性化、靈活多樣的調(diào)度策略編排,實(shí)現(xiàn)多種并行處理框架任務(wù)(如 MapReduce、Spark)的調(diào)度、關(guān)系型數(shù)據(jù)庫存儲(chǔ)過程、shell腳本等調(diào)度。
6.4 集成挖掘算法,快速實(shí)現(xiàn)建模
智慧運(yùn)營平臺基于分布式計(jì)算架構(gòu),整合業(yè)界先進(jìn)的挖掘算法,實(shí)現(xiàn)基于Hadoop的并行計(jì)算改造,充分利用大數(shù)據(jù)平臺強(qiáng)大的計(jì)算能力及豐富的數(shù)據(jù)資源,快速實(shí)現(xiàn)原始數(shù)據(jù)的二次挖掘,提升數(shù)據(jù)價(jià)值。目前,已經(jīng)集成的建模算法包含樸素貝葉斯、稀疏線性矩陣、決策樹、隨機(jī)森林、邏輯回歸、K-means、社交網(wǎng)絡(luò)推薦、影響力傳播、協(xié)調(diào)過濾、線性回歸等一系列的挖掘算法。整個(gè)建模過程采用圖形化操作界面,大大降低了數(shù)學(xué)建模門檻,并支持系統(tǒng)自動(dòng)建模能力。
6.5 圖形化開發(fā),降低大數(shù)據(jù)應(yīng)用門檻
智慧運(yùn)營平臺通過一整套的圖形化的開發(fā)和維護(hù)工具,支持圖形化拖拽式開發(fā),免代碼編寫,降低大數(shù)據(jù)應(yīng)用的開發(fā)難度,業(yè)務(wù)需求響應(yīng)周期由周級別降低到小時(shí)級別,效率成倍提升。
6.6 基于大數(shù)據(jù)的網(wǎng)絡(luò)維挽工具,實(shí)現(xiàn)NOC向SOC轉(zhuǎn)型[8]
6.6.1 重點(diǎn)區(qū)域KQI/KPI實(shí)時(shí)監(jiān)控能力
根據(jù)業(yè)務(wù)需求,快速制定對指定區(qū)域的KQI/KPI監(jiān)控任務(wù),對指定區(qū)域進(jìn)行實(shí)時(shí)KQI/KPI監(jiān)控,實(shí)現(xiàn)5min粒度監(jiān)控自定義區(qū)域KQI/KPI狀態(tài)并上報(bào)告警,并可以通過地圖直觀呈現(xiàn)自定義區(qū)域中的異常區(qū)域,對網(wǎng)絡(luò)中關(guān)鍵指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控,制定保障方案。
6.6.2 移動(dòng)寬帶網(wǎng)絡(luò)可視化能力
基于MBB流量分析,實(shí)現(xiàn)現(xiàn)網(wǎng)流量的多維分析統(tǒng)計(jì)(網(wǎng)元、協(xié)議、APN、用戶、接入網(wǎng)、網(wǎng)站、位置、終端等),并提供多維實(shí)時(shí)的詳細(xì)報(bào)表,實(shí)現(xiàn)移動(dòng)寬帶網(wǎng)絡(luò)可視化。
6.6.3 端到端故障分析能力
打通UE(user equipment,用戶設(shè)備)到SP(signaling point,信令點(diǎn))鏈路所有網(wǎng)元,實(shí)現(xiàn)全網(wǎng)元特定業(yè)務(wù)的質(zhì)量分析,發(fā)現(xiàn)業(yè)務(wù)質(zhì)量問題及根因,實(shí)現(xiàn)端到端故障定界,并可通過歷史數(shù)據(jù)的分析,發(fā)現(xiàn)潛在問題和未來趨勢。
6.6.4 開放的定制化能力
智慧運(yùn)營平臺采用開放式架構(gòu),基于智慧運(yùn)營平臺可以實(shí)現(xiàn)應(yīng)用的百花齊放,目前已經(jīng)實(shí)現(xiàn)CSFB(circuit switched fallback,電路域交換回落)專題、Web質(zhì)差小區(qū)專題、高鐵專題、2G/3G/4G專題、OTT用戶行分析、校園用戶分析六大專題應(yīng)用。
? CSFB專題:分析對指定時(shí)間段內(nèi)、指定區(qū)域的CSFB業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,快速發(fā)現(xiàn)并上報(bào)問題,對呼損類問題,使用呼損分析方式形象展示出問題發(fā)生次數(shù)和所在位置,幫助運(yùn)營商問題定界。
? Web質(zhì)差小區(qū)專題:結(jié)合TCP管道指標(biāo),識別影響用戶感知的無線質(zhì)差小區(qū)。
? 高鐵專題:對高鐵用戶進(jìn)行精準(zhǔn)識別,針對性地進(jìn)行問題處理。
? 2G/3G/4G專題:分析2G/3G/4G用戶分布情況,高流量2G小區(qū)下用戶終端類型、用戶業(yè)務(wù)量情況,為2G退網(wǎng)提供數(shù)據(jù)支撐。
? OTT用戶分析專題:挖掘高價(jià)值用戶行為,為市場營銷提供數(shù)據(jù)支撐。
? 校園分析專題:分析校園用戶感知情況、結(jié)合終端分布及用戶行為分析為市場進(jìn)行校園營銷提供數(shù)據(jù)支撐。
7 安徽聯(lián)通智慧運(yùn)營平臺用戶離網(wǎng)預(yù)測大數(shù)據(jù)的應(yīng)用實(shí)踐
7.1 用戶離網(wǎng)定義
用戶離網(wǎng)是指用戶因?yàn)槟撤N原因與運(yùn)營商解除服務(wù)合同行為,即用戶停止消費(fèi)目前正在使用的電信產(chǎn)品或服務(wù),選擇其他運(yùn)營商的產(chǎn)品或服務(wù),或者選擇該運(yùn)營商的其他替代性電信產(chǎn)品或服務(wù)。
用戶的離網(wǎng)表現(xiàn)主要分為兩大類:競爭性用戶離網(wǎng)和非競爭性用戶離網(wǎng)。競爭性用戶離網(wǎng)主要是由于其他運(yùn)營商通過主動(dòng)方式向用戶提供更優(yōu)惠的資費(fèi)、服務(wù)導(dǎo)致用戶的離網(wǎng);非競爭性離網(wǎng)是由于運(yùn)營商自身的產(chǎn)品替代、電信政策調(diào)測或用戶自身行為對通信產(chǎn)品使用的調(diào)整造成的離網(wǎng)。
7.2 用戶離網(wǎng)因素
根據(jù)用戶的離網(wǎng)意愿可分為主動(dòng)離網(wǎng)和被動(dòng)離網(wǎng),被動(dòng)離網(wǎng)又分為無意離網(wǎng)和蓄意離網(wǎng),從現(xiàn)網(wǎng)實(shí)際數(shù)據(jù)分析,蓄意離網(wǎng)占整個(gè)離網(wǎng)用戶的80%以上,這部分用戶主要受到企業(yè)產(chǎn)品或服務(wù)的技術(shù)原因、經(jīng)濟(jì)原因等影響離網(wǎng),是本次大數(shù)據(jù)應(yīng)用研究預(yù)測的對象。
7.3 離網(wǎng)預(yù)測應(yīng)用原理
7.3.1 離網(wǎng)預(yù)測算法
安徽聯(lián)通離網(wǎng)模型采用隨機(jī)森林算法,該算法是一個(gè)包含多個(gè)決策樹的分類器。每個(gè)決策樹的形成采用了隨機(jī)方法,各決策樹之間無關(guān)聯(lián)、彼此獨(dú)立,所有決策樹訓(xùn)練都是采用同樣的參數(shù),但是每棵樹的訓(xùn)練集不同。隨機(jī)森林對輸入的數(shù)據(jù)要進(jìn)行和列的隨機(jī)采樣,并保證采樣過程的隨機(jī)性,所以不容易出現(xiàn)over-fitting,且該算法實(shí)現(xiàn)相對簡單、運(yùn)行速度快,容易基于Hadoop實(shí)現(xiàn)并行計(jì)算等特點(diǎn),所以本次離網(wǎng)預(yù)測課題,采用隨機(jī)森林算法進(jìn)行建模[9-16]。
7.3.2 離網(wǎng)預(yù)測模型
本離網(wǎng)預(yù)測模型采用隔月預(yù)測未來3月離網(wǎng)方式進(jìn)行建模打標(biāo),目的在于提前發(fā)現(xiàn)準(zhǔn)離網(wǎng)用戶,并拉大維系挽留動(dòng)作實(shí)施窗口,該預(yù)測方式建模更具備實(shí)際使用價(jià)值,建模打標(biāo)方式如圖7所示。
本離網(wǎng)課題與其他課題項(xiàng)目在數(shù)據(jù)選擇上有明顯區(qū)別,其他課題數(shù)據(jù)均來自BSS系統(tǒng)數(shù)據(jù),本課題數(shù)據(jù)結(jié)合CBSS、ECS、客服、O域用戶網(wǎng)絡(luò)感知數(shù)據(jù)。在數(shù)據(jù)周期上,本課題采用數(shù)據(jù)周期較長,數(shù)據(jù)周期大于6個(gè)月,通過用戶消費(fèi)趨勢變化數(shù)據(jù),更直觀反映用戶的離網(wǎng)情況,具體指標(biāo)參數(shù)見表4。
表4 離網(wǎng)用戶關(guān)鍵數(shù)據(jù)屬性字段
建模字段
建模字段
建模字段
建模字段
用戶狀態(tài)
套餐內(nèi)語音時(shí)長
近3月ARPU均值
閑時(shí)通話次數(shù)占比
手機(jī)號碼
上行點(diǎn)對點(diǎn)短信條數(shù)
當(dāng)月欠費(fèi)金額
工作日通話次數(shù)占比
用戶ID
上行網(wǎng)內(nèi)點(diǎn)對點(diǎn)短信條數(shù)
近3月欠費(fèi)金額均值
周末通話次數(shù)占比
客戶ID
上行網(wǎng)間點(diǎn)對點(diǎn)短信條數(shù)
零售渠道充值次數(shù)
工作日忙時(shí)通話次數(shù)占比
省分編碼
國際漫出點(diǎn)對點(diǎn)短信條數(shù)
當(dāng)月充值次數(shù)
忙時(shí)流量占比
城市代碼
短信計(jì)費(fèi)量
社會(huì)渠道接觸次數(shù)
閑時(shí)流量占比
性別
下行點(diǎn)對點(diǎn)短信條數(shù)
近3月充值金額均值
工作日流量占比
客戶年齡
套餐內(nèi)短信條數(shù)
零售渠道充值金額
周末流量占比
用戶信用度
上行點(diǎn)對點(diǎn)彩信條數(shù)
近3個(gè)月套餐更換次數(shù)總和
工作日忙時(shí)流量占比
網(wǎng)齡
上行網(wǎng)內(nèi)點(diǎn)對點(diǎn)彩信條數(shù)
近3月欠費(fèi)次數(shù)總和
忙時(shí)平均每次通話時(shí)長
本地網(wǎng)外時(shí)長
點(diǎn)對點(diǎn)彩信次數(shù)
近半年通話次數(shù)標(biāo)準(zhǔn)差
閑時(shí)平均每次通話時(shí)長
長途主叫時(shí)長
下行點(diǎn)對點(diǎn)彩信條數(shù)
近半年通話時(shí)長變異系數(shù)
工作日平均每次通話時(shí)長
漫游主叫時(shí)長
總流量
月收入環(huán)比
周末平均每次通話時(shí)長
本地被叫時(shí)長
套餐內(nèi)流量
欠費(fèi)金額環(huán)比
近6個(gè)月通話時(shí)長趨勢
漫游被叫時(shí)長
服務(wù)類短信號碼種類
欠費(fèi)次數(shù)環(huán)比
近6個(gè)月工作日忙時(shí)通話次數(shù)趨勢
網(wǎng)間通話時(shí)長
服務(wù)類短信條數(shù)
通話時(shí)長環(huán)比
近6個(gè)月工作日通話次數(shù)趨勢
忙時(shí)通話時(shí)長
撥打客服電話次數(shù)
通話次數(shù)環(huán)比
近6個(gè)月流量趨勢
周末通話時(shí)長
本月總收入
總流量環(huán)比
近6個(gè)月工作日忙時(shí)流量趨勢
通話次數(shù)
流量費(fèi)用
上網(wǎng)時(shí)長環(huán)比
近6個(gè)月工作日流量趨勢
長途語音通話次數(shù)
短信_點(diǎn)對點(diǎn)短信費(fèi)
繳費(fèi)金額環(huán)比
近3個(gè)月通話次數(shù)標(biāo)準(zhǔn)差
主叫次數(shù)
套餐價(jià)格
繳費(fèi)次數(shù)環(huán)比
近3個(gè)月通話時(shí)長變異系數(shù)
語音通話計(jì)費(fèi)時(shí)長
余額
異網(wǎng)客服撥打次數(shù)
近3個(gè)月通話時(shí)長趨勢
主叫計(jì)費(fèi)時(shí)長
繳費(fèi)金額
忙時(shí)通話時(shí)長占比
近3個(gè)月工作日忙時(shí)通話次數(shù)趨勢
本地網(wǎng)內(nèi)時(shí)長
上個(gè)月ARPU值
閑時(shí)通話次數(shù)占比
近3個(gè)月工作日通話次數(shù)趨勢
本地通話時(shí)長
過繳費(fèi)期天數(shù)
工作日通話時(shí)長占比
近3個(gè)月流量趨勢
長途通話時(shí)長
余額與上月賬單差值
周末通話時(shí)長占比
近3個(gè)月工作日忙時(shí)流量趨勢
漫游通話時(shí)長
社會(huì)影響力
忙時(shí)通話次數(shù)占比
近3個(gè)月工作日流量趨勢
7.3.3 模型構(gòu)建
本預(yù)測應(yīng)用構(gòu)建工具采用華為公司大數(shù)據(jù)Universe平臺的SmartMiner工具進(jìn)行建模。SmartMiner是華為大數(shù)據(jù)平臺中的一個(gè)支持圖形化開發(fā)的專業(yè)的數(shù)據(jù)挖掘工具,基于Spark的分布式內(nèi)存處理框架,集成了大量的數(shù)據(jù)挖掘算法,借助大數(shù)據(jù)平臺強(qiáng)大數(shù)據(jù)并行處理能力,批量、快速、便捷地實(shí)現(xiàn)數(shù)據(jù)建模挖掘工作。
本次應(yīng)用建模使用SmartMiner中的隨機(jī)森林算法實(shí)現(xiàn),共建200棵隨機(jī)樹,使用SQR采樣方法,樹的最大深度15層,葉子最小樣本數(shù)100個(gè),最大分箱數(shù)32。
本次建模采用兩種方式:方式一采用使用4個(gè)月歷史數(shù)據(jù),次月給前一個(gè)月打標(biāo)標(biāo)簽,采用當(dāng)前月數(shù)據(jù)預(yù)測次月離網(wǎng)情況;方式二采用7個(gè)月歷史數(shù)據(jù),使用隔月后未來3個(gè)月數(shù)據(jù)該月打標(biāo)簽,使用當(dāng)前月數(shù)據(jù)隔月后預(yù)測未來3個(gè)月用戶離網(wǎng)情況。
7.3.4 模型評估
本次課題采用查準(zhǔn)率和查全率2個(gè)指標(biāo)來評估模型的預(yù)測結(jié)果,其計(jì)算式如下。
查準(zhǔn)率 = 預(yù)測為離網(wǎng)且最終離網(wǎng)的用戶/預(yù)測離網(wǎng)用戶數(shù)據(jù) (1)
查全率 = 預(yù)測為離網(wǎng)且最終離網(wǎng)的用戶/實(shí)際離網(wǎng)用戶數(shù) (2)
采用近期歷史數(shù)據(jù)進(jìn)行建模和評估,得到表5、表6、表7所示的評估數(shù)據(jù)。
表5 預(yù)付費(fèi)用戶預(yù)測次月離網(wǎng)結(jié)果(2016年12月)
預(yù)測人數(shù)/人
查準(zhǔn)率
查全率
25 000
90.60%
8.80%
50 000
81.00%
15.80%
100 000
69.20%
27.00%
150 000
61.50%
36.00%
200 000
55.50%
43.40%
250 000
50.50%
49.30%
300 000
46.30%
54.30%
350 000
42.90%
58.60%
400 000
40.00%
62.40%
表6 預(yù)付費(fèi)用戶隔月預(yù)測次3月離網(wǎng)結(jié)果(2017年2月)
預(yù)測人數(shù)/人
查準(zhǔn)率
查全率
25 000
71.30%
7.00%
50 000
66.00%
12.90%
100 000
58.30%
22.80%
150 000
53.10%
31.10%
200 000
48.90%
38.20%
250 000
45.50%
44.50%
300 000
42.70%
50.10%
350 000
40.40%
55.20%
400 000
38.30%
59.80%
表7 后付費(fèi)用戶隔月預(yù)測次3月離網(wǎng)結(jié)果(2017年2月)
預(yù)測人數(shù)/人
查準(zhǔn)率
查全率
25 000
54.80%
11.80%
50 000
41.70%
18.00%
100 000
31.30%
27.10%
150 000
26.60%
34.50%
200 000
23.90%
41.20%
250 000
21.80%
47.10%
300 000
20.10%
52.10%
350 000
18.80%
56.80%
400 000
17.70%
61.00%
根據(jù)業(yè)內(nèi)的統(tǒng)計(jì)數(shù)據(jù),國內(nèi)運(yùn)營商的離網(wǎng)預(yù)測模型查準(zhǔn)率達(dá)到40%,查全率達(dá)到60%,就即可算作優(yōu)秀的離網(wǎng)預(yù)測模型,根據(jù)表5、表6、表7的結(jié)果可以得出,采用隨機(jī)森林算法的預(yù)測模型在查準(zhǔn)率方面有非常大的優(yōu)勢。
7.4 離網(wǎng)根因分析
分析歷史離網(wǎng)用戶與非離網(wǎng)用戶屬性分布,從而確定對應(yīng)屬性特征閾值,然后,分析預(yù)測用戶的對應(yīng)屬性的均值和標(biāo)準(zhǔn)差,計(jì)算對應(yīng)屬性偏好值=(屬性?屬性平均值)/方差,從而確定屬性特征閾值(0.5或?0.5),確定該用戶的離網(wǎng)根因,共分析總結(jié)11類離網(wǎng)根因,見表8。
經(jīng)實(shí)踐數(shù)據(jù)驗(yàn)證,符合離網(wǎng)根因用戶離網(wǎng)率的實(shí)際離網(wǎng)率,相對于全網(wǎng)用戶的離網(wǎng)率有明顯提升,離網(wǎng)根因應(yīng)用效果見表9、表10。
表8 離網(wǎng)根因
序號
根因類別
1
資費(fèi)原因
2
合約感知原因
3
社會(huì)交往影響原因
4
終端換機(jī)原因
5
地域變更原因
6
服務(wù)質(zhì)量原因
7
通信質(zhì)量原因
8
棄卡原因
9
多號類用戶
10
新入網(wǎng)三低用戶
11
其他原因
表9 2017年1月非三無用戶未來3個(gè)月離網(wǎng)率10.4%
表10 2017年1月預(yù)測Top40萬用戶在后3個(gè)月
實(shí)際離網(wǎng)21.6萬,查準(zhǔn)率54.18%
8 結(jié)束語
安徽聯(lián)通緊抓大數(shù)據(jù)發(fā)展的時(shí)代脈搏,敢于創(chuàng)新、敢于挑戰(zhàn),在全國運(yùn)營商中率先實(shí)現(xiàn)技術(shù)、架構(gòu)先進(jìn)的企業(yè)級融合大數(shù)據(jù)平臺,完成安徽聯(lián)通B/O/M域數(shù)據(jù)的接入及治理,實(shí)現(xiàn)安徽聯(lián)通的數(shù)字化轉(zhuǎn)型及全業(yè)務(wù)流程的智慧運(yùn)營,并基于平臺的開放架構(gòu),與融合大數(shù)據(jù)領(lǐng)域合作伙伴合作實(shí)現(xiàn)大數(shù)據(jù)對外應(yīng)用的百花齊放。
企業(yè)級融合大數(shù)據(jù)平臺是個(gè)不斷迭代的過程,未來,安徽聯(lián)通智慧運(yùn)營平臺還將朝著“更大、更全、更準(zhǔn)”的方向不斷邁進(jìn),并探索專業(yè)化的團(tuán)隊(duì)建設(shè),通過PaaS化功能完善,實(shí)現(xiàn)對內(nèi)、對外應(yīng)用的百花齊放。
參考文獻(xiàn):
[1] 童曉渝, 張?jiān)朴? 房秉毅, 等. 大數(shù)據(jù)時(shí)代電信運(yùn)營商的機(jī)遇[J]. 信息通信技術(shù),2013(1): 5-9.
TONG X Y, ZHANG Y Y, FANGB Y, et al. Opportunities and strategies to adopt big data for telecomoperators [J]. Information and Communications Technolog, 2013(1): 5-9.
[2] 左超, 耿慶鵬, 劉旭峰. 基于大數(shù)據(jù)的電信業(yè)務(wù)發(fā)展策略研究[J]. 郵電設(shè)計(jì)技術(shù), 2013(10): 1-4.
ZUO C, GENG Q P, LIU X F.Study on operator’s development st rategy for big data business [J]. DesigningTechniques of Posts and Telecommunications, 2013(10): 1-4.
[3] 丁俊發(fā).大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J]. 硅谷, 2013(1): 9-10.
DING J F. Opportunitiesand strategies in big data era [J]. Silicon Valley,2013(1): 9-10.
[4] 馮登國, 張敏, 李昊. 大數(shù)據(jù)安全與隱私保護(hù)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(1): 246-258.
FENG D G, ZHANG M, LI H. Big data security andprivacy protection [J]. Chinese Journal of Computers, 2014, 37(1): 246-258.
[5] 韓晶, 張智江, 王健全, 等. 面向統(tǒng)一運(yùn)營的電信運(yùn)營商大數(shù)據(jù)戰(zhàn)略[J]. 電信科學(xué), 2014,30(11): 154-158.
HAN J, ZHANG Z J, WANG JQ, et al. The unified-operation- oriented big data strategy for telecomoperators [J]. Telecommunications Science, 2014, 30(11): 154-158.
[6] 于鵑. 數(shù)據(jù)倉庫與大數(shù)據(jù)融合的探討[J]. 電信科學(xué), 2015,31(3): 166-170.
YU J. Discussion on integration of data warehouseand big data [J]. Telecommunications Science, 2015,31(3): 166-170.
[7] 廖建新. 大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望[J]. 電信科學(xué), 2015,31(7): 7-18.
LIAO J X. Big datatechnology: current applications and prospects [J]. Telecommunications Science,2015, 31(7): 7-18.
[8] 王帥, 汪來富, 金華敏, 等. 網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用[J]. 電信科學(xué), 2015,31(7): 145-150.
WANG S, WANG L F, JIN H M,et al. Big data application in network security analysis [J].Telecommunications Science, 2015, 31(7): 145-150.
[9] ALMANAA M, AKSOY M S, ALZAHRANI R. A survey on data mining techniques in customerchurn analysis for telecom industry[J]. Journal of Engineering Research andApplications, 2014, 4(5): 165-171.
[10] BREIMANL. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[11] AU W,CHAN K, YAO X. A novel evolutionary data miningalgorithm with applications to churn prediction[J]. IEEE Transactions onEvolutionary Computation, 2003, 7(6): 532-545.
[12] OSEMAN KB,BINTI S, SHUKOR M, et al. Data mining in churn analysis model fortelecommunication industry[J]. Journal of Statistical Modeling and Analytics,2010 (1): 19-27.
[13] JUNQUE D, MARTENS D, PROVOST F. Predictivemodeling with big data: is bigger really better? [J]. Big Data, 2013, 1(4): 215-226.
[14] KIM N, JUNG KH, YONG S K, et al. Uniformly subsampled ensemble (use) for churn management: theoryand implementation [J]. Expert Systems with Applications, 2012, 39(15): 11839-11845.
[15] COUSSEMENTK, POEL D. Churn prediction in subscription services: an application of supportvector machines while comparing two parameter-selection techniques[J]. ExpertSystems with Applications, 2008, 34(1): 313-327.
[16] GUYON I, LEMAIREV, VOGEL D, et al. Analysis of the KDD cup 2009: fast scoring on a large orangecustomer database[J]. ACM SIGKDD ExplorationsNewsletter, 2009, 11(2): 1-22.
[[作者簡介]