作者:丁偉 王題 劉新海 韓涵
感謝丁偉的投稿,大數(shù)據(jù)文摘對(duì)優(yōu)質(zhì)內(nèi)容一向渴求,歡迎大家投稿。
內(nèi)容提要:手機(jī)用戶畫像是電信運(yùn)營(yíng)商實(shí)現(xiàn)“數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)與運(yùn)營(yíng)”的重要舉措。首先,介紹了手機(jī)用戶畫像過(guò)程中對(duì)個(gè)人隱私保護(hù)的方法,然后分析手機(jī)用戶畫像的數(shù)據(jù)來(lái)源與大數(shù)據(jù)實(shí)現(xiàn)技術(shù),最后,通過(guò)數(shù)據(jù)樣本實(shí)例分析手機(jī)用戶畫像在個(gè)人征信中的應(yīng)用。
◆ ◆ ◆
引言
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,“數(shù)據(jù)即資源”的大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。用戶畫像是電信運(yùn)營(yíng)商為了避免管道化風(fēng)險(xiǎn),實(shí)現(xiàn)“數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)與運(yùn)營(yíng)”的重要舉措。用戶畫像與應(yīng)用大數(shù)據(jù)技術(shù)對(duì)客戶分類密切相關(guān),是單個(gè)客戶的眾多屬性標(biāo)簽的累積;另一方面,在運(yùn)營(yíng)商涉足的消費(fèi)金融領(lǐng)域,對(duì)手機(jī)用戶所進(jìn)行的個(gè)人信用評(píng)價(jià),是對(duì)手機(jī)用戶畫像中的諸多特征實(shí)施再組合與分類的應(yīng)用過(guò)程。
◆ ◆ ◆
1.手機(jī)用戶畫像與隱私保護(hù)
所謂用戶畫像,是指單個(gè)用戶所有信息標(biāo)簽的集合,即通過(guò)收集與分析用戶的人口屬性、社會(huì)交往、行為偏好等主要信息,將用戶所有的標(biāo)簽綜合起來(lái),勾勒出該用戶的整體特征與輪廓。在互聯(lián)網(wǎng)經(jīng)濟(jì)條件下,滿足消費(fèi)者個(gè)性化需求成為運(yùn)營(yíng)商差異化競(jìng)爭(zhēng)的主要手段,用戶畫像可以較為精準(zhǔn)地發(fā)現(xiàn)客戶類型,成為電信運(yùn)營(yíng)商避免管道化風(fēng)險(xiǎn),實(shí)現(xiàn)“數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)與運(yùn)營(yíng)”的重要助力。
用戶畫像是個(gè)形象的比喻。在大數(shù)據(jù)技術(shù)的幫助下,我們可以了解手機(jī)用戶的更多信息,但由于實(shí)施成本和隱私保護(hù)的限制,這個(gè)畫像其實(shí)不是全息的“照相”或“錄像”,是按需設(shè)計(jì)的,不可能無(wú)限細(xì)化,即用戶“畫像”不考慮成本與需求而具有超高“像素”是不現(xiàn)實(shí)的。一般而言,用戶畫像與客戶分類密切相關(guān)。在大數(shù)據(jù)分析中對(duì)客戶群進(jìn)行分類,如聚類分析、判斷邏輯分析等,可以按特征將用戶劃分為不同的類別;這些多維角度的客戶分類,形成了一系列不同的屬性標(biāo)簽。對(duì)于單個(gè)客戶,正是這些分類范圍的相互交集,即是單個(gè)客戶身上的眾多標(biāo)簽的累積,使得客戶形象逐漸豐滿,依稀呈現(xiàn)。同時(shí),眾多特征的迭加也可視同從量變到質(zhì)變的“涌突”現(xiàn)象,在標(biāo)簽信息的基礎(chǔ)上,可以再?gòu)母黜?xiàng)特征中重新按需組合,形成相對(duì)完整的“大屬性”標(biāo)簽,實(shí)施進(jìn)一步的分類。從這個(gè)角度來(lái)看,手機(jī)用戶的個(gè)人信用評(píng)價(jià),也是個(gè)手機(jī)用戶畫像中的諸多特征再組合分類的應(yīng)用過(guò)程。
就電信運(yùn)營(yíng)商而言,應(yīng)本著風(fēng)險(xiǎn)防范原則,首先加強(qiáng)系統(tǒng)安全的日常管控與監(jiān)查,具體包括:流程規(guī)劃、權(quán)限分級(jí)、下載監(jiān)控、合規(guī)巡檢等內(nèi)容(見表1)。其次,利用大數(shù)據(jù)技術(shù)做好威脅情報(bào)與安全數(shù)據(jù)的解析工作。近年來(lái),隨著網(wǎng)絡(luò)安全攻防技術(shù)的不斷演化,出現(xiàn)了依托社會(huì)工程學(xué)等方法的APT(Advanced Persistent Threat,高級(jí)持續(xù)威脅)方式,APT不單針對(duì)用戶信息,而是出于特定目標(biāo)長(zhǎng)期地威脅整個(gè)網(wǎng)絡(luò)系統(tǒng)的安全。APT的出現(xiàn),促使電信運(yùn)營(yíng)商的數(shù)據(jù)安全理念從以漏洞為中心的實(shí)時(shí)防御,發(fā)展到以威脅情報(bào)為中心的安全解析管理。安全解析管理要利用大數(shù)據(jù)技術(shù),著重分析挖掘業(yè)務(wù)系統(tǒng)中:①業(yè)務(wù)流程類數(shù)據(jù):包括企業(yè)組織結(jié)構(gòu)、業(yè)務(wù)環(huán)節(jié)構(gòu)成、業(yè)務(wù)鏈關(guān)聯(lián)、員工層級(jí)與分工權(quán)責(zé)、出勤在崗記錄等,這些數(shù)據(jù)往往難以從機(jī)器中直接獲取,且有助于對(duì)潛在威脅點(diǎn)的搜索與定位;②網(wǎng)絡(luò)數(shù)據(jù):包括FPC(full packet capture) PSTR(Packet ),會(huì)話或flow數(shù)據(jù);③設(shè)備、主機(jī)及應(yīng)用的日志:包括WEB代理日志、路由器、防火墻日志、VPN日志、windows安全及系統(tǒng)日志等;④報(bào)警數(shù)據(jù):即檢測(cè)工具發(fā)現(xiàn)異常而發(fā)出的通知等。通過(guò)全面的數(shù)據(jù)解析,可以及時(shí)發(fā)現(xiàn)入侵跡象,力爭(zhēng)在攻擊者完成使命前成功地阻止其活動(dòng)并完成溯源。當(dāng)然,前面提及的日常實(shí)時(shí)防御仍是安全管理的基礎(chǔ),構(gòu)成了安全防守的縱深,否則后面的安全解析也無(wú)從談起。
最后,出于保護(hù)個(gè)人數(shù)據(jù)隱私的目的,做好數(shù)據(jù)脫敏工作。數(shù)據(jù)脫敏主要對(duì)應(yīng)于數(shù)據(jù)分析應(yīng)用與發(fā)布的環(huán)節(jié),目前主要技術(shù)有:水印、泛化、加密、失真、歸并等。其中,水印是指對(duì)局部信息的掩遮;失真是指采用添加噪聲等方法對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng)處置,但還要保持原有的數(shù)據(jù)統(tǒng)計(jì)方面的性質(zhì)不變;加密是應(yīng)用密碼技術(shù)對(duì)數(shù)據(jù)進(jìn)行封裝,這種方法保護(hù)效果最好但開銷較大;泛化是對(duì)數(shù)據(jù)進(jìn)行更概括、更抽象的描述,如對(duì)于年齡18歲,可以泛化為年齡取值區(qū)間為[14,25];歸并則是將量化的數(shù)值指標(biāo)按一定的標(biāo)準(zhǔn)進(jìn)行分類,形成屬性指標(biāo)參數(shù),如價(jià)值5000元以上手機(jī)型號(hào),被劃分為高檔手機(jī)類,記為參數(shù)1,歸并方法兼顧了失真與泛化的要求,在用戶畫像中常被使用。
表1:電信運(yùn)營(yíng)商數(shù)據(jù)安全與隱私保護(hù)
安全保護(hù)項(xiàng)目
主要內(nèi)容
隱私保護(hù)
水印、加密、失真、泛化、歸并等
基于威脅情報(bào)的安全防御
全方位安全監(jiān)測(cè)、與安全相關(guān)的數(shù)據(jù)收集與分析(包括業(yè)務(wù)流程數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、設(shè)備與應(yīng)用日志、報(bào)警通知等)
基于漏洞的日常管控與監(jiān)查
防火墻、查殺病毒木馬、流程規(guī)劃、權(quán)限分級(jí)、下載監(jiān)控、高危操作復(fù)核、合規(guī)巡檢、安全審計(jì)等
當(dāng)前,許多與民眾生活息息相關(guān)的部門如公安戶籍管理、社會(huì)保障、住房公積金管理等,都涉及到為數(shù)從多的個(gè)人家庭住址、社會(huì)關(guān)系、職業(yè)經(jīng)歷、個(gè)人收入等敏感信息,成為黑客們首選的攻擊目標(biāo);但這些部門并沒(méi)有因噎廢食,在不斷完善個(gè)人信息安全與隱私保護(hù)技術(shù)的前提下,充分利用大數(shù)據(jù)技術(shù)廣泛開展綜合業(yè)務(wù)為民服務(wù)。應(yīng)該說(shuō),其它部門能夠做到的,電信運(yùn)營(yíng)商也有能力做到。
◆ ◆ ◆
2.主要技術(shù)來(lái)源與技術(shù)框架
2.1主要數(shù)據(jù)來(lái)源
手機(jī)用戶畫像的數(shù)據(jù)可以分為四大類:人口屬性數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、行為偏好數(shù)據(jù)和其他方面數(shù)據(jù)。
2.1.1人口屬性數(shù)據(jù)
人口屬性數(shù)據(jù)是指手機(jī)用戶的姓名、年齡、性別、手機(jī)類型、手機(jī)用戶唯一標(biāo)識(shí)、訂購(gòu)套餐類型等基本信息,以及由此延伸的手機(jī)用戶的實(shí)際話費(fèi)、手機(jī)號(hào)碼注冊(cè)地、身份證居住地址等。2015年9月1日起手機(jī)卡實(shí)名登記制實(shí)施,原有的“臨時(shí)賬戶”、“集團(tuán)卡”、“代辦卡”,以及手機(jī)卡登記信息不完整、機(jī)主姓名與實(shí)際持用者信息不匹配的現(xiàn)象將被制止,這部分的信息將成為手機(jī)用戶畫像的重要基礎(chǔ)數(shù)據(jù)。
2.1.2社交網(wǎng)絡(luò)數(shù)據(jù)
手機(jī)是人們交往的重要通訊工具,從手機(jī)用戶的主被叫通訊記錄中可以描繪出該用戶的社會(huì)交往網(wǎng)絡(luò)。社交網(wǎng)絡(luò)的研究分為兩種形態(tài),第一種是以某個(gè)人為核心點(diǎn),重點(diǎn)探討研究其他各節(jié)點(diǎn)和核心點(diǎn)的連接互動(dòng)關(guān)系以及連接強(qiáng)度,稱為“自我中心網(wǎng)絡(luò)(ego-centric networks)”。第二種形態(tài)是以整體網(wǎng)絡(luò)為核心,在特定范圍內(nèi)所有成員所構(gòu)成的關(guān)系網(wǎng)絡(luò),稱之為“社會(huì)中心網(wǎng)絡(luò)”(socio-centric networks),研究重點(diǎn)在于網(wǎng)絡(luò)結(jié)構(gòu)以及信息如何在網(wǎng)絡(luò)內(nèi)部擴(kuò)散。社交網(wǎng)絡(luò)技術(shù)方法有靜態(tài)和動(dòng)態(tài)交互法,通用研究工具有Ucinet、Pajek、Nwb、Nodexl和Gephi等軟件。
手機(jī)用戶畫像的社交網(wǎng)絡(luò)主要研究的是第一種形態(tài)網(wǎng)絡(luò),即以個(gè)人為中心的社交網(wǎng)絡(luò)??梢愿鶕?jù)是否一段時(shí)期有主被叫、通話時(shí)間長(zhǎng)短、通話發(fā)生的時(shí)間等因素來(lái)標(biāo)注社會(huì)交往的連接緊密程度以及關(guān)系的穩(wěn)定性。例如,有人認(rèn)為通話記錄中,主叫較多的手機(jī)用戶可能處于相對(duì)的支配地位,但僅憑某單項(xiàng)指標(biāo)則容易發(fā)生誤判,主叫多的可能是從事物流業(yè)的快遞員;而被叫較多的手機(jī)用戶,也有可能是導(dǎo)游或會(huì)議組織的服務(wù)人員。所以,有必要綜合考慮其它因素,如一段時(shí)期內(nèi)的雙向通話的時(shí)長(zhǎng)等。另一方面,根據(jù)“物以類聚,人以群分”的思路,手機(jī)用戶的社交網(wǎng)絡(luò)中有緊密連接關(guān)系的群體的一些相關(guān)信息,如ARPU值、手機(jī)型號(hào)的整體價(jià)格水平等也可以間接反映該用戶所處的社會(huì)環(huán)境與地位。另外,社交網(wǎng)絡(luò)也可以緩解信息不對(duì)稱問(wèn)題,對(duì)手機(jī)用戶行為產(chǎn)生“聲譽(yù)約束”的影響。
2.1.3行為偏好數(shù)據(jù)
手機(jī)用戶的上網(wǎng)行為可以有兩種方式獲取。一是通過(guò)電信運(yùn)營(yíng)商自身經(jīng)營(yíng)的網(wǎng)站日志進(jìn)行挖掘。如中國(guó)電信的“號(hào)碼百事通”網(wǎng)站上有旅游、團(tuán)購(gòu)、演出、購(gòu)物、民生信息查詢,以及水電、有線費(fèi)支付等模塊,手機(jī)用戶登錄該網(wǎng)站瀏覽及進(jìn)行購(gòu)物消費(fèi),其行為數(shù)據(jù)可以在網(wǎng)站日志中留下記錄。二是通過(guò)手機(jī)上網(wǎng)的信令分析。與前者網(wǎng)站日志分析不同,這部分行為數(shù)據(jù)的收集過(guò)程比較復(fù)雜,目前主要是進(jìn)行Gb口信令分析。常用Wireshark和Compass等信令解碼分析系統(tǒng),對(duì)采集到的Gb口信令數(shù)據(jù)進(jìn)行解碼翻譯,并且對(duì)訪問(wèn)的網(wǎng)站域名或通過(guò)文本和圖片分析對(duì)用戶所訪問(wèn)的網(wǎng)頁(yè)內(nèi)容進(jìn)行識(shí)別,最終實(shí)現(xiàn)上網(wǎng)行為的分析。手機(jī)用戶GPRS上網(wǎng)流程經(jīng)過(guò)5個(gè)步驟,分別是附著過(guò)程、PDP激活、WAP連接、數(shù)據(jù)傳輸與釋放連續(xù)。Gb口信令采集主要在于“WAP連接階段”,上網(wǎng)信令數(shù)據(jù)獲取的方法包括:分類采集、交換機(jī)端口鏡像采集等。手機(jī)用戶上網(wǎng)涉及的數(shù)據(jù)有:開始上網(wǎng)時(shí)間(也稱上線時(shí)間)、結(jié)束上網(wǎng)時(shí)間(下線時(shí)間)、用戶上線所在小區(qū)、所瀏覽的網(wǎng)站類型、瀏覽網(wǎng)站所傳輸?shù)牧髁康取?div style="height:15px;">
同時(shí),利用通信基站定位技術(shù),在用戶允許的條件下,可以記錄查詢用戶的位置與活動(dòng)軌跡。
2.1.4其它異常數(shù)據(jù)
例如:在手機(jī)實(shí)名制下,某用戶擁有多個(gè)手機(jī)號(hào)碼(10部以上),或者較短時(shí)間內(nèi)頻繁地更換手機(jī)號(hào),以及話費(fèi)欠繳,為了區(qū)分無(wú)意欠繳,要重點(diǎn)關(guān)注話費(fèi)欠繳累計(jì)逾期次數(shù)和最長(zhǎng)逾期記錄。
當(dāng)然,用戶畫像的數(shù)據(jù)可根據(jù)應(yīng)用場(chǎng)景的需求,進(jìn)一步進(jìn)行衍生組合。例如,對(duì)于某手機(jī)用戶的社交網(wǎng)絡(luò),可以在(2.1.2)項(xiàng)中分析出關(guān)系穩(wěn)定而且親密的網(wǎng)絡(luò)成員(intimate relationship)的基礎(chǔ)上,進(jìn)一步分析這些成員的(2.1.1)項(xiàng)中的年齡結(jié)構(gòu)和套餐、(2.1.3)項(xiàng)中的上網(wǎng)行為等,特別是結(jié)合(2.1.4)項(xiàng)中有極個(gè)別聯(lián)系的成員異常情況,已成為偵察破案發(fā)現(xiàn)線索的主要渠道之一。
2.2MPP+Hadoop大數(shù)據(jù)技術(shù)框架
用戶畫像不是全息的,而且大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大但往往價(jià)值稀疏,所以,要從海量數(shù)據(jù)中挖掘有價(jià)值的特征屬性,前提是設(shè)計(jì)提供性價(jià)比可以接受的大數(shù)據(jù)技術(shù)解決方案。
類似于經(jīng)濟(jì)學(xué)中的現(xiàn)象,曾經(jīng)有個(gè)“三元悖論”一直困擾著數(shù)據(jù)存儲(chǔ)與查詢分析的資源協(xié)調(diào)與管理,也就是說(shuō),由于自身屬性特點(diǎn),Hadoop和MPP目前只能滿足以下的兩項(xiàng)功能,而不能滿足全部要求。具體來(lái)說(shuō),數(shù)據(jù)分析主要實(shí)現(xiàn)以下目標(biāo):
(1)實(shí)時(shí)。在這方面,單節(jié)點(diǎn)執(zhí)行系統(tǒng)具有明顯優(yōu)勢(shì),這方面MPP表現(xiàn)突出,其他方式會(huì)一定程度上弱化實(shí)時(shí)性能。雖然新近出現(xiàn)的spark技術(shù)幫助hadoop提高了實(shí)時(shí)性能,但實(shí)施成本過(guò)高,相關(guān)技術(shù)有待進(jìn)一步的成熟完善。
(2)可擴(kuò)展,即要按數(shù)據(jù)量的增加而擴(kuò)容。MPP擴(kuò)容到一定程度后因傳輸?shù)纫蛩貙?huì)受到限制,而Hadoop的Mapreduce在此方面表現(xiàn)較好。
(3)對(duì)數(shù)據(jù)復(fù)雜查詢與復(fù)雜分析的處理能力。Hadoop和MPP均可以通過(guò)算法實(shí)現(xiàn)此功能,但會(huì)有難易與熟練程度上的差別。
圖1:運(yùn)營(yíng)商“MPP+HADOOP”大數(shù)據(jù)技術(shù)框架
電信運(yùn)營(yíng)商運(yùn)用的“MPP+Hadoop”混搭模式可以較好地解決這一問(wèn)題(所圖1所示)。其中,MPP主要針對(duì)BSS 域(業(yè)務(wù)支撐系統(tǒng))的相關(guān)數(shù)據(jù)以及部分的OSS 域(網(wǎng)管支撐系統(tǒng))數(shù)據(jù),主要包括用戶身份信息、費(fèi)用賬單、欠費(fèi)信息、套餐信息、登記住址以及接入網(wǎng)絡(luò)類型、用戶終端類型等具有準(zhǔn)確性和實(shí)時(shí)性要求的數(shù)據(jù)信息。Hadoop主要針對(duì)MSS 域(管理支撐系統(tǒng))、NSS 域(網(wǎng)絡(luò)安全系統(tǒng))以及部分OSS 域(網(wǎng)管支撐系統(tǒng))的數(shù)據(jù),主要包括活動(dòng)位置軌跡、上下線時(shí)間、通信時(shí)長(zhǎng)、次數(shù)、訪問(wèn)應(yīng)用時(shí)間、上網(wǎng)偏好、投訴信息、用戶感知狀態(tài)、社交網(wǎng)絡(luò)、安全威脅情報(bào)等。
◆ ◆ ◆
3.用戶畫像在征信方面的應(yīng)用實(shí)例
2015年3月中國(guó)聯(lián)通與招商銀行下屬的永隆銀行出資組建了招聯(lián)消費(fèi)金融公司,積極開展互聯(lián)網(wǎng)消費(fèi)金融業(yè)務(wù)。這種消費(fèi)金融業(yè)務(wù)由于具有無(wú)擔(dān)保、無(wú)抵押的特點(diǎn),可以采取相對(duì)靈活的信貸政策,進(jìn)而擴(kuò)大了信貸范圍,但也面臨著一定的風(fēng)險(xiǎn)。為提高履約水平,電信運(yùn)營(yíng)商有必要從用戶畫像角度對(duì)個(gè)人消費(fèi)信貸進(jìn)行征信管理。
個(gè)人信用評(píng)價(jià)實(shí)質(zhì)是一個(gè)類別識(shí)別問(wèn)題。由于個(gè)人征信的基本過(guò)程,是將分散于不同來(lái)源的局部信息,整合成為可以完整描述消費(fèi)者信用狀況,因此電信運(yùn)營(yíng)商的用戶畫像方法同樣適用于個(gè)人信用測(cè)評(píng)(如圖2所示)
圖2:手機(jī)用戶畫像在個(gè)人征信中的應(yīng)用流程
可以這樣理解,所謂用戶畫像的應(yīng)用,是根據(jù)情景需要對(duì)用戶標(biāo)簽的再歸并組合以及對(duì)標(biāo)簽重要性重新排序的過(guò)程。一般以為,用戶畫像的樣本可以從銀行個(gè)人信貸的記錄中進(jìn)行篩選,但這種對(duì)已發(fā)放貸款的回收情況來(lái)進(jìn)行邏輯判別,實(shí)質(zhì)上會(huì)陷入“先驗(yàn)性誤導(dǎo)”中。因?yàn)椋x取的有貸款業(yè)務(wù)的用戶已經(jīng)被銀行風(fēng)控部門進(jìn)行了必要的審查和篩選,由此發(fā)生的信貸逾期呆壞賬,是基于貸前審核通過(guò)后的樣本,不是真正的完整的初審樣本。這里,我們以人民銀行安徽省分行為例,對(duì)省內(nèi)部分申請(qǐng)貸款的個(gè)人用戶進(jìn)行實(shí)證分析。首先,選取3525個(gè)申請(qǐng)個(gè)人貸款的手機(jī)用戶為樣本,運(yùn)用兩種方法進(jìn)行信用評(píng)價(jià),其中,一種方法是銀行根據(jù)現(xiàn)有的申請(qǐng)人的審核資料進(jìn)行征信,另一種方法是通過(guò)手機(jī)用戶畫像的方法進(jìn)行征信。具體步驟如下:
3.1先由銀行風(fēng)險(xiǎn)管控部門人員根據(jù)銀行自身的信用評(píng)級(jí)標(biāo)準(zhǔn)(層次分析法,簡(jiǎn)稱AHP法)對(duì)所有樣本進(jìn)行打分;具體指標(biāo)如表2所示。一般分為9級(jí),為了進(jìn)一步簡(jiǎn)化區(qū)分,我們以銀行最終放貸決定為依據(jù),將樣本分為“可予授信”樣本和“不予授信”樣本兩種。(當(dāng)然,可授信樣本中也不能保證以后就不發(fā)生呆壞賬,一定程度的小額壞賬率也是銀行業(yè)務(wù)中的正?,F(xiàn)象)。
表2:銀行傳統(tǒng)APH法的個(gè)人信用評(píng)價(jià)指標(biāo)
個(gè)人信息
① 年齡、②工作崗位、③性別、④學(xué)歷、⑤健康狀況等
收入水平
① 個(gè)人年收入、②家庭年收入等
財(cái)產(chǎn)情況
① 住房、②存款、③其他資產(chǎn)等
支出情況
① 贍養(yǎng)人口、②債務(wù)負(fù)擔(dān)等
個(gè)人信用歷史
① 違法違紀(jì)情況、②信用違約記錄等
3.2根據(jù)征信應(yīng)用的情景需求,將手機(jī)用戶畫像的量化具體指標(biāo)進(jìn)行重新歸并與組合,如表3所示。
表3:基于應(yīng)用需求的手機(jī)用戶畫像指標(biāo)歸并與組合
應(yīng)用需求
指標(biāo)組合與歸并
個(gè)人信息是否真實(shí)
年齡與行為特征匹配(0,1兩檔)、手機(jī)號(hào)與地區(qū)符合(0,1兩檔)、社會(huì)交往正常(0,1兩檔)等
個(gè)人經(jīng)濟(jì)狀況
終端類別(1-5檔)、套餐類型(1-3檔)、近期用戶ARPU值(1-5檔)等
信用狀況與環(huán)境
雙停時(shí)長(zhǎng)與頻數(shù)(1-3檔)、社交網(wǎng)絡(luò)ARPU均值等(1-5檔)等
…
……
3.3將所有樣本進(jìn)一步分為兩部分,一部分為測(cè)試集,樣本數(shù)占60%;另一部分為檢驗(yàn)集,樣本數(shù)占40%,并讓這兩個(gè)樣本集中的可授信和不可授信樣本占有相同比率。
3.4以銀行傳統(tǒng)評(píng)級(jí)結(jié)果為依據(jù),運(yùn)用監(jiān)督學(xué)習(xí)算法中的支持分量機(jī),對(duì)測(cè)試樣本中的手機(jī)用戶畫像特征進(jìn)行維度約簡(jiǎn),找出關(guān)鍵屬性值組合。在分類過(guò)程中,變量多所獲得的信息也相對(duì)多,其判斷正確性也將會(huì)比較高。但是變量多,代表著收集樣本的成本和時(shí)間增加,最好的方法是能以較少的變量,卻能獲得不錯(cuò)的判斷正確性。在個(gè)人征信中有效的用戶畫像指標(biāo)如表4所示(由于條件限制,沒(méi)有實(shí)施手機(jī)用戶上網(wǎng)行為數(shù)據(jù)的采集與分析)。
表4:用戶畫像指標(biāo)在個(gè)人征信中的有效性
用戶畫像信息
考量標(biāo)簽
對(duì)個(gè)人信用評(píng)測(cè)有無(wú)影響
還款能力
還款意愿
欺詐識(shí)別
身份證信息
身份驗(yàn)證
T
T
T
手機(jī)號(hào)碼
身份驗(yàn)證
F
F
T
常駐地址
身份驗(yàn)證、行為軌跡
T
T
T
套餐信息
身份驗(yàn)證、行為軌跡
T
F
F
終端類別
身份驗(yàn)證
T
F
F
增值業(yè)務(wù)訂購(gòu)
行為軌跡
T
F
F
主被叫時(shí)長(zhǎng)
行為軌跡、社交網(wǎng)絡(luò)
F
T
T
對(duì)端號(hào)碼
行為軌跡、社交網(wǎng)絡(luò)
F
T
T
關(guān)系久密成員的人均ARPU值
身份驗(yàn)證、社交網(wǎng)絡(luò)
T
T
T
手機(jī)欠費(fèi)記錄
其他異常
T
T
T
……
……
… ..
……
……
注:T表示有影響,F(xiàn)表示無(wú)影響
3.5按上述得到的手機(jī)用戶畫像的屬性值組合,對(duì)檢驗(yàn)樣本進(jìn)行分類,并將分類結(jié)果與傳統(tǒng)的銀行AHP法進(jìn)行對(duì)比,符合率達(dá)到94.35%,效果基本達(dá)標(biāo)(如表5所示)。
尤其需要注意的是,手機(jī)用戶畫像法的可予授信樣本數(shù)小于銀行傳統(tǒng)方法的可予授信數(shù),說(shuō)明該方法授信標(biāo)準(zhǔn)更嚴(yán),更趨保守,具有較好的穩(wěn)健性。從中可以發(fā)現(xiàn),運(yùn)用手機(jī)用戶畫像的方式進(jìn)行征信在“薄信息”狀態(tài)下,具有較高的有效性。當(dāng)然,在“厚信息”情景中,也具有一定的信息補(bǔ)充功能,綜合利用效果更佳。
表5:兩種方法的結(jié)果對(duì)比
可予授信
不予授信
有效性
銀行傳統(tǒng)APH法
1182
228
94.35%
手機(jī)用戶畫像法
1117
293
◆ ◆ ◆
4.結(jié)束語(yǔ)
在“互聯(lián)網(wǎng)+”的背景下,大數(shù)據(jù)技術(shù)在電信運(yùn)營(yíng)商的業(yè)務(wù)應(yīng)用領(lǐng)域?qū)⒉粩嗤卣梗悄苁謾C(jī)技術(shù)和功能的不斷推陳出新,進(jìn)一步觸發(fā)了消費(fèi)模式的轉(zhuǎn)變、產(chǎn)業(yè)鏈的開放和更大范圍的數(shù)據(jù)融合。在妥善解決個(gè)人信息安全與隱私保護(hù)的前提下,以客戶為中心的手機(jī)用戶畫像研究,有利于運(yùn)營(yíng)商充分利用現(xiàn)有的數(shù)據(jù)資源,有效實(shí)現(xiàn)精準(zhǔn)營(yíng)銷和個(gè)性化服務(wù),同時(shí)在個(gè)人征信方面也可實(shí)施有益的探索與實(shí)踐。
作者簡(jiǎn)介
丁偉,高級(jí)工程師,博士,主要從事投資規(guī)劃和大數(shù)據(jù)分析工作;王題,高級(jí)工程師,碩士,主要從事通信網(wǎng)咨詢規(guī)劃設(shè)計(jì)工作;劉新海,副研究員,博士,主要從事信用風(fēng)險(xiǎn)管理、大數(shù)據(jù)和互聯(lián)網(wǎng)金融。韓涵,助理研究員,博士,主要從事智慧城市、應(yīng)急通信和大數(shù)據(jù)分析工作。
◆ ◆ ◆
參考文獻(xiàn)
[1]胡坤.劉明輝.宮雪.劉鏑.電信運(yùn)營(yíng)商應(yīng)用數(shù)據(jù)的安全管控與隱私保護(hù)研究[J].信息通信技術(shù),2013(6)
[2]喬宏明.梁奐.運(yùn)營(yíng)商面向大數(shù)據(jù)應(yīng)用的數(shù)據(jù)脫敏方法探討[J].移動(dòng)通信,2015(13)
[3]李景文.宮大鵬.王睿.蘇雷.陳寧江.基于Hadoop的OSS域數(shù)據(jù)建模與采集方法研究[J].電信科學(xué),2015,(1)
[4]辛晃.易興輝.陳震宇.基于Hadoop+MPP架構(gòu)的電信運(yùn)營(yíng)商網(wǎng)絡(luò)數(shù)據(jù)共享平臺(tái)研究[J].電信科學(xué),2014,(4)
[5]陳清金.張巖.陳存香.云計(jì)算環(huán)境下的大數(shù)據(jù)分析[J].郵電設(shè)計(jì)技術(shù),2015(5)
[6]魏進(jìn)武.靳淑嫻.張基恒.李衛(wèi). 大數(shù)據(jù)關(guān)鍵技術(shù)及運(yùn)營(yíng)商落地建議[J]. 郵電設(shè)計(jì)技術(shù),2015(5)
[7]張雄.基于Gb 口信令分析的手機(jī)客戶上網(wǎng)行為的應(yīng)用研究[D].廣州:華南理工大學(xué),2012
[8]張慷.手機(jī)用戶畫像在大數(shù)據(jù)平臺(tái)的實(shí)現(xiàn)方案[J],信息通信,2014(2)
[9]龐然. WAP日志挖掘的研究及應(yīng)用[D].北京:北京郵電大學(xué),2008
[10]陳波.征信系統(tǒng)中基于迭代SVM的自動(dòng)相似記錄匹配方法[J].金融電子化2010(4)
[11]代亮.許宏科.陳婷.錢超.梁殿鵬.基于MapReduce的最小二乘支持向量機(jī)回歸模型[J].計(jì)算機(jī)應(yīng)用研究.2015(8)
[12]劉新海.丁偉.美國(guó)ZestFinance公司大數(shù)據(jù)征信實(shí)踐[J].征信,2015(8)
[13]趙華.金鐸.徐雄.電信運(yùn)營(yíng)商開展互聯(lián)網(wǎng)金融業(yè)務(wù)探討[J].廣東通信技術(shù),2014(10)
[14]林清泉.張建龍.楊豐.中國(guó)信用體系建設(shè)中的個(gè)人信用模糊評(píng)估[J].山西財(cái)經(jīng)大學(xué)學(xué)報(bào),2007(2)
[15]余曉平.裴韜.手機(jī)通話網(wǎng)絡(luò)度特征分析[J].物理學(xué)報(bào),2013(20)
[16]張玉才.宋新平.羅瑜. 基于模糊支持向量機(jī)的客戶信用評(píng)估研究[J].統(tǒng)計(jì)與決策,2008(7)
[17]徐金壘.方志祥.蕭世倫.尹淩.城市海量手機(jī)用戶停留時(shí)空分異分析[J].地球信息科學(xué)學(xué)報(bào),2015(2)
[18]How to conquer ‘big data’ with MapReduce& MPP. http://venturebeat.com/2013/03/19/ how-to-conquer-big-data-with-mapreduce-mpp/
[19]Big data debate: will HBase dominate NoSQL.http://www.informationweek.com/ software/enterprise applications/big data debate will hbase dominate nosq/240159475
[20]C. Dwork, F. McSherry, K. Nissim and et al..Calibrating noise to sensitivity in private data analysis. Theory of Cryptography, 2006:265~284.