作者 CDA 數(shù)據(jù)分析師
背景
劉路老師之前主要是做政府?dāng)?shù)據(jù)分析,目前主要服務(wù)企業(yè)。他認(rèn)為政府和企業(yè)的數(shù)據(jù)分析沒有本質(zhì)區(qū)別,都是有目的的進(jìn)行收集、整理、加工和分析數(shù)據(jù),提煉有價(jià)值信息的過程,都是為決策提供依據(jù)。政府?dāng)?shù)據(jù)分析的工作目標(biāo)為其職能服務(wù),提高工作效率,保障工作成果,不以盈利為目的。而企業(yè)的數(shù)據(jù)分析無論是哪個(gè)部門,最終都會落在企業(yè)的營收上。企業(yè)數(shù)據(jù)在保證數(shù)據(jù)源基礎(chǔ)上,最主要是要“走出去”,去一線與客戶直接交流,了解并思考業(yè)務(wù)和需求,而不是一直待在“后方”。
紀(jì)實(shí)
一、用戶畫像是什么?
“用戶畫像”并不是最近才出現(xiàn)的,只是近幾年談得比較多。對用戶進(jìn)行畫像分析就是將用戶信息標(biāo)簽化的過程,打標(biāo)簽是為了幫助理解且方便計(jì)算機(jī)處理。除了分析數(shù)據(jù)源,“用戶畫像”最關(guān)鍵的是根據(jù)用戶行為及數(shù)據(jù),構(gòu)建模型產(chǎn)出標(biāo)簽、權(quán)重。簡單的說,就是要設(shè)計(jì)標(biāo)簽體系,并規(guī)定符合該行為的人對應(yīng)的標(biāo)簽。如“性別”標(biāo)簽,為什么會出現(xiàn)基本屬性“男”,而購物偏好性別計(jì)算顯示“女”?原因在于直接通過用戶填寫的信息獲取的是基本屬性,而“網(wǎng)絡(luò)行為性別”是建模計(jì)算出來的,經(jīng)常在網(wǎng)絡(luò)上購買女性喜愛的禮物會被系統(tǒng)判定成“女”,我們猜測這個(gè)人可能是暖男。
二、用戶畫像準(zhǔn)確嗎?
現(xiàn)在做用戶畫像的公司有很多,雖然每家都有建模,但是數(shù)據(jù)源不一樣,模型也不一樣。就我了解的對于用戶消費(fèi)偏好“電商”這個(gè)標(biāo)簽,有的公司是根據(jù)用戶的購物記錄來分析的;有的公司拿不到購物記錄但是有瀏覽記錄,他們的算法是最近多少天瀏覽過多少次電商網(wǎng)站;還有的是根據(jù)用戶手機(jī)上相關(guān)APP的使用行為來判斷的。
而判斷用戶畫像的準(zhǔn)確性,目前主要有兩種:
(1)一種是從個(gè)性化與垂直領(lǐng)域切入細(xì)分化市場,接觸到的用戶數(shù)量和層級有限,得到的是某領(lǐng)域的一方數(shù)據(jù),用戶畫像得到的是用戶某一形態(tài)下的單一畫像,其精準(zhǔn)度和完善度也很難保證。
(2)另一種是積累了各渠道多樣化的數(shù)據(jù)來進(jìn)行用戶畫像,動輒覆蓋數(shù)億用戶,標(biāo)簽維度幾千幾萬,這樣的畫像也不見得好,全而不精。
而我現(xiàn)在做的以及建議的方式介乎兩者之間,標(biāo)簽有基本屬性等通用維度,如果有具體行業(yè)的需求,比如汽車行業(yè)的用戶,我們會在庫里面把他的用戶找一批出來進(jìn)行畫像,再以此找到目標(biāo)群體。至于準(zhǔn)確性,我們會有正負(fù)樣本來交叉驗(yàn)證,依據(jù)人物畫像進(jìn)行營銷活動后,會拿多次反饋數(shù)據(jù)來驗(yàn)證量化畫像的結(jié)果。
三、數(shù)據(jù)源如何保證真實(shí)可靠?
數(shù)據(jù)源要真實(shí)全面,但不是數(shù)據(jù)越多越好,不能期望對收集到的所有數(shù)據(jù)進(jìn)行分析,或者希望所有標(biāo)簽都能由數(shù)據(jù)算出來。用戶畫像的數(shù)據(jù)源根據(jù)每家公司的業(yè)務(wù)和資源情況,獲取的數(shù)量、質(zhì)量與范圍都不一樣。就像我上面提到的,同一個(gè)消費(fèi)偏好“電商”的標(biāo)簽,每家的數(shù)據(jù)和算法就不一樣。
要保證數(shù)據(jù)源的真實(shí)性,首先對所收集整理數(shù)據(jù)的真實(shí)性和可信度進(jìn)行嚴(yán)格的監(jiān)測和細(xì)致的過濾。比如有的直播網(wǎng)站的某場直播的觀眾人數(shù)竟然比全中國人口數(shù)還多,那顯然就是不靠譜的。然后是嚴(yán)格鑒別數(shù)據(jù)的出處和來源,正確識別并剔除掉虛假甚至惡意數(shù)據(jù)信息,真正收集整理出真實(shí)有用的數(shù)據(jù)信息。比如電影評分,不少影片是有水軍來刷分的,這部分ID的數(shù)據(jù)就應(yīng)該識別并剔除掉。
另外有人會問到水軍及僵尸粉,我們公司產(chǎn)品“粉絲鏡”里有水軍識別模型,通過用戶行為和賬號信息等綜合來判斷。之前我給某部電影做過傳播分析,他們花錢在微博上推廣,數(shù)據(jù)看上去很美,轉(zhuǎn)發(fā)和評論超多,而且還有大V加入造勢,后來我分析傳播鏈條,發(fā)現(xiàn)絕大部分都是一級轉(zhuǎn)發(fā),沒有帶動任何后續(xù)傳播,且大部分賬號都是沒頭像的名字規(guī)律的小號。數(shù)據(jù)可視化后,水軍傳播圖就是一個(gè)個(gè)整整齊齊的等腰三角形,而自然的熱帖傳播圖應(yīng)該是不規(guī)律的長尾彗星狀,有經(jīng)驗(yàn)的人一眼就能看出差異。
(購買水軍及僵尸粉產(chǎn)品示意圖)
(正常情況推廣示意圖)
在識別水軍和僵尸粉的算法上,一方面是比對賬號的注冊信息、發(fā)帖內(nèi)容,另外一方面是用戶行為,如作息時(shí)間、操作行為等。如果有幾百個(gè)賬號每天都是同一時(shí)間上線下線,發(fā)的內(nèi)容雷同,然后互相之間互動簡單,差不多就可以判斷是同一批機(jī)器托管的賬號。除了判斷是否水軍及僵尸粉,我們還可以根據(jù)社交關(guān)系和行為模型,把相似賬號順藤摸瓜給找出來。我做過一個(gè)思潮分析的項(xiàng)目,剛開始本來只是簡單分析現(xiàn)階段有哪些意識流派,每派的觀點(diǎn)及意見領(lǐng)袖。后來發(fā)現(xiàn)自媒體平臺上經(jīng)常有不同流派的罵戰(zhàn),而且反應(yīng)迅速、精力充沛、有組織有紀(jì)律,進(jìn)一步分析后發(fā)現(xiàn)大部分賬號都是偽裝得比較巧妙的機(jī)器人賬號,看來他們不光是思維的碰撞,還有技術(shù)的較量。至于境內(nèi)外不同團(tuán)體不同國家不同使命的機(jī)器人賬號也是有的,在他們面前,這些買買僵尸粉,刷刷評分的水軍就是小兒科了。
四、用戶畫像的數(shù)據(jù)分析如何評估?如何影響決策?
因?yàn)槊考业臄?shù)據(jù)分析方法都不一樣,用戶畫像本身是工作中的一個(gè)輔助工具,所以做單純的評估其實(shí)沒有太大意義。
至于哪幾個(gè)要素決定最后的營銷決策,這個(gè)要看具體場景。我們服務(wù)過很多精準(zhǔn)營銷的客戶,有的偏重“地域”,有的偏重“年齡”,還有的偏重“消費(fèi)能力”。比如剛才我提到的兩個(gè)性別標(biāo)簽,用戶可能會隨意填寫性別,但是購物偏好性別對商家來說更重要。而對于征信來說,驗(yàn)證基本性別屬性是否一致就更重要。
如何最大化發(fā)揮用戶畫像分析結(jié)果對決策產(chǎn)生的影響?這是個(gè)最重要的問題。這幾年目前號稱能做用戶畫像的公司很多,魚龍混雜,數(shù)據(jù)質(zhì)量和技術(shù)能力參差不齊。我聽過不少客戶說,花了一大筆錢建設(shè)用戶畫像系統(tǒng)結(jié)果用不起來,或者花錢買了份用戶畫像的報(bào)告,看上去像那么回事與自己想的也差不多,看完也就看完了,對工作好像也沒啥幫助。這樣的情況越來越多,讓不少客戶開始覺得用戶畫像沒啥用,甚至懷疑大數(shù)據(jù)是不是看上去很美就是講故事的?
我能理解客戶的心情,如果我們?nèi)ズ涂蛻粽剶?shù)據(jù)多全,技術(shù)多厲害,分析模型多準(zhǔn)確,他們不是很感興趣,更關(guān)心這個(gè)用戶畫像對自己的業(yè)務(wù)幫助有多大。以前沒用戶畫像的時(shí)候,他們是自己和下游對接業(yè)務(wù)。有了用戶畫像后,相當(dāng)于中間多了個(gè)環(huán)節(jié),怎樣和下游把用戶畫像用起來能更好地服務(wù)于決策,不是所有客戶都懂,所以光理解客戶的業(yè)務(wù)還不夠,還要幫他用起來,才能更大地發(fā)揮用戶畫像的價(jià)值。
五、用戶畫像的發(fā)展將面臨什么問題?
用戶畫像是數(shù)據(jù)分析的一個(gè)應(yīng)用,這幾年其實(shí)用戶畫像已經(jīng)被炒得很火了,我并不認(rèn)為它還會持續(xù)成為方向和趨勢,對于企業(yè)來說用戶分析一直有,不過現(xiàn)在是用大數(shù)據(jù)的技術(shù)手段來分析,起了個(gè)“用戶畫像”的名字。但數(shù)據(jù)分析會越來越重要,將來的趨勢可能在機(jī)器學(xué)習(xí)模型領(lǐng)域。
用戶畫像的數(shù)據(jù)準(zhǔn)不準(zhǔn),算法是不是正確,我覺得這些都不是問題,主要困難還是如何結(jié)合業(yè)務(wù)的應(yīng)用。如培訓(xùn)機(jī)構(gòu)的用戶畫像,用戶畫像顯示目標(biāo)用戶是6到18歲,對球類運(yùn)動感興趣,家住中高檔小區(qū)的人群??蛻敉耆J(rèn)同這個(gè)結(jié)果,但是如何找到這些人?這就要求除了提供分析以外,還要能精準(zhǔn)觸達(dá)他的目標(biāo)用戶,讓他看到用戶畫像相對于之前盲目投放廣告的成本比例。所以除了做用戶畫像,還要有配套的應(yīng)用及平臺將其價(jià)值發(fā)揮出來,我們現(xiàn)在整合了各類媒體資源、電話短信等觸達(dá)方式,還開發(fā)了精準(zhǔn)投放模型等來最大化發(fā)揮用戶畫像的價(jià)值。技術(shù)最終還是要服務(wù)于業(yè)務(wù)的,業(yè)務(wù)如果能廣泛開展,也能促進(jìn)技術(shù)的進(jìn)步。
人物介紹
中國人民大學(xué)情報(bào)學(xué)碩士,東方國信大數(shù)據(jù)運(yùn)營事業(yè)部產(chǎn)品總監(jiān)。曾任蟻坊軟件股份有限公司北京分公司總經(jīng)理、百分點(diǎn)高級產(chǎn)品經(jīng)理、某985大學(xué)海量數(shù)據(jù)處理工程研究中心的分析師,長期從事大數(shù)據(jù)分析及產(chǎn)品設(shè)計(jì)工作,具有豐富的政府輿情監(jiān)測與引導(dǎo)、企業(yè)大數(shù)據(jù)應(yīng)用的實(shí)戰(zhàn)經(jīng)驗(yàn)。長期參與多家部委的網(wǎng)絡(luò)輿情解決方案和分析報(bào)告,曾參與并指導(dǎo)多家著名企業(yè)開展口碑監(jiān)測、網(wǎng)絡(luò)推廣、市場研究、情報(bào)管理等工作。著有《如何應(yīng)對輿情危機(jī)?新媒體時(shí)代的企業(yè)生存之道》、《輿情之劍》等書。
▼
聯(lián)系客服