中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
用戶畫像原理、技術選型及架構實現

這篇文章在宏觀上很好地描述了用戶畫像的主要內容。(文章內的圖片來源于不同帖子,侵刪)

一、 什么是用戶畫像

        用戶畫像是指根據用戶的屬性、偏好、生活習慣、行為等信息,抽象出來的標簽化用戶模型。通俗說就是給用戶打標簽,而標簽是通過對用戶信息分析而來的高度精煉的特征標識。通過打標簽可以利用一些高度概括、容易理解的特征來描述用戶,可以讓人更容易理解用戶,并且可以方便計算機處理。

用戶畫像是對現實世界中用戶的建模,用戶畫像包含目標,方式,組織,標準,驗證這5個方面。

目標:指的是描述人,認識人,了解人,理解人。

方式:分為非形式化手段,如使用文字、語言、圖像、視頻等方式描述人;形式化手段,即使用數據的方式來刻畫人物的畫像。

組織:指的是結構化、非結構化的組織形式。

標準:指的是使用常識、共識、知識體系的漸進過程來刻畫人物,認識了解用戶。

驗證:依據側重說明了用戶畫像應該來源事實、經得起推理和檢驗。

        在產品早期和發(fā)展期,會較多地借助用戶畫像,幫助產品人員理解用戶的需求,想象用戶使用的場景,產品設計從為所有人做產品變成為三四個人做產品,間接的降低復雜度。

二、 用戶畫像的作用

在互聯(lián)網、電商領域用戶畫像常用來作為精準營銷、推薦系統(tǒng)的基礎性工作,其作用總體包括:

(1)精準營銷:根據歷史用戶特征,分析產品的潛在用戶和用戶的潛在需求,針對特定群體,利用短信、郵件等方式進行營銷。

(2)用戶統(tǒng)計:根據用戶的屬性、行為特征對用戶進行分類后,統(tǒng)計不同特征下的用戶數量、分布;分析不同用戶畫像群體的分布特征。

(3)數據挖掘:以用戶畫像為基礎構建推薦系統(tǒng)、搜索引擎、廣告投放系統(tǒng),提升服務精準度。

(4)服務產品:對產品進行用戶畫像,對產品進行受眾分析,更透徹地理解用戶使用產品的心理動機和行為習慣,完善產品運營,提升服務質量。

(5)行業(yè)報告&用戶研究:通過用戶畫像分析可以了解行業(yè)動態(tài),比如人群消費習慣、消費偏好分析、不同地域品類消費差異分析

        根據用戶畫像的作用可以看出,用戶畫像的使用場景較多,用戶畫像可以用來挖掘用戶興趣、偏好、人口統(tǒng)計學特征,主要目的是提升營銷精準度、推薦匹配度,終極目的是提升產品服務,起到提升企業(yè)利潤。用戶畫像適合于各個產品周期:從新用戶的引流到潛在用戶的挖掘、從老用戶的培養(yǎng)到流失用戶的回流等。

        總結來說,用戶畫像必須從實際業(yè)務場景出發(fā),解決實際的業(yè)務問題,之所以進行用戶畫像,要么是獲取新用戶,要么是提升用戶體驗、或者挽回流失用戶等具有明確的業(yè)務目標。

        另外關于用戶畫像數據維度的問題,并不是說數據維度越豐富越好,總之,畫像維度的設計同樣需要緊跟業(yè)務實際情況進行開展。

 三、 用戶畫像的分類

        從畫像方法來說,可以分為定性畫像、定性+定量畫像、定量畫像

        從應用角度來看,可以分為行為畫像、健康畫像、企業(yè)信用畫像、個人信用畫像、靜態(tài)產品畫像、旋轉設備畫像、社會畫像和經濟畫像等。

四、 用戶畫像需要用到哪些數據

        一般來說,根據具體的業(yè)務內容,會有不同的數據,不同的業(yè)務目標,也會使用不同的數據。在互聯(lián)網領域,用戶畫像數據可以包括以下內容:

(1)人口屬性:包括性別、年齡等人的基本信息

(2)興趣特征:瀏覽內容、收藏內容、閱讀咨詢、購買物品偏好等

(3)消費特征:與消費相關的特征

(4)位置特征:用戶所處城市、所處居住區(qū)域、用戶移動軌跡等

(5)設備屬性:使用的終端特征等

(6)行為數據:訪問時間、瀏覽路徑等用戶在網站的行為日志數據

(7)社交數據:用戶社交相關數據

        用戶畫像數據來源廣泛,這些數據是全方位了解用戶的基礎,這里以Qunar的畫像為例,其畫像數據主要維度如下所示,包括用戶RFM信息、航線信息等。

        Qunar的畫像數據倉庫構建都是基于Qunar基礎數據倉庫構建,然后按照維度進行劃分。

五、 用戶畫像主要應用場景

a)用戶屬性

b)用戶標簽畫像

c)用戶偏好畫像

d)用戶流失

e)用戶行為

f)產品設計

g) 個性化推薦、廣告系統(tǒng)、活動營銷、內容推薦、興趣偏好

六、 用戶畫像使用的技術方法

七、 用戶畫像標簽體系的建立

1、什么是標簽體系

        用戶畫像是對現實用戶做的一個數學模型,在整個數學模型中,核心是怎么描述業(yè)務知識體系,而這個業(yè)務知識體系就是本體論,本體論很復雜,我們找到一個特別樸素的實現,就是標簽。

        標簽是某一種用戶特征的符號表示。是一種內容組織方式,是一種關聯(lián)性很強的關鍵字,能方便的幫助我們找到合適的內容及內容分類。(注:簡單說,就是你把用戶分到多少個類別里面去,這些類是什么,彼此之間有什么關系,就構成了標簽體系

        標簽解決的是描述(或命名)問題,但在實際應用中,還需要解決數據之間的關聯(lián),所以通常將標簽作為一個體系來設計,以解決數據之間的關聯(lián)問題。

        一般來說,將能關聯(lián)到具體用戶數據的標簽,稱為葉子標簽。對葉子標簽進行分類匯總的標簽,稱為父標簽。父標簽和葉子標簽共同構成標簽體系,但兩者是相對概念。例如:下表中,地市、型號在標簽體系中相對于省份、品牌,是葉子標簽。

一級標簽

二級標簽

三級標簽

四級標簽

 

移動屬性

用戶所在地

省份

地市

手機品牌

品牌

型號

 

 

業(yè)務屬性

 

 

用戶等級

普通

音樂普通會員

音樂高級會員

音樂VIP會員

        用戶畫像標簽體系創(chuàng)建后一般要包含以下幾個方面的內容

(1)標簽分類

        用戶畫像標簽可以分為基礎屬性標簽和行為屬性標簽。

        由于基于一個目標的畫像,其標簽是在動態(tài)擴展的,所以其標簽體系也沒有統(tǒng)一的模板,在大分類上,與自身的業(yè)務特征有很大的關聯(lián),在整體思路上可以從橫縱兩個維度展開思考:橫向是產品內數據和產品外數據,縱向是線上數據和線下數據。而正中間則是永恒不變的“人物基礎屬性”。

        如果說其他的分類因企業(yè)特征而定,那么只有人物特征屬性(至于名字叫什么不重要,關鍵是內涵)是各家企業(yè)不能缺失的板塊。

        所謂人物基礎屬性指的是:用戶客觀的屬性而非用戶自我表達的屬性,也就是描述用戶真實人口屬性的標簽。所謂非“自我表達”,舉例來說,某產品內個人信息有性別一項,用戶填寫為“女”,而通過用戶上傳的身份證號,以及用戶照片,用戶購買的產品,甚至用戶打來的客服電話,都發(fā)現該用戶性別是“男性”。那么在人物基礎屬性中的性別,應該標識的是“男性”,但是用戶信息標簽部分,自我描述的性別則可能標注為女性。

(2)標簽級別(標簽的體系結構)

        分級有兩個層面的含義,其一是:指標到最低層級的涵蓋的層級;其二是指:指標的運算層級。其一非常好理解,這里重點說運算層級。

        標簽從運算層級角度可以分為三層:事實標簽、模型標簽、預測標簽。

        事實標簽:是通過對于原始數據庫的數據進行統(tǒng)計分析而來的,比如用戶投訴次數,是基于用戶一段時間內實際投訴的行為做的統(tǒng)計。

        模型標簽:模型標簽是以事實標簽為基礎,通過構建事實標簽與業(yè)務問題之間的模型,進行模型分析得到。比如,結合用戶實際投訴次數、用戶購買品類、用戶支付的金額等,進行用戶投訴傾向類型的識別,方便客服進行分類處理。

        預測標簽:則是在模型的基礎上做預測,比如針對投訴傾向類型結構的變化,預測平臺輿情風險指數。

(3)標簽命名&賦值

        我們用一張圖來說明一下命名和賦值的差別,只要在構建用戶標簽的過程種,有意識的區(qū)別標簽命名和賦值足矣,不再贅述。

(4)標簽屬性

        標簽屬性可以理解為針對標簽進行的再標注,這一環(huán)節(jié)的工作主要目的是幫助內部理解標簽賦值的來源,進而理解指標的含義。如圖所示,可以總結為5種來源:

1、固有屬性:是指這些指標的賦值體現的是用戶生而有之或者事實存在的,不以外界條件或者自身認知的改變而改變的屬性。比如:性別、年齡、是否生育等。

2、推導屬性:由其他屬性推導而來的屬性,比如星座,我們可以通過用戶的生日推導,比如用戶的品類偏好,則可以通過日常購買來推導。

3、行為屬性:產品內外實際發(fā)生的行為被記錄后形成的賦值,比如用戶的登陸時間,頁面停留時長等。

4、態(tài)度屬性:用戶自我表達的態(tài)度和意愿。比如說我們通過一份問卷向用戶詢問一些問題,并形成標簽,如詢問用戶:是否愿意結婚,是否喜歡某個品牌等。當然在大數據的需求背景下,利用問卷收集用戶標簽的方法效率顯得過低,更多的是利用產品中相關的模塊做了用戶態(tài)度信息收集。

5、測試屬性:測試屬性是指來自用戶的態(tài)度表達,但并不是用戶直接表達的內容,而是通過分析用戶的表達,結構化處理后,得出的測試結論。比如,用戶填答了一系列的態(tài)度問卷,推導出用戶的價值觀類型等。

        值得注意的是,一種標簽的屬性可以是多重的,比如:個人星座這個標簽,既是固有屬性,也是推導屬性,它首先不以個人的意志為轉移,同時可以通過身份證號推導而來。

        即便你成功了建立用戶畫像的標簽體系,也不意味著你就開啟了用戶畫像的成功之路,因為有很大的可能是這些標簽根本無法獲得,或者說無法賦值。

        標簽無法賦值的原因有:數據無法采集(沒有有效的渠道和方法采集到準確的數據,比如用戶身份證號)、數據庫不能打通、建模失敗(預測指標無法獲得賦值)等等。

 2、標簽體系結構

        標簽體系可以歸納出如下的層級結構。

(1)原始輸入層

        主要指用戶的歷史數據信息,如會員信息、消費信息、網絡行為信息。經過數據的清洗,從而達到用戶標簽體系的事實層。

(2)事實層

        事實層是用戶信息的準確描述層,其最重要的特點是,可以從用戶身上得到確定與肯定的驗證。如用戶的人口屬性、性別、年齡、籍貫、會員信息等。

(3)模型預測層

        通過利用統(tǒng)計建模,數據挖掘、機器學習的思想,對事實層的數據進行分析利用,從而得到描述用戶更為深刻的信息。如通過建模分析,可以對用戶的性別偏好進行預測,從而能對沒有收集到性別數據的新用戶進行預測。還可以通過建模與數據挖掘,使用聚類、關聯(lián)思想,發(fā)現人群的聚集特征。

(4)營銷模型預測

        利用模型預測層結果,對不同用戶群體,相同需求的客戶,通過打標簽,建立營銷模型,從而分析用戶的活躍度、忠誠度、流失度、影響力等可以用來進行營銷的數據。

(5)業(yè)務層

        業(yè)務層可以是展現層。它是業(yè)務邏輯的直接體現,如圖中所表示的,有車一族、有房一族等。

3、標簽體系結構分類

        一般來說,設計一個標簽體系有3種思路,分別是:(1)結構化標簽體系;(2)半結構化標簽體系;(3)非結構化標簽體系。

(1)結構化標簽體系

        簡單地說,就是標簽組織成比較規(guī)整的樹或森林,有明確的層級劃分和父子關系。結構化標簽體系看起來整潔,又比較好解釋,在面向品牌廣告井噴時比較好用。性別、年齡這類人口屬性標簽,是最典型的結構化體系。下圖就是Yahoo!受眾定向廣告平臺采用的結構化標簽體系。

(2)半結構化標簽體系

        在用于效果廣告時,標簽設計的靈活性大大提高了。標簽體系是不是規(guī)整,就不那么重要了,只要有效果就行。在這種思路下,用戶標簽往往是在行業(yè)上呈現出一定的并列體系,而各行業(yè)內的標簽設計則以“逮住老鼠就是好貓”為最高指導原則,切不可拘泥于形式。下圖是Bluekai聚合多家數據形成的半結構化標簽體系。

(3)非結構化標簽體系

        非結構化,就是各個標簽就事論事,各自反應各自的用戶興趣,彼此之間并無層級關系,也很難組織成規(guī)整的樹狀結構。非結構化標簽的典型例子,是搜索廣告里用的關鍵詞。還有Facebook用的用戶興趣詞。

 4、用戶畫像標簽層級的建模方法

        用戶畫像的核心是標簽的建立,用戶畫像標簽建立的各個階段使用的模型和算法如下圖所示。

原始數據層。對原始數據,我們主要使用文本挖掘的算法進行分析如常見的TF-IDF、TopicModel主題模型、LDA 等算法,主要是對原始數據的預處理和清洗,對用戶數據的匹配和標識。

事實標簽層。通過文本挖掘的方法,我們從數據中盡可能多的提取事實數據信息,如人口屬性信息,用戶行為信息,消費信息等。其主要使用的算法是分類和聚類。分類主要用于預測新用戶,信息不全的用戶的信息,對用戶進行預測分類。聚類主要用于分析挖掘出具有相同特征的群體信息,進行受眾細分,市場細分。對于文本的特征數據,其主要使用相似度計算,如余弦夾角,歐式距離等。

模型標簽層。使用機器學習的方法,結合推薦算法。模型標簽層完成對用戶的標簽建模與用戶標識。其主要可以采用的算法有回歸,決策樹,支持向量機等。通過建模分析,我們可以進一步挖掘出用戶的群體特征和個性權重特征,從而完善用戶的價值衡量,服務滿意度衡量等。

預測層。也是標簽體系中的營銷模型預測層。這一層級利用預測算法,如機器學習中的監(jiān)督學習,計量經濟學中的回歸預測,數學中的線性規(guī)劃等方法。實習對用戶的流失預測,忠實度預測,興趣程度預測等等,從而實現精準營銷,個性化和定制化服務。

不同的標簽層級會考慮使用對其適用的建模方法,對一些具體的問題,有專門的文章對其進行研究。

八、 用戶畫像基本步驟[F2] 

        根據具體業(yè)務規(guī)則確定用戶畫像方向后,開展用戶畫像分析,總體來說,一個用戶畫像流程包括以下三步。(1)用戶畫像的基本方向;(2)用戶數據收集;(3)用戶標簽建模。

        另外,需要注意的是用戶畫像的時效性,構建畫像的數據多為歷史數據,但用戶的行為、偏好等特征多會隨著時間的推移而發(fā)生變化。

九、 用戶畫像驗證

十、 用戶畫像的實際例子

        注:此處涉及到工作中的項目內容,由于保密,就不能分享了

十一、    用戶畫像平臺&架構

用戶畫像平臺需要實現的功能。

        用戶畫像系統(tǒng)技術架構

(1)    數據處理

a、數據指標的梳理來源于各個系統(tǒng)日常積累的日志記錄系統(tǒng),通過sqoop導入hdfs,也可以用代碼來實現,比如spark的jdbc連接傳統(tǒng)數據庫進行數據的cache。還有一種方式,可以通過將數據寫入本地文件,然后通過sparksql的load或者hive的export等方式導入HDFS。

b、通過hive編寫UDF 或者hiveql根據業(yè)務邏輯拼接ETL,使用戶對應上不同的用戶標簽數據(這里的指標可以理解為每個用戶打上了相應的標簽),生成相應的源表數據,以便于后續(xù)用戶畫像系統(tǒng),通過不同的規(guī)則進行標簽寬表的生成。

(2)    數據平臺

a、數據平臺應用的分布式文件系統(tǒng)為Hadoop的HDFS,因為Hadoop2.0以后,任何的大數據應用都可以通過ResoureManager申請資源,注冊服務。比如(sparksubmit、hive)等等。而基于內存的計算框架的出現,就并不選用Hadoop的MapReduce了。當然很多離線處理的業(yè)務,很多人還是傾向于使用Hadoop,但是Hadoop封裝的函數只有map和Reduce太過單一,而不像spark一類的計算框架有更多封裝的函數(可參考博客spark專欄)??梢源蟠筇嵘_發(fā)效率。

b、計算的框架選用Spark以及RHadoop,這里Spark的主要用途有兩種,一種是對于數據處理與上層應用所指定的規(guī)則的數據篩選過濾,(通過Scala編寫spark代碼提交至sparksubmit)。一種是服務于上層應用的SparkSQL(通過啟動spark thriftserver與前臺應用進行連接)。 RHadoop的應用主要在于對于標簽數據的打分,比如利用協(xié)同過濾算法等各種推薦算法對數據進行各方面評分。

c、MongoDB內存數據的應用主要在于對于單個用戶的實時的查詢,也是通過對spark數據梳理后的標簽寬表進行數據格式轉換(json格式)導入mongodb,前臺應用可通過連接mongodb進行數據轉換,從而進行單個標簽的展現。(當然也可將數據轉換為Redis中的key value形式,導入Redis集群)

d、mysql的作用在于針對上層應用標簽規(guī)則的存儲,以及頁面信息的展現。后臺的數據寬表是與spark相關聯(lián),通過連接mysql隨后cache元數據進行filter、select、map、reduce等對元數據信息的整理,再與真實存在于Hdfs的數據進行處理。

(3)    面向應用

從剛才的數據整理、數據平臺的計算,都已經將服務于上層應用的標簽大寬表生成。(用戶所對應的各類標簽信息)。那么前臺根據業(yè)務邏輯,勾選不同的標簽進行求和、剔除等操作,比如本月流量大于200M用戶(標簽)+本月消費超過100元用戶(標簽)進行和的操作,通過前臺代碼實現sql的拼接,進行客戶數目的探索。這里就是通過jdbc的方式連接spark的thriftserver,通過集群進行HDFS上的大寬表的運算求count。(這里要注意一點,很多sql聚合函數以及多表關聯(lián)join 相當于hadoop的mapreduce的shuffle,很容易造成內存溢出,相關參數調整可參考本博客spark欄目中的配置信息)這樣便可以定位相應的客戶數量,從而進行客戶群、標簽的分析,產品的策略匹配從而精準營銷。

十二、用戶畫像困難點、用戶畫像瓶頸

用戶畫像困難點主要表現為以下4個方面

資料搜集和數據挖掘

       在畫像之前需要知道產品的用戶特征和用戶使用產品的行為等因素,從而從總體上掌握對用戶需求需求

         創(chuàng)建用戶畫像不是抽離出典型進行單獨標簽化的過程,而是要融合邊緣環(huán)境的相關信息來進行討論

定量調研分析

用戶標簽畫像

我們的用戶標簽包含基本特征、社會身份、顧客用戶生命周期、類目偏好等等。比如說你怎么判斷一個人是不是對女裝感興趣,假設我們有一個類目就是女裝,那很好辦,如果你購買都是女裝,那會認為你這個人對女裝比較感興趣。

挑戰(zhàn)

我們期間遇到了兩方面的挑戰(zhàn):

億級畫像系統(tǒng)實踐和應用

記錄和存儲億級用戶的畫像,支持和擴展不斷增加的維度和偏好,毫秒級的更新,支撐個公司性化推薦、廣告投放和精細化營銷等產品。

轉自網絡,感謝原作者

 

這里講解下用戶畫像的技術架構和整體實現,那么就從數據整理、數據平臺、面向應用三個方面來討論一個架構的實現(個人見解)。

數據整理:

1、數據指標的的梳理來源于各個系統(tǒng)日常積累的日志記錄系統(tǒng),通過sqoop導入hdfs,也可以用代碼來實現,比如spark的jdbc連接傳統(tǒng)數據庫進行數據的cache。還有一種方式,可以通過將數據寫入本地文件,然后通過sparksql的load或者hive的export等方式導入HDFS。

2、通過hive編寫UDF 或者hiveql 根據業(yè)務邏輯拼接ETL,使用戶對應上不同的用戶標簽數據(這里的指標可以理解為為每個用戶打上了相應的標簽),生成相應的源表數據,以便于后續(xù)用戶畫像系統(tǒng),通過不同的規(guī)則進行標簽寬表的生成。

數據平臺

1、數據平臺應用的分布式文件系統(tǒng)為Hadoop的HDFS,因為Hadoop2.0以后,任何的大數據應用都可以通過ResoureManager申請資源,注冊服務。比如(sparksubmit、hive)等等。而基于內存的計算框架的出現,就并不選用hadoop的MapReduce了。當然很多離線處理的業(yè)務,很多人還是傾向于使用Hadoop,但是hadoop的封裝的函數只有map和Reduce太過單一,而不像spark一類的計算框架有更多封裝的函數(可參考博客spark專欄)??梢源蟠筇嵘_發(fā)效率。

2、計算的框架選用Spark以及RHadoop,這里Spark的主要用途有兩種,一種是對于數據處理與上層應用所指定的規(guī)則的數據篩選過濾,(通過Scala編寫spark代碼提交至sparksubmit)。一種是服務于上層應用的SparkSQL(通過啟動spark thriftserver與前臺應用進行連接)。 RHadoop的應用主要在于對于標簽數據的打分,比如利用協(xié)同過濾算法等各種推薦算法對數據進行各方面評分。

3、MongoDB內存數據的應用主要在于對于單個用戶的實時的查詢,也是通過對spark數據梳理后的標簽寬表進行數據格式轉換(json格式)導入mongodb,前臺應用可通過連接mongodb進行數據轉換,從而進行單個標簽的展現。(當然也可將數據轉換為Redis中的key value形式,導入Redis集群)

4、mysql的作用在于針對上層應用標簽規(guī)則的存儲,以及頁面信息的展現。后臺的數據寬表是與spark相關聯(lián),通過連接mysql隨后cache元數據進行filter,select,map,reduce等對元數據信息的整理,再與真實存在于Hdfs的數據進行處理。

面向應用

1、從剛才的數據整理、數據平臺的計算,都已經將服務于上層應用的標簽大寬表生成。(用戶所對應的各類標簽信息)。那么前臺根據業(yè)務邏輯,勾選不同的標簽進行求和、剔除等操作,比如本月流量大于200M用戶(標簽)+本月消費超過100元用戶(標簽)進行和的操作,通過前臺代碼實現sql的拼接,進行客戶數目的探索。這里就是通過jdbc的方式連接spark的thriftserver,通過集群進行HDFS上的大寬表的運算求count。(這里要注意一點,很多sql聚合函數以及多表關聯(lián)join 相當于hadoop的mapreduce的shuffle,很容易造成內存溢出,相關參數調整可參考本博客spark欄目中的配置信息) 這樣便可以定位相應的客戶數量,從而進行客戶群、標簽的分析,產品的策略匹配從而精準營銷。

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【投稿】用戶畫像技術選型與架構實現
【用戶畫像】基于大數據技術的手機用戶畫像與征信研究 | 09大數據
基于大數據技術的手機用戶畫像與征信研究
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服