【編者按】微軟亞洲研究院社會計(jì)算組的研究員們從深度學(xué)習(xí)、知識圖譜、強(qiáng)化學(xué)習(xí)、用戶畫像、可解釋性推薦等五個(gè)方面,展望了未來推薦系統(tǒng)發(fā)展的方向。
在前三篇文章中,我們分別介紹了深度學(xué)習(xí)、知識圖譜、強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用以及未來可能的研究方向。在今天的文章中,我們將介紹推薦系統(tǒng)中的用戶畫像。
構(gòu)建推薦系統(tǒng)的核心任務(wù)之一在于如何準(zhǔn)確地分析出用戶的興趣特點(diǎn),也就是我們常說的用戶畫像。
簡單說來,用戶畫像是指從用戶產(chǎn)生的各種數(shù)據(jù)中挖掘和抽取用戶在不同屬性上的標(biāo)簽,如年齡、性別、職業(yè)、收入、興趣等。完備且準(zhǔn)確的屬性標(biāo)簽將有力地揭示用戶本質(zhì)特征,因而極大地促進(jìn)精準(zhǔn)的個(gè)性化推薦。
目前,主流用戶畫像方法一般是基于機(jī)器學(xué)習(xí)尤其是有監(jiān)督學(xué)習(xí)的技術(shù)。這類方法從用戶數(shù)據(jù)中抽取特征來作為用戶的表示向量,并利用有用戶屬性標(biāo)簽的數(shù)據(jù)作為有標(biāo)注數(shù)據(jù)來訓(xùn)練用戶畫像預(yù)測模型,從而對更多的沒有標(biāo)簽的用戶的屬性進(jìn)行預(yù)測。
盡管目前的用戶畫像方法已經(jīng)取得了不錯(cuò)的效果并被廣泛應(yīng)用于實(shí)際推薦系統(tǒng)中,這些方法仍然存在一定的問題和挑戰(zhàn):
首先,這些已有的方法大多數(shù)都基于手工抽取的離散特征,這些特征無法刻畫用戶數(shù)據(jù)的上下文信息,因此對于用戶的表征能力較為有限。
其次,現(xiàn)有的用戶畫像方法通?;诤唵蔚木€性回歸或分類模型,無法從用戶數(shù)據(jù)中自動學(xué)習(xí)高層次抽象特征,也無法對特征之間的交互關(guān)系進(jìn)行建模。另外,已有的用戶畫像方法往往基于單一類型和單一來源的數(shù)據(jù),這些數(shù)據(jù)對于用戶的表征不夠豐富。而實(shí)際上,用戶數(shù)據(jù)往往是多來源和多類型的。
最后,已有的用戶畫像方法大都沒有考慮用戶屬性標(biāo)簽的時(shí)效性,因此很難刻畫用戶動態(tài)變化的屬性如興趣等。
為了應(yīng)對上述挑戰(zhàn),我們認(rèn)為應(yīng)該從以下方面展開用戶畫像研究:
1. 構(gòu)建具有更強(qiáng)表征能力的用戶表示模型。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展和成熟,利用深層神經(jīng)網(wǎng)絡(luò)從用戶原始數(shù)據(jù)中自動抽取深層次的、有信息量的特征來構(gòu)建用戶的特征表示能夠有助于更加充分地利用用戶數(shù)據(jù)并有效提升用戶畫像的精度。
使用基于深層神經(jīng)網(wǎng)絡(luò)的用戶表示模型能夠有效克服目前已有的基于特征工程和線性模型的用戶畫像方法的不足。我們提出的HURA模型(Neural Demographic Prediction using Search Query, WSDM 2019)基于多層注意力機(jī)制和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),有效地通過搜索日志預(yù)測了用戶個(gè)人屬性。
2. 基于多源和異構(gòu)數(shù)據(jù)的用戶畫像。用戶產(chǎn)生的數(shù)據(jù)往往分布在不同的平臺,并且具有不同的結(jié)構(gòu)(如無結(jié)構(gòu)的社交媒體文本數(shù)據(jù)和有結(jié)構(gòu)的電商網(wǎng)站購買記錄等)和不同的模態(tài)(如文本數(shù)據(jù)和圖像數(shù)據(jù)),給用戶畫像帶來了很大的挑戰(zhàn)。
如何設(shè)計(jì)一個(gè)深度信息融合模型來利用不同來源、不同結(jié)構(gòu)和不同模態(tài)的用戶數(shù)據(jù)進(jìn)行用戶建模,是未來用戶畫像領(lǐng)域的一個(gè)重要方向。
基于深度神經(jīng)網(wǎng)絡(luò)的協(xié)同學(xué)習(xí)和多通道模型可能是值得嘗試的技術(shù)。
3. 不同平臺用戶畫像數(shù)據(jù)的共享和用戶隱私保護(hù)。目前很多用戶數(shù)據(jù)存在于不同的平臺當(dāng)中,例如搜索引擎擁有用戶的搜索和網(wǎng)頁瀏覽記錄,電商網(wǎng)站擁有用戶的商品瀏覽、購物、收藏和購買信息。這些不同平臺的用戶數(shù)據(jù)對于用戶畫像都具有重要的價(jià)值,互相之間可以提供互補(bǔ)信息,有助于構(gòu)建更加豐富全面的用戶表示。
然而,平臺之間直接共享用戶信息可能會使得用戶的隱私受到泄露和損害。如何在不轉(zhuǎn)移和不共享用戶數(shù)據(jù)的情況下,充分利用不同平臺的用戶信息實(shí)現(xiàn)協(xié)同用戶畫像和建模是值得研究的一個(gè)方向。
4. 面向用戶畫像的統(tǒng)一用戶表示模型。已有的用戶畫像方法在實(shí)際的應(yīng)用中往往會涉及大量模型的訓(xùn)練、存儲和調(diào)用,時(shí)間和空間的復(fù)雜度都比較高,使用起來也比較繁瑣。另外,不同的用戶屬性之間潛在的聯(lián)系也無法充分挖掘。
如何基于多源異構(gòu)的用戶數(shù)據(jù)構(gòu)建一個(gè)統(tǒng)一的用戶表示模型,使得該模型可以盡可能全面而準(zhǔn)確地包含一個(gè)用戶在不同屬性和維度的特征信息并能夠應(yīng)用于多個(gè)用戶畫像任務(wù)是一個(gè)非常值得研究的方向。
基于深層神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)技術(shù)和類似詞嵌入的用戶嵌入技術(shù)有希望能夠應(yīng)用于這個(gè)問題。
下一篇文章我們將圍繞“推薦系統(tǒng)的可解釋性”的研究展開討論。想要了解關(guān)于推薦系統(tǒng)的更多研究熱點(diǎn),還請持續(xù)關(guān)注。
聯(lián)系客服