1. 背景
1.1 何為圖嵌圖嵌入是利用節(jié)點屬性、節(jié)點間拓撲關(guān)系將復雜、高維圖數(shù)據(jù)進行向量化的一項技術(shù)。
圖數(shù)據(jù)結(jié)構(gòu)突破傳統(tǒng)數(shù)據(jù)庫按記錄組織數(shù)據(jù)的限制,具備更靈活的現(xiàn)實數(shù)據(jù)建模能力。如何將圖數(shù)據(jù)結(jié)構(gòu)中的信息進行合理表征,方便地應用于下游任務成為一個問題。
近年來隨著NLP領(lǐng)域預訓練詞向量技術(shù)的流行,圖嵌入,也就是圖數(shù)據(jù)向量化也成為了一個越來越活躍的研究領(lǐng)域。
1.2 圖數(shù)據(jù)向量化①可以進行相似/相關(guān)節(jié)點計算、圖數(shù)據(jù)挖掘等下游計算,延伸至內(nèi)容推薦業(yè)務興趣擴展模塊、連接預測;
②也可以將圖數(shù)據(jù)中蘊含的知識編碼到深度學習網(wǎng)絡中,參與到文本、圖像、流媒體等內(nèi)容理解的計算中。
在本文中,OPPO互聯(lián)網(wǎng)技術(shù)團隊針對知識圖譜領(lǐng)域數(shù)據(jù)特性對圖嵌入計算的三種思維方法,進行簡要介紹。
1.3 通用知識圖譜數(shù)據(jù)的特點①關(guān)系:節(jié)點(知識圖譜中稱實體)之間會存在諸如互為好友、參演作品、作品歸屬類型等關(guān)系;
②屬性:每個節(jié)點會存在各種各樣的屬性,比如人物會存在基本信息、背景描述等屬性;
③類型:圖譜中會存在諸如人物、作品、品牌、景點等類型。
針對圖數(shù)據(jù)中的關(guān)系,B. Perozzi等提出DeepWalk模型,開啟了隨機游走圖嵌入的先河。
DeepWalk基本思想如下:
隨機選中圖中的節(jié)點,沿圖中的關(guān)系進行隨機的閑逛,將圖數(shù)據(jù)轉(zhuǎn)化為一段段類似自然語言的序列,然后通過NLP(自然語言處理)領(lǐng)域word2vec對序列中節(jié)點的相鄰性進行建模,進而得出每個節(jié)點的向量。
DeepWalk存在一個問題:游走完全隨機,無法根據(jù)網(wǎng)絡特點(如關(guān)系權(quán)重)做到對游走進行干預。
Aditya Grover等針對這一問題提出node2vec算法,通過p/q兩個參數(shù)控制隨機游走下一跳的概率分配。
針對圖譜中未拆分為關(guān)系的屬性(諸如描述等拆分后度極低的屬性以及其他一些)研究者們提出了很多方法。本文選取其中一種ANRL來進行介紹;
ANRL由Zhen Zhang等提出,思想如下:
通過一個雙目標網(wǎng)絡,分別對節(jié)點屬性、關(guān)系進行建模,最終得到的圖嵌入向量受屬性、關(guān)系訓練數(shù)據(jù)的制約,得到一個融合了屬性和關(guān)系信息的圖嵌入向量。
知識圖譜通常涵蓋若干領(lǐng)域,尤其是通用知識圖譜,其中節(jié)點的類型更是各式各樣。除了其中有實際意義的實體,也會有一些為了屬性節(jié)點。(諸如國家)
不同類型的節(jié)點具有不同的特性:諸如國家可能會與一個電影有地域關(guān)系,也會與一個明星有國家歸屬關(guān)系,也會與一個景點有歸屬關(guān)系,也會與一個戰(zhàn)斗機有產(chǎn)地關(guān)系。
所以不同類型的節(jié)點按照相同的規(guī)則進行隨機游走也會存在一些固有的問題。
事實上,node2vec的隨機游走確實會偏向度比較大的節(jié)點,另外我們也需要根據(jù)業(yè)務場景對不同領(lǐng)域的節(jié)點進行不同程度的隔離。
Yuxiao Dong等提出MetaPath2Vec算法,算法中將通過類型序列控制隨機游走只在特定的類型之間進行游走,當然也可以根據(jù)業(yè)務特點進行游走概率降權(quán)。其主要過程如下:
知識是人類之于機器的優(yōu)勢?,F(xiàn)今隨著深度學習的發(fā)展,AI在很多領(lǐng)域通過大量的監(jiān)督數(shù)據(jù)能夠高效、精準的完成各種具體的任務。
然而現(xiàn)今深度學習等各種模型尚不能像人類一樣進行普世知識積累、聯(lián)想、推理、想象,或許知識圖譜會是AI下一個飛躍的翅膀;事實上,圖嵌入、圖神經(jīng)網(wǎng)絡領(lǐng)域的研究近幾年逐漸成為AI頂會熱門話題。
聯(lián)系客服