作者丨劉知遠(yuǎn)
單位丨清華大學(xué)自然語言處理實(shí)驗(yàn)室副教授
研究方向丨知識圖譜與語義計(jì)算,社會計(jì)算與計(jì)算社會科學(xué)
本文經(jīng)授權(quán)轉(zhuǎn)載自知乎專欄「NLP日知錄」。
2017 年 12 月底,清華大學(xué)張鈸院士做了一場題為《AI 科學(xué)突破的前夜,教授們應(yīng)當(dāng)看到什么?》的精彩特邀報告。他認(rèn)為,處理知識是人類所擅長的,而處理數(shù)據(jù)是計(jì)算機(jī)所擅長的,如果能夠?qū)⒍呓Y(jié)合起來,一定能夠構(gòu)建出比人類更加智能的系統(tǒng)。因此他提出,AI 未來的科學(xué)突破是建立一種同時基于知識和數(shù)據(jù)的 AI 系統(tǒng)。
我完全贊同張鈸老師的學(xué)術(shù)觀點(diǎn)。最近一年里,我們在這方面也做了一些嘗試,將語言知識庫 HowNet 中的義原標(biāo)注信息融入面向 NLP 的深度學(xué)習(xí)模型中,取得了一些有意思的結(jié)果,在這里整理與大家分享一下。
HowNet 是董振東先生、董強(qiáng)先生父子畢數(shù)十年之功標(biāo)注的大型語言知識庫,主要面向中文(也包括英文)的詞匯與概念[1]。
HowNet 秉承還原論思想,認(rèn)為詞匯/詞義可以用更小的語義單位來描述。這種語義單位被稱為“義原”(Sememe),顧名思義就是原子語義,即最基本的、不宜再分割的最小語義單位。在不斷標(biāo)注的過程中,HowNet 逐漸構(gòu)建出了一套精細(xì)的義原體系(約 2000 個義原)。HowNet 基于該義原體系累計(jì)標(biāo)注了數(shù)十萬詞匯/詞義的語義信息。
例如“頂點(diǎn)”一詞在 HowNet 有兩個代表義項(xiàng),分別標(biāo)注義原信息如下,其中每個“xx|yy”代表一個義原,“|”左邊為英文右邊為中文;義原之間還被標(biāo)注了復(fù)雜的語義關(guān)系,如 host、modifier、belong 等,從而能夠精確地表示詞義的語義信息。
頂點(diǎn)#1
DEF={Boundary|界限:host={entity|實(shí)體},modifier={GreaterThanNormal|高于正常:degree={most|最}}}
頂點(diǎn)#2
DEF={location|位置:belong={angular|角},modifier={dot|點(diǎn)}}
在 NLP 領(lǐng)域知識庫資源一直扮演著重要角色,在英語世界中最具知名度的是 WordNet,采用同義詞集(synset)的形式標(biāo)注詞匯/詞義的語義知識。HowNet 采取了不同于 WordNet 的標(biāo)注思路,可以說是我國學(xué)者為 NLP 做出的最獨(dú)具特色的杰出貢獻(xiàn)。
HowNet 在 2000 年前后引起了國內(nèi) NLP 學(xué)術(shù)界極大的研究熱情,在詞匯相似度計(jì)算、文本分類、信息檢索等方面探索了 HowNet 的重要應(yīng)用價值[2,3],與當(dāng)時國際上對 WordNet 的應(yīng)用探索相映成趣。
進(jìn)入深度學(xué)習(xí)時代,人們發(fā)現(xiàn)通過大規(guī)模文本數(shù)據(jù)也能夠很好地學(xué)習(xí)詞匯的語義表示。例如以 word2vec[4]為代表的詞表示學(xué)習(xí)方法,用低維(一般數(shù)百維)、稠密、實(shí)值向量來表示每個詞匯/詞義的語義信息,又稱為分布式表示(distributed representation,或 embedding),利用大規(guī)模文本中的詞匯上下文信息自動學(xué)習(xí)向量表示。
我們可以用這些向量方便地計(jì)算詞匯/詞義相似度,能夠取得比傳統(tǒng)基于語言知識庫的方法還好的效果。也正因?yàn)槿绱?,近年來無論是 HowNet 還是 WordNet 的學(xué)術(shù)關(guān)注度都有顯著下降,如以下兩圖所示。
△ 中國期刊網(wǎng)(CNKI)統(tǒng)計(jì)HowNet學(xué)術(shù)關(guān)注度變化趨勢
△ Semantic Scholar統(tǒng)計(jì)WordNet相關(guān)論文變化趨勢
是不是說,深度學(xué)習(xí)時代以 WordNet、HowNet 為代表的語言知識庫就毫無用處了呢?實(shí)際并非如此。實(shí)際上自 word2vec 剛提出一年后,我們[5]以及 ACL 2015 最佳學(xué)生論文[6]等工作,都發(fā)現(xiàn)將 WordNet 知識融入到詞表示學(xué)習(xí)過程中,能夠有效提升詞表示效果。
雖然目前大部分 NLP 深度學(xué)習(xí)模型尚沒有為語言知識庫留出位置,但正由于深度學(xué)習(xí)模型 data-hungry、black-box 等特性,正使其發(fā)展遭遇不可突破的瓶頸。
回顧最開始提及的張鈸院士的觀點(diǎn),我們堅(jiān)信 AI 未來的科學(xué)突破是建立一種同時基于知識和數(shù)據(jù)的 AI 系統(tǒng)。看清楚了這個大形勢,針對 NLP 深度學(xué)習(xí)模型的關(guān)鍵問題就在于,利用什么知識,怎樣利用知識。
在自然語言理解方面,HowNet 更貼近語言本質(zhì)特點(diǎn)。自然語言中的詞匯是典型的符號信息,這些符號背后蘊(yùn)藏豐富的語義信息??梢哉f,詞匯是最小的語言使用單位,卻不是最小的語義單位。HowNet 提出的義原標(biāo)注體系,正是突破詞匯屏障,深入了解詞匯背后豐富語義信息的重要通道。
在融入學(xué)習(xí)模型方面,HowNet 具有無可比擬的優(yōu)勢。在 WordNet、同義詞詞林等知識庫中,每個詞的詞義是通過同義詞集(synset)和定義(gloss)來間接體現(xiàn)的,具體每個詞義到底什么意義,缺少細(xì)粒度的精準(zhǔn)刻畫,缺少顯式定量的信息,無法更好為計(jì)算機(jī)所用。
而 HowNet 通過一套統(tǒng)一的義原標(biāo)注體系,能夠直接精準(zhǔn)刻畫詞義的語義信息;而每個義原含義明確固定,可被直接作為語義標(biāo)簽融入機(jī)器學(xué)習(xí)模型。
也許是由于 HowNet 采用了收費(fèi)授權(quán)的政策,并且主要面向中文世界,近年來 HowNet 知識庫有些淡出人們的視野。然而,對 HowNet 逐漸深入理解,以及最近我們在 HowNet 與深度學(xué)習(xí)模型融合的成功嘗試,讓我開始堅(jiān)信,HowNet 語言知識體系與思想必將在深度學(xué)習(xí)時代大放異彩。
最近我們分別探索了詞匯表示學(xué)習(xí)、新詞義原推薦、和詞典擴(kuò)展等任務(wù)上,驗(yàn)證了 HowNet 與深度學(xué)習(xí)模型融合的有效性。
1. 融合義原知識的詞匯表示學(xué)習(xí)
■ 論文 | Improved Word Representation Learning with Sememes
■ 鏈接 | https://www.paperweekly.site/papers/1498
■ 源碼 | https://github.com/thunlp/SE-WRL
我們考慮將詞義的義原知識融入詞匯表示學(xué)習(xí)模型中。在該工作中,我們將 HowNet 的義原標(biāo)注信息具象化為如下圖所示的 word-sense-sememe 結(jié)構(gòu)。需要注意的是,為了簡化模型,我們沒有考慮詞義的義原結(jié)構(gòu)信息,即我們將每個詞義的義原標(biāo)注看做一個無序集合。
△ HowNet義原標(biāo)注知識的word-sense-sememe結(jié)構(gòu)示意圖
基于 word2vec 中的 Skip-Gram 模型,我們提出了 SAT(sememe attention over target model)模型。與 Skip-Gram 模型只考慮上下文信息相比,SAT 模型同時考慮單詞的義原信息,使用義原信息輔助模型更好地“理解”單詞。
具體做法是,根據(jù)上下文單詞來對中心詞做詞義消歧,使用 attention 機(jī)制計(jì)算上下文對該單詞各個詞義(sense)的權(quán)重,然后使用 sense embedding 的加權(quán)平均值表示單詞向量。在詞語相似度計(jì)算和類比推理兩個任務(wù)上的實(shí)驗(yàn)結(jié)果表明,將義原信息融入詞匯表示學(xué)習(xí)能夠有效提升詞向量性能。
△ SAT(Sememe Attention over Target Model)模型示意圖
2. 基于詞匯表示的新詞義原推薦
■ 論文 | Lexical Sememe Prediction via Word Embeddings and Matrix Factorization
■ 鏈接 | https://www.paperweekly.site/papers/450
■ 源碼 | https://github.com/thunlp/Sememe_prediction
在驗(yàn)證了分布式表示學(xué)習(xí)與義原知識庫之間的互補(bǔ)關(guān)系后,我們進(jìn)一步提出,是否可以利用詞匯表示學(xué)習(xí)模型,對新詞進(jìn)行義原推薦,輔助知識庫標(biāo)注工作。為了實(shí)現(xiàn)義原推薦,我們分別探索了矩陣分解和協(xié)同過濾等方法。
矩陣分解方法首先利用大規(guī)模文本數(shù)據(jù)學(xué)習(xí)單詞向量,然后用已有詞語的義原標(biāo)注構(gòu)建“單詞-義原”矩陣,通過矩陣分解建立與單詞向量匹配的義原向量。
當(dāng)給定新詞時,利用新詞在大規(guī)模文本數(shù)據(jù)得到的單詞向量推薦義原信息。協(xié)同過濾方法則利用單詞向量自動尋找與給定新詞最相似的單詞,然后利用這些相似單詞的義原進(jìn)行推薦。
義原推薦的實(shí)驗(yàn)結(jié)果表明,綜合利用矩陣分解和協(xié)同過濾兩種手段,可以有效進(jìn)行新詞的義原推薦,并在一定程度上能夠發(fā)現(xiàn) HowNet 知識庫的標(biāo)注不一致現(xiàn)象。該技術(shù)將有利于提高 HowNet 語言知識庫的標(biāo)注效率與質(zhì)量。
3. 基于詞匯表示和義原知識的詞典擴(kuò)展
■ 論文 | Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention
■ 鏈接 | https://www.paperweekly.site/papers/1499
■ 源碼 | https://github.com/thunlp/Auto_CLIWC
最近,我們又嘗試了利用詞語表示學(xué)習(xí)與 HowNet 知識庫進(jìn)行詞典擴(kuò)展。詞典擴(kuò)展任務(wù)旨在根據(jù)詞典中的已有詞語,自動擴(kuò)展出更多的相關(guān)詞語。
該任務(wù)可以看做對詞語的分類問題。我們選用在社會學(xué)中享有盛名的 LIWC 詞典(Linguistic Inquiry and Word Count)中文版來開展研究。LIWC 中文版中每個單詞都被標(biāo)注層次化心理學(xué)類別。
我們利用大規(guī)模文本數(shù)據(jù)學(xué)習(xí)每個詞語的分布式向量表示,然后用 LIWC 詞典單詞作為訓(xùn)練數(shù)據(jù)訓(xùn)練分類器,并用 HowNet 提供的義原標(biāo)注信息構(gòu)建 sememe attention。實(shí)驗(yàn)表明,義原信息的引入能夠顯著提升單詞的層次分類效果。
△ 基于Sememe Attention的詞典擴(kuò)展模型
ps. 值得一提的是,這三份工作都是本科生(牛藝霖、袁星馳、曾祥楷)為主完成的,模型方案都很簡單,但都是第一次投稿就被 ACL、IJCAI 和 AAAI 錄用,也可以看出國際學(xué)術(shù)界對于這類技術(shù)路線的認(rèn)可。
以上介紹的三項(xiàng)工作只是初步驗(yàn)證了深度學(xué)習(xí)時代 HowNet 語言知識庫在某些任務(wù)的重要作用。以 HowNet 語言知識庫為代表的人類知識與以深度學(xué)習(xí)為代表的數(shù)據(jù)驅(qū)動模型如何深度融合,尚有許多重要的開放問題亟待探索與解答。我認(rèn)為以下幾個方向深具探索價值:
1. 目前的研究工作仍停留在詞法層面,對 HowNet 知識的應(yīng)用亦非常有限。如何在以 RNN/LSTM 為代表的語言模型中有效融合 HowNet 義原知識庫,并在自動問答、機(jī)器翻譯等應(yīng)用任務(wù)中驗(yàn)證有效性,具有重要的研究價值。是否需要考慮義原標(biāo)注的結(jié)構(gòu)信息,也值得探索與思考。
2. 經(jīng)過幾十年的精心標(biāo)注,HowNet 知識庫已有相當(dāng)規(guī)模,但面對日新月異的信息時代,對開放域詞匯的覆蓋度仍存在不足。需要不斷探索更精準(zhǔn)的新詞義原自動推薦技術(shù),讓計(jì)算機(jī)輔助人類專家進(jìn)行更及時高效的知識庫標(biāo)注工作。
此外,HowNet 義原知識庫規(guī)模宏大、標(biāo)注時間跨度長,難免出現(xiàn)標(biāo)注不一致現(xiàn)象,這將極大影響相關(guān)模型的效果,需要探索相關(guān)算法,輔助人類專家做好知識庫的一致性檢測和質(zhì)量控制。
3. HowNet 知識庫的義原體系是專家在不斷標(biāo)注過程中反思總結(jié)的結(jié)晶。但義原體系并非一成不變,也不見得完美無瑕。它應(yīng)當(dāng)隨時間變化而演化,并隨語言理解的深入而擴(kuò)展。我們需要探索一種數(shù)據(jù)驅(qū)動與專家驅(qū)動相結(jié)合的手段,不斷優(yōu)化與擴(kuò)充義原體系,更好地滿足自然語言處理需求。
總之,HowNet 知識庫是進(jìn)入深度學(xué)習(xí)時代后被極度忽視的一片寶藏,它也許會成為解決 NLP 深度學(xué)習(xí)模型諸多瓶頸的一把鑰匙。在深度學(xué)習(xí)時代用 HowNet 搞事情,廣闊天地,大有可為!
1. 知網(wǎng)官方介紹:http://www.keenage.com/zhiwang/c_zhiwang.html
2. 劉群, 李素建. 基于《知網(wǎng)》的詞匯語義相似度計(jì)算. 中文計(jì)算語言學(xué) 7, no. 2 (2002): 59-76.
3. 朱嫣嵐, 閔錦, 周雅倩, 黃萱菁, 吳立德. 基于 HowNet 的詞匯語義傾向計(jì)算. 中文信息學(xué)報 20, no. 1 (2006): 16-22.
4. Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NIPS, pp. 3111-3119. 2013.
5. Chen, Xinxiong, Zhiyuan Liu, and Maosong Sun. A unified model for word sense representation and disambiguation. In EMNLP, pp. 1025-1035. 2014.
6. Rothe, Sascha, and Hinrich Schütze. Autoextend: Extending word embeddings to embeddings for synsets and lexemes. In ACL, 2015.
7. Yilin Niu, Ruobing Xie, Zhiyuan Liu, Maosong Sun. Improved Word Representation Learning with Sememes. In ACL, 2017.
8. Ruobing Xie, Xingchi Yuan, Zhiyuan Liu, Maosong Sun. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization. In IJCAI, 2017.
9. Xiangkai Zeng, Cheng Yang, Cunchao Tu, Zhiyuan Liu, Maosong Sun. Chinese LIWC Lexicon Expansion via Hierarchical Classification of Word Embeddings with Sememe Attention. In AAAI, 2018.
我是彩蛋
解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
聯(lián)系客服