中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
「知識(shí)圖譜」領(lǐng)域近期值得讀的 6 篇頂會(huì)論文

CIKM 2017

1. Motivation

隨著語義網(wǎng)絡(luò)的迅速發(fā)展,越來越多的大規(guī)模知識(shí)圖譜公開發(fā)布,為了綜合使用多個(gè)來源的知識(shí)圖譜,首要步驟就是進(jìn)行實(shí)體對(duì)齊(Entity Alignment)。

近年來,許多研究者提出了自動(dòng)化的實(shí)體對(duì)齊方法,但是,由于知識(shí)圖譜數(shù)據(jù)的不均衡性,導(dǎo)致此類方法對(duì)齊質(zhì)量較低,特別是召回率(Recall)。

因此,可考慮借助于眾包平臺(tái)提升對(duì)齊效果,本文提出了一個(gè)人機(jī)協(xié)作的方法,對(duì)大規(guī)模知識(shí)圖譜進(jìn)行實(shí)體對(duì)齊。

2. Framework

方法主要流程如圖所示:

首先,通過機(jī)器學(xué)習(xí)方法對(duì)知識(shí)庫進(jìn)行粗略的實(shí)體對(duì)齊,然后分別將以對(duì)齊實(shí)體對(duì)(Matched Pairs)和未對(duì)齊實(shí)體對(duì)(Unmatched Pairs)放入眾包平臺(tái),讓人進(jìn)行判斷。

兩條流水線的步驟類似,主要包括四個(gè)部分:實(shí)體集劃分(Entity Partition)、建立偏序(Partial Order Construction)、問題選擇(Question Selection)、容錯(cuò)處理(Error Tolerance)。

實(shí)體集劃分的目的是將同類的實(shí)體聚類到一個(gè)集合,實(shí)體對(duì)齊只在集合內(nèi)部進(jìn)行,集合之間不進(jìn)行對(duì)齊操作。實(shí)體集劃分的依據(jù)是屬性,通常同一類實(shí)體的屬性是相似的。 偏序定義如下:

建立偏序的目的在于找出最具有推理期望(Inference Expectation)的實(shí)體對(duì),偏序集實(shí)例如下:

其中,如果 P11 被判斷為 Unmatch,則所有偏序小于 P11 的節(jié)點(diǎn)都可以推斷為 unmatch。反之,如果 P45 被推斷為 Match,則所有偏序大于 P45 的節(jié)點(diǎn)都可以推斷為 Match。推理期望公式如下:

其中,pre 和 suc 分別表示前驅(qū)和后繼節(jié)點(diǎn)。

對(duì)于問題選擇,文章提出了兩個(gè)貪心算法,分別為一次選一個(gè)節(jié)點(diǎn)以及一次選多個(gè)節(jié)點(diǎn)。算法如下:

3. Experiment

數(shù)據(jù)集:Yago,DBPedia

對(duì)比方法:PARIS,PBA

眾包平臺(tái):ChinaCrowds

評(píng)估問題選擇方法:

可以看到,兩個(gè)貪心算法差別不大,但是比隨機(jī)選擇性能好。

評(píng)估問題集大?。?/span>

隨著問題集合的增加,較精確率、召回率、F 值均有提升。

評(píng)估實(shí)體對(duì)齊結(jié)果:

實(shí)驗(yàn)表明,各項(xiàng)評(píng)估指標(biāo)具有提升,證實(shí)了人機(jī)協(xié)作的有效性,但是 MQS 算法復(fù)雜度太高,導(dǎo)致運(yùn)行時(shí)間過長(zhǎng)。

ACL 2017

 

論文 | Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix

鏈接 | https://www.paperweekly.site/papers/1529

解讀 | 王冠穎,浙江大學(xué)碩士

1. 動(dòng)機(jī)

Distant supervision 是一種生成關(guān)系抽取訓(xùn)練集的常用方法。它把現(xiàn)有知識(shí)庫中的三元組 作為種子,匹配同時(shí)含有 e1 和 e2 的文本,得到的文本用作關(guān)系 r 的標(biāo)注數(shù)據(jù)。這樣可以省去大量人工標(biāo)記的工作。

但是這種匹配方式會(huì)產(chǎn)生很多噪音:比如三元組 ,可能對(duì)齊到『Donald Trump was born in New York』,也可能對(duì)齊到『DonaldTrump worked in New York』。

其中前一句是我們想要的標(biāo)注數(shù)據(jù),后一句則是噪音數(shù)據(jù)(并不表示 born-in)。如何去除這些噪音數(shù)據(jù),是一個(gè)重要的研究課題。

2. 前人工作

第一種方法是通過定義規(guī)則過濾掉一些噪音數(shù)據(jù),缺點(diǎn)是依賴人工定義,并且被關(guān)系種類所限制。

另一種方法則是 Multi-instancelearning,把訓(xùn)練語句分包學(xué)習(xí),包內(nèi)取平均值,或者用 attention 加權(quán),可以中和掉包內(nèi)的噪音數(shù)據(jù)。缺點(diǎn)是受限于 at-least-one-assumption:每個(gè)包內(nèi)至少有一個(gè)正確的數(shù)據(jù)。

可以看出前人主要思路是『去噪』,即降低噪聲數(shù)據(jù)的印象。這篇文章提出用一個(gè)噪音矩陣來擬合噪音的分布,即給噪音建模,從而達(dá)到擬合真實(shí)分布的目的。

3. 模型

其中 1 和 2 是普通的關(guān)系抽取模型過程,3 和 4 是噪音擬合的過程。

transition matrix 是一個(gè)轉(zhuǎn)移矩陣,大小為 n * n,n 是關(guān)系種類的數(shù)目。T_ij 的元素的值是 p( j| i ),即該句子代表關(guān)系為 i,但被誤判為 j 的概率。 這樣我們就可以得到:

× =

其中,predicted 是我們想要的真實(shí)分布,observed 是我們觀測(cè)到的噪音分布,這樣就可以用噪音數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練了。

3.1 全局轉(zhuǎn)移矩陣 & 動(dòng)態(tài)轉(zhuǎn)移矩陣

Global transition matrix 在關(guān)系層面上定義一個(gè)特定的轉(zhuǎn)移矩陣,比如:

屬于 A 關(guān)系的句子,被誤判為 B 關(guān)系的概率是恒定的。 Dynamic transition matrix 是在句子層面上定義的,即使同屬于 A 關(guān)系,a1 句子和 b1 句子被誤判成 B 關(guān)系的概率也不同。

比如下面兩句話,帶有 old house 的被誤判成 born-in 的概率更大。

動(dòng)態(tài)轉(zhuǎn)移矩陣更有優(yōu)勢(shì),粒度更細(xì)。

3.2 訓(xùn)練方法

如果單純用 observed 的 loss,會(huì)出現(xiàn)問題,因?yàn)樵诔跏蓟臅r(shí)候,我們并不能保證 p 一定擬合真實(shí)分布,轉(zhuǎn)移矩陣也沒有任何先驗(yàn)信息,容易收斂到局部最優(yōu)。

因此,文中用 curriculum learning 進(jìn)行訓(xùn)練:

trace 是轉(zhuǎn)移矩陣的跡,用于控制訓(xùn)練過程中噪音的作用,是矩陣的正則項(xiàng)。在沒有噪音的情況下,矩陣是一個(gè)單位矩陣,跡較大,此時(shí)矩陣沒有效果。跡越小,矩陣施加的效果越明顯。

curriculum learning 的步驟:

初始階段,alpha 為 1,beta 取一個(gè)很大的值,只學(xué)習(xí) p 分布,讓 p 獲得關(guān)系判定的能力; 后續(xù)階段,逐漸減小 alpha 和 beta,強(qiáng)化矩陣的作用,學(xué)習(xí)噪音分布 o,最后獲得真實(shí)的 p 分布和噪音 o 分布。

這樣通過調(diào)控過程,就可以避免學(xué)習(xí)出無意義的局部最優(yōu)值了。

3.3 先驗(yàn)知識(shí)

可以給矩陣增加一些先驗(yàn)知識(shí),比如在 timeRE 的數(shù)據(jù)集上,根據(jù)時(shí)間粒度,對(duì)數(shù)據(jù)集進(jìn)行可信度劃分,先訓(xùn)練可信數(shù)據(jù),再訓(xùn)練噪音數(shù)據(jù),這樣可以優(yōu)化最終的訓(xùn)練結(jié)果。

4. 實(shí)驗(yàn)結(jié)果

作者在 timeRE 和 entityRE (NYT) 上均進(jìn)行了訓(xùn)練,取得了降噪的 state-of-art。具體分析結(jié)果可以參照論文。

AAAI 2017

論文 | Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Descriptions

鏈接 | https://www.paperweekly.site/papers/179

解讀 | 劉兵,東南大學(xué)博士

1. 論文動(dòng)機(jī)

關(guān)系抽取的遠(yuǎn)程監(jiān)督方法通過知識(shí)庫與非結(jié)構(gòu)化文本對(duì)其的方式,自動(dòng)標(biāo)注數(shù)據(jù),解決人工標(biāo)注的問題。但是,現(xiàn)有方法存在無法選擇有效的句子、缺少實(shí)體知識(shí)的缺陷。

無法選擇有效的句子是指模型無法判斷關(guān)系實(shí)例對(duì)應(yīng)的句子集(bag)中哪個(gè)句子是與關(guān)系相關(guān)的,在建模時(shí)能會(huì)將不是表達(dá)某種關(guān)系的句子當(dāng)做表達(dá)這種關(guān)系的句子,或者將表達(dá)某種關(guān)系的句子當(dāng)做不表達(dá)這種關(guān)系的句子,從而引入噪聲數(shù)據(jù)。

缺少實(shí)體知識(shí)是指,例如下面的例句種,如果不知道 Nevada 和 Las Vegas 是兩座城市,則很難判斷他們知識(shí)是地理位置上的包含關(guān)系。

[Nevada] then sanctioned the sport , and the U.F.C. held its first show in [Las Vegas] in September 2001.

本文為了引入更豐富的信息,從 Freebase 和 Wikipedia 頁面中抽取實(shí)體描述,借鑒表示學(xué)習(xí)的思想學(xué)習(xí)得到更好的實(shí)體表示,并提出一種句子級(jí)別的注意力模型。

本文提出的模型更好地實(shí)現(xiàn)注意力機(jī)制,有效降低噪聲句子的影響,性能上達(dá)到當(dāng)前最優(yōu)。

2. 論文貢獻(xiàn)

文章的貢獻(xiàn)有:

引入句子級(jí)別的注意力模型來選擇一個(gè) bag 中的多個(gè)有用的句子,從而充分利用 bag 種的有用信息;

使用實(shí)體描述來為關(guān)系預(yù)測(cè)和實(shí)體表達(dá)提供背景信息;

實(shí)驗(yàn)效果表面,本文提出的方法是 state-of-the-art 的。

3. 論文方法

本文的方法包括三個(gè)部分:句子特征提取、實(shí)體表示和 bag 特征提取。

句子特征提取模型結(jié)構(gòu)如下圖(a)所示,模型流程如下:

使用詞向量和位置向量相連接作為單詞表示,句子的詞表示序列作為模型的輸入;

使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入層提取特征,然后做 piecewise 較大池化,形成句子的特征表示。

實(shí)體表示在詞向量的基礎(chǔ)上,使用實(shí)體描述信息對(duì)向量表示進(jìn)行調(diào)整,形成最終的實(shí)體向量表示。

模型主要思想是,使用 CNN 對(duì)實(shí)體的描述信息進(jìn)行特征提取,得到的特征向量作為實(shí)體的特征表示,模型的訓(xùn)練目標(biāo)是使得實(shí)體的詞向量表示和從描述信息得到的實(shí)體特征表示盡可能接近。

Bag 特征提取模型的關(guān)鍵在句子權(quán)重學(xué)習(xí),在得到 bag 中每個(gè)句子的權(quán)重后,對(duì) bag 中所有句子的特征向量進(jìn)行加權(quán)求和,得到 bag 的特征向量表示。

模型中用到了類似 TransE 的實(shí)體關(guān)系表示的思想:e1+r=e2。使用(e2-e1)作為實(shí)體間關(guān)系信息的表達(dá),與句子特征向量相拼接,進(jìn)行后續(xù)的權(quán)重學(xué)習(xí)。

Bag 特征提取模型如上圖(b)所示:

使用 bag 中的所有句子的特征向量表示,結(jié)合 e2-e1方式得到的關(guān)系表示,作為模型的輸入;

利用權(quán)重學(xué)習(xí)矩陣,得到每個(gè)句子的權(quán)重;

對(duì)句子進(jìn)行加權(quán)求和,得到 bag 的最終表示。

4. 實(shí)驗(yàn)

文章在遠(yuǎn)程監(jiān)督常用的數(shù)據(jù)集(Rediel 2010)上,按照常規(guī)的遠(yuǎn)程監(jiān)督的實(shí)驗(yàn)思路,分別進(jìn)行了 heldout 和 manual 實(shí)驗(yàn)。

Heldout 實(shí)驗(yàn)即使用知識(shí)庫中已有的關(guān)系實(shí)例標(biāo)注測(cè)試集,驗(yàn)證模型的性能,結(jié)果如下面的 Precision-Recall 圖所示,超過其他較好的方法。

Manual 實(shí)驗(yàn)對(duì)知識(shí)庫中不存在的關(guān)系實(shí)例進(jìn)行預(yù)測(cè),然后使用人工標(biāo)注預(yù)測(cè)結(jié)果的正確性,使用 top-K 作為評(píng)測(cè)指標(biāo),結(jié)果如下表所示,本文提出的方法也達(dá)到了當(dāng)前較好的效果。

此外,實(shí)驗(yàn)還通過 case study,研究了模型對(duì)于 bag 中每個(gè)句子的注意力分配效果,表明本模型可以有效地區(qū)分有用的句子和噪聲句子,且本文的引入實(shí)體描述可以使得模型得到更好的注意力分配。

IJCAI 2017

論文 | Dynamic Weighted Majority for Incremental Learning of Imbalanced Data Streams with Concept Drift

鏈接 | https://www.paperweekly.site/papers/1530

解讀 | 鄧淑敏,浙江大學(xué) 2017 級(jí)直博生

1. 論文動(dòng)機(jī)

數(shù)據(jù)流中發(fā)生的概念漂移將降低在線學(xué)習(xí)過程的準(zhǔn)確性和穩(wěn)定性。如果數(shù)據(jù)流不平衡,檢測(cè)和修正概念漂移將更具挑戰(zhàn)性。目前已經(jīng)對(duì)這兩個(gè)問題分別進(jìn)行了深入的研究,但是還沒有考慮它們同時(shí)出現(xiàn)的情況。

在本文中,作者提出了一種基于塊的增量學(xué)習(xí)方法,稱為動(dòng)態(tài)加權(quán)多數(shù)增量學(xué)習(xí)(DWMIL)來處理具有概念漂移和類不平衡問題的數(shù)據(jù)流。DWMIL 根據(jù)基分類器在當(dāng)前數(shù)據(jù)塊上的性能,對(duì)基分類器進(jìn)行動(dòng)態(tài)加權(quán),實(shí)現(xiàn)了一個(gè)整體框架。

2. Algorithm & Ensemble Framework

算法的輸入:在時(shí)間點(diǎn) t 的數(shù)據(jù) D^(t)={xi belongs to X,yi belongs to Y}, i=1,…,N, 刪除分類器的閾值 theta, 基分類器集合 H^(t-1)={H^(t-1)_1,…,H^(t-1)_m}, 基分類器的權(quán)重 w^(t-1), 基分類器的數(shù)量 m, 集成的規(guī)模大小 T。

Step 1:通過集成分類器對(duì)輸入的進(jìn)行預(yù)測(cè)。

Step 2:計(jì)算當(dāng)前輸入的數(shù)據(jù)塊在基分類器上的錯(cuò)誤率 epsilon^t_j,并更新基分類器的權(quán)重。

Step 3:移除過時(shí)的分類器(權(quán)重值小于閾值 theta)并更新基分類器數(shù)量。

Step 4:構(gòu)建新的分類器并對(duì)其初始化。

算法的輸出:更新的基分類器集合 H^(t), 基分類器的權(quán)重 W^(t),基分類器的數(shù)量 m,目標(biāo)預(yù)測(cè)值 bar_y。

本文的算法如下圖所示:

3. Experiments

本文選取了 4 個(gè)合成、2 個(gè)真實(shí)的均具有概念漂移的數(shù)據(jù)集。并且在集合方法、自適應(yīng)方法、主動(dòng)漂移檢測(cè)方法中各選取了一個(gè)具有代表性的作為 baseline,分別是:Learn++.NIE(LPN)、Recursive Ensemble Approach (REA)、Class-Based ensemble for Class Evolution(CBCE),并與 Dynamic Weighted Majority (DWM) 也進(jìn)行了比較。

對(duì)具有概念漂移的合成數(shù)據(jù)集和實(shí)際數(shù)據(jù)集的實(shí)驗(yàn)表明,DWMIL 與現(xiàn)有技術(shù)相比,性能更好,計(jì)算成本更低。

4. Comparisons

與現(xiàn)有方法相比,其優(yōu)點(diǎn)在于以下 4 點(diǎn):

能夠使非偏移的數(shù)據(jù)流保持穩(wěn)定,快速適應(yīng)新的概念;

它是完全增量的,即不需要存儲(chǔ)以前的數(shù)據(jù);

模型中保持有限數(shù)量的分類器以確保高效;

簡(jiǎn)單,只需要一個(gè)閾值參數(shù)。

DWMIL 與 DWM 相比:

在學(xué)習(xí)數(shù)據(jù)流的過程中,DWMIL 和 DWM 都保留了一些分類器。但是,在決定是否創(chuàng)建一個(gè)新的分類器時(shí),DWM 的依據(jù)是單個(gè)樣本的預(yù)測(cè)性能。如果數(shù)據(jù)不平衡,則樣本屬于多數(shù)類的概率比少數(shù)類的高得多,并且對(duì)多數(shù)類樣本錯(cuò)誤分類的概率較低。

因此,DWM 在不平衡數(shù)據(jù)流上創(chuàng)建新分類器的機(jī)會(huì)很低。事實(shí)證明,它可能無法有效地適應(yīng)新的概念。相比之下,DWMIL 為每個(gè)數(shù)據(jù)塊創(chuàng)建一個(gè)新的分類器,以及時(shí)學(xué)習(xí)新的概念。

在決定是否移除一個(gè)過時(shí)或低效的分類器時(shí),DWM 中分類器的權(quán)重通過固定的參數(shù)β減少,并且在歸一化之后再次減小。

相反,DWMIL 根據(jù)性能降低了權(quán)重,沒有任何標(biāo)準(zhǔn)化。因此,如果當(dāng)前概念與創(chuàng)建分類器的概念類似,則分類器可以持續(xù)更長(zhǎng)時(shí)間來對(duì)預(yù)測(cè)做出貢獻(xiàn)。

DWMIL 與 Learn++ 相比:

Learn++ 和 DWMIL 都是為每個(gè)數(shù)據(jù)塊創(chuàng)建分類,并使用分類錯(cuò)誤率來調(diào)整權(quán)重。

但是,關(guān)于降低在過去的數(shù)據(jù)塊上訓(xùn)練的分類器的權(quán)重這一問題,Learn++ 使用了時(shí)間衰減函數(shù) σ。這個(gè) σ 取決于兩個(gè)自由參數(shù):a 和 b,其中不同的值會(huì)產(chǎn)生不同的結(jié)果。在 DWMIL 中,減重僅取決于沒有自由參數(shù)的分類器的性能。

關(guān)于分類器權(quán)重的影響因素,在 Learn++ 中,權(quán)重不僅取決于當(dāng)前數(shù)據(jù)塊,還取決于創(chuàng)建的分類器到當(dāng)前數(shù)據(jù)塊的數(shù)據(jù)塊。在這種情況下,可能會(huì)產(chǎn)生偏差。

具體來說,如果一個(gè)分類器在其創(chuàng)建的數(shù)據(jù)塊上表現(xiàn)得非常好,它將在接下來幾個(gè)數(shù)據(jù)塊中持續(xù)獲得更高的權(quán)重。如果概念發(fā)生變化,那么在舊概念上訓(xùn)練的分類器的高權(quán)重將降低預(yù)測(cè)效果。

關(guān)于分類器的性能,Learn++ 會(huì)保留所有的分類器。如果數(shù)據(jù)流很長(zhǎng),累積的分類器會(huì)增加計(jì)算負(fù)擔(dān),因?yàn)樗枰u(píng)估當(dāng)前分塊上所有過去的分類器的性能。相比之下,DWMIL 放棄了過時(shí)或無用的分類器來提高計(jì)算效率。

筆者認(rèn)為,這篇文章的主要?jiǎng)?chuàng)新點(diǎn)在于:用數(shù)據(jù)塊的輸入代替?zhèn)鹘y(tǒng)的單一樣本輸入,使得模型可以更快地對(duì)概念漂移作出反應(yīng);通過對(duì)分類器性能的檢測(cè),動(dòng)態(tài)調(diào)整它們的權(quán)重,并及時(shí)剔除過時(shí)或低效的分類器,使得模型比較高效。

AAAI 2018

論文 | Reinforcement Learning for Relation Classification from Noisy Data

鏈接 | https://www.paperweekly.site/papers/1260

解讀 | 周亞林,浙江大學(xué)碩士

1. 論文動(dòng)機(jī)

Distant Supervision 是一種常用的生成關(guān)系分類訓(xùn)練樣本的方法,它通過將知識(shí)庫與非結(jié)構(gòu)化文本對(duì)齊來自動(dòng)構(gòu)建大量訓(xùn)練樣本,減少模型對(duì)人工標(biāo)注數(shù)據(jù)的依賴。

但是這樣標(biāo)注出的數(shù)據(jù)會(huì)有很多噪音,例如,如果 Obama 和 United States 在知識(shí)庫中的關(guān)系是 BornIn,那么“Barack Obama is the 44th President of the United States.”這樣的句子也會(huì)被標(biāo)注為 BornIn 關(guān)系。

為了減少訓(xùn)練樣本中的噪音,本文希望訓(xùn)練一個(gè)模型來對(duì)樣本進(jìn)行篩選,以便構(gòu)造一個(gè)噪音較小的數(shù)據(jù)集。模型在對(duì)樣本進(jìn)行篩選時(shí),無法直接判斷每條樣本的好壞,只能在篩選完以后判斷整個(gè)數(shù)據(jù)集的質(zhì)量,這種 delayed reward 的情形很適合用強(qiáng)化學(xué)習(xí)來解決。

2. 模型

模型框架如圖所示,左邊是基于強(qiáng)化學(xué)習(xí)的 Instance Selector,右邊是經(jīng)典的基于 CNN 的 Relation Classifier。

Instance Selector 根據(jù) Policy function 對(duì)樣本逐個(gè)篩選,每個(gè)樣本都可以執(zhí)行“選”或“不選”兩種 Action,篩選完以后會(huì)生成一個(gè)新的數(shù)據(jù)集。

我們用 Relation Classifier 來評(píng)估數(shù)據(jù)集的好壞,計(jì)算出一個(gè) reward,再使用 policy gradient 來更新 Policy function 的參數(shù),這里的 reward 采用的是數(shù)據(jù)集中所有樣本的平均 likelihood。

為了得到更多的反饋,提高訓(xùn)練效率,作者將樣本按照實(shí)體對(duì)分成一個(gè)個(gè) bag,每次 Instance Selector 對(duì)一個(gè) bag 篩選完以后,都會(huì)用 Relation Classifier 對(duì)這部分?jǐn)?shù)據(jù)集進(jìn)行評(píng)估,并更新 Policy function 的參數(shù)。

在所有 bag 訓(xùn)練完以后,再用篩選出的所有樣本更新 Relation Classifier 的參數(shù)。 具體訓(xùn)練過程如下:

3. 實(shí)驗(yàn)

論文在 NYT 數(shù)據(jù)集上與目前主流的方法進(jìn)行了比較,注意這里是 sentence-level 的分類結(jié)果,可以看到該方法取得了不錯(cuò)的效果。

論文分別在原始數(shù)據(jù)集和篩選以后的數(shù)據(jù)集上訓(xùn)練了兩種模型,并用 held-out evaluation 進(jìn)行評(píng)估,可以看出篩選以后的數(shù)據(jù)集訓(xùn)練出了更好的關(guān)系分類模型。

作者又比較了使用強(qiáng)化學(xué)習(xí)和 greedy selection 兩種篩選樣本的方法,強(qiáng)化學(xué)習(xí)的效果更好一些。

AAAI 2017

論文 | Leveraging Knowledge Bases in LSTMs for Improving Machine Reading

鏈接 | https://www.paperweekly.site/papers/1531

解讀 | 李娟,浙江大學(xué)博士生

這篇論文是今年發(fā)表在 ACL 的一篇文章,來自 CMU 的工作,提出通過更好地利用外部知識(shí)庫的方法解決機(jī)器閱讀問題。

由于傳統(tǒng)方法中用離散特征表示知識(shí)庫的知識(shí)存在了特征生成效果差而且特征工程偏特定任務(wù)的缺點(diǎn),本文選擇用連續(xù)向量表示方法來表示知識(shí)庫。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)端到端模型使得大部分背景知識(shí)被忽略,論文基于 BiLSTM 網(wǎng)絡(luò)提出擴(kuò)展網(wǎng)絡(luò) KBLSTM,結(jié)合 attention 機(jī)制在做任務(wù)時(shí)有效地融合知識(shí)庫中的知識(shí)。

論文以回答要不要加入 background knowledge,以及加入哪一些信息兩部分內(nèi)容為導(dǎo)向,并借助以下兩個(gè)例子說明兩部分內(nèi)容的重要性。

“Maigretleft viewers in tears.”利用背景知識(shí)和上下文我們可以知道 Maigret 指一個(gè)電視節(jié)目,“Santiago is charged withmurder.”如果過分依賴知識(shí)庫就會(huì)錯(cuò)誤地把它看成一個(gè)城市,所以根據(jù)上下文判斷知識(shí)庫哪些知識(shí)是相關(guān)的也很重要。

KBLSTM(Knowledge-aware Bidirectional LSTMs)有三個(gè)要點(diǎn):

檢索和當(dāng)前詞相關(guān)的概念集合V(x_t)

attention 動(dòng)態(tài)建模語義相關(guān)性

sentinel vector S_t 決定要不要加入 background knowledge

主要流程分兩條線:

1. 當(dāng)考慮背景知識(shí)的時(shí)候就把 knowledge module 考慮進(jìn)去;

2. 如果找不到和當(dāng)前詞相關(guān)的概念則設(shè)置 m_t 為 0,直接把 LSTM 的 hidden state vector 作為最后的輸出。

后者簡(jiǎn)單直接,這里說明前者的結(jié)構(gòu)。knowledge module 模塊把 S_t、h_t、V(x_t) 作為輸入,得到每個(gè)候選知識(shí)庫概念相對(duì)于 h_t 的權(quán)重 α_t,由 S_t 和 h_t 得到 β_t 作為 S_t 的權(quán)重,最后加權(quán)求和得到 m_t 和 h_t 共同作為輸入求最后輸出,這里通過找相關(guān)概念和相關(guān)權(quán)重決定加入知識(shí)庫的哪些知識(shí)。

論文用 WordNet 和 NELL 知識(shí)庫,在 ACE2005 和 OntoNotes 數(shù)據(jù)集上做了實(shí)體抽取和事件抽取任務(wù)。兩者的效果相對(duì)于以前的模型都有提升,且同時(shí)使用兩個(gè)知識(shí)庫比任選其一的效果要好。

媒體合作請(qǐng)聯(lián)系:

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
如何設(shè)計(jì)一款垂直領(lǐng)域的對(duì)話型機(jī)器人?
保姆級(jí)教程,用PyTorch和BERT進(jìn)行文本分類
最全的知識(shí)圖譜技術(shù)綜述 | 收藏
手把手:自然語言處理太難?按這個(gè)套路走,就是砍瓜切菜!(附Python代碼)
特征工程(三):特征縮放,從詞袋到 TF-IDF
手把手教你解決90%的NLP問題
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服