1 新智元推薦
作者:MirandaYang
AI復(fù)始,萬象更新 !
新智元祝廣大訂戶雞年大吉!
新智元啟動新一輪大招聘:COO、執(zhí)行總編、主編、高級編譯、主筆、運(yùn)營總監(jiān)、客戶經(jīng)理、咨詢總監(jiān)、行政助理等 9 大崗位全面開放。
簡歷投遞:jobs@aiera.com.cn
HR 微信:13552313024
新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵(lì);為骨干員工提供最完整的培訓(xùn)體系、高于業(yè)界平均水平的工資和獎(jiǎng)金。
加盟新智元,與人工智能業(yè)界領(lǐng)袖攜手改變世界。
【新智元導(dǎo)讀】本文從 GAN 為什么沒有在自然語言處理(NLP)中取得讓人驚喜的成果出發(fā),分析了原始 GAN 在 NLP 中的問題。 介紹和分析了近期將 GAN 應(yīng)用于 NLP 中的一些論文,并進(jìn)行了總結(jié)。
GAN 自從被提出以來,就廣受大家的關(guān)注,尤其是在計(jì)算機(jī)視覺領(lǐng)域引起了很大的反響。這篇文章主要介紹 GAN 在 NLP 里的應(yīng)用(可以算是論文解讀或者論文筆記),并未涉及GAN 的基本知識 。由于很長時(shí)間沒有寫中文文章了,請各位對文章中不準(zhǔn)確的地方多多包涵、指教。
雖然 GAN 在圖像生成上取得了很好的成績,GAN 并沒有在自然語言處理(NLP)任務(wù)中取得讓人驚喜的成果。 其原因大概可以總結(jié)為如下幾點(diǎn):
(1) 原始 GAN 主要應(yīng)用實(shí)數(shù)空間(連續(xù)型數(shù)據(jù))上,在生成離散數(shù)據(jù)(texts)這個(gè)問題上并不 work。GAN 理論的提出者 Ian Goodfellow 博士這樣回答來這個(gè)問題問題:“GANs 目前并沒有應(yīng)用到自然語言處理(NLP)中,最初的 GANs 僅僅定義在實(shí)數(shù)領(lǐng)域,GANs 通過訓(xùn)練出的生成器來產(chǎn)生合成數(shù)據(jù),然后在合成數(shù)據(jù)上運(yùn)行判別器,判別器的輸出梯度將會告訴你,如何通過略微改變合成數(shù)據(jù)而使其更加現(xiàn)實(shí)。一般來說只有在數(shù)據(jù)連續(xù)的情況下,你才可以略微改變合成的數(shù)據(jù),而如果數(shù)據(jù)是離散的,則不能簡單的通過改變合成數(shù)據(jù)。例如,如果你輸出了一張圖片,其像素值是1.0,那么接下來你可以將這個(gè)值改為1.0001。如果輸出了一個(gè)單詞“penguin”,那么接下來就不能將其改變?yōu)椤皃enguin .001”,因?yàn)闆]有“penguin .001”這個(gè)單詞。 因?yàn)樗械淖匀徽Z言處理(NLP)的基礎(chǔ)都是離散值,如“單詞”、“字母”或者“音節(jié)”, NLP 中應(yīng)用 GANs是非常困難的。一般而言,采用增強(qiáng)學(xué)習(xí)算法。目前據(jù)我所知,還沒有人真正的開始研究利用增強(qiáng)算法解決 NLP 問題。”
(2) 在生成 text 時(shí),GAN 對整個(gè)文本序列進(jìn)行建模打分。對于部分(partially)生成的序列,十分難判斷其在之后生成整個(gè) (fully) 序列時(shí)的分?jǐn)?shù)。
(3) 另一個(gè)潛在的挑戰(zhàn)涉及 RNN 的性質(zhì)(生成文本大多采用 RNN 模型)。假設(shè)我們試圖從 latent codes 生成文本,error 就會隨著句子的長度成指數(shù)級的累積。最開始的幾個(gè)詞可能是相對合理的,但是句子質(zhì)量會隨著句子長度的增加而不斷變差。另外,句子的長度是從隨機(jī)的 latent representation 生成的,所以句子長度也是難以控制。
下面我將主要介紹和分析最近閱讀過的將 GAN 應(yīng)用于 NLP 中的一些論文:
1. Generating Text via Adversarial Training
論文鏈接:
http://people.duke.edu/~yz196/pdf/textgan.pdf
這是2016年的 NIPS GAN Workshop 上的一篇論文, 嘗試將 GAN 理論應(yīng)用到了文本生成任務(wù)上。 文中的方法比較簡單,具體可以總結(jié)為:
(1) 以遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)作為GAN的生成器(generator)。其中,用光滑近似(smooth approximation)的思路來逼近 LSTM 的輸出。結(jié)構(gòu)圖如下:
(2) 目標(biāo)函數(shù)和原始 GAN 有所不同,文中采用了feature matching 的方法 。迭代優(yōu)化過程包含以下兩個(gè)步驟:
其中式 (6) 為標(biāo)準(zhǔn)GAN的優(yōu)化函數(shù),式 (7) 為feature matching的優(yōu)化函數(shù)。
(3) 本文的初始化非常有意思,特別是在判別器的預(yù)訓(xùn)練方面,利用原始的句子和該句子中交換兩個(gè)詞的位置后得到的新句子進(jìn)行判別訓(xùn)練。(在初始化的過程中,運(yùn)用逐點(diǎn)分類損失函數(shù)對判別器進(jìn)行優(yōu)化)。這非常有意思,因?yàn)閷蓚€(gè)單詞互換位置,輸入的數(shù)據(jù)信息實(shí)際上是基本相同的。比如,大多數(shù)卷積計(jì)算最終會得出完全相同的值。
(4) 本文生成器的更新頻率是判別器的更新頻率的5倍,這與原始GAN的設(shè)定恰好相反。這是因?yàn)長STM比CNN的參數(shù)更多,更難訓(xùn)練。
(5) 然而,本文生成模型 (LSTM) decode 階段有 exposure bias 問題,即在訓(xùn)練過程中逐漸用預(yù)測輸出替代實(shí)際輸出作為下一個(gè)詞的輸入。
2. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
論文鏈接:https://arxiv.org/pdf/1609.05473.pdf
論文源碼:https://github.com/LantaoYu/SeqGAN
文本將誤差作為一種增強(qiáng)學(xué)習(xí)的獎(jiǎng)勵(lì),以一種前饋的方式訓(xùn)練,用增強(qiáng)的學(xué)習(xí)的探索模式去更新G網(wǎng)絡(luò)。
主要內(nèi)容:這篇論文將序列生成過程當(dāng)作一個(gè) sequential decision making 過程。如下圖:
(1) 其中左圖為 GAN 網(wǎng)絡(luò)訓(xùn)練的步驟1,判別器D 主要用來區(qū)分真實(shí)樣本和偽造樣本,這里的判別器D 是用 CNN 來實(shí)現(xiàn)的。
(2) 右圖為 GAN 網(wǎng)絡(luò)訓(xùn)練的步驟2, 根據(jù)判別器D 回傳的判別概率回傳給生成器G,通過增強(qiáng)學(xué)習(xí)的方法來更新生成器G,這里的的生成器G 是用 LSTM 來實(shí)現(xiàn)的。
(3) 因?yàn)?G網(wǎng)絡(luò)的更新策略是增強(qiáng)學(xué)習(xí),增強(qiáng)學(xué)習(xí)的四個(gè)要素 state, action, policy, reward分別為:state 為現(xiàn)在已經(jīng)生成的tokens (當(dāng)前 timestep 之前 LSTM decoder 的結(jié)果), action 是下一個(gè)即將生成的 token (當(dāng)前解碼詞), policy 為 GAN 的生成器 G網(wǎng)絡(luò),reward 為GAN 的判別器 D網(wǎng)絡(luò)所生成的判別概率。其中,reward 采用以下方法來近似:
本過程特點(diǎn):即當(dāng)解碼到t時(shí),即對后面 T-t 個(gè) timestep 采用蒙特卡洛搜索搜索出 N 條路徑,將這 N 條路徑分別和已經(jīng) decode 的結(jié)果組成N條完整輸出,然后將 D 網(wǎng)絡(luò)對應(yīng)獎(jiǎng)勵(lì)的平均值作為 reward. 因?yàn)楫?dāng) t=T 時(shí)無法再向后探索路徑,所以直接以完整 decode 結(jié)果的獎(jiǎng)勵(lì)作為 reward。
(4) 對于 RL 部分,本文采用了 policy gradient 方法。 根據(jù) policy gradient 理論,生成器G的目標(biāo)函數(shù)可以表示如下:
求導(dǎo)結(jié)果為: (詳細(xì)推導(dǎo)過程請看原論文附頁)
(5) 每隔一段時(shí)間,當(dāng)生成更多的更逼真的句子后,重新訓(xùn)判別器D,其中判別器的目標(biāo)函數(shù)表示如下:
算法結(jié)構(gòu)圖可以表示為如下:
實(shí)驗(yàn)部分主要分為合成數(shù)據(jù)實(shí)驗(yàn)和現(xiàn)實(shí)數(shù)據(jù)實(shí)驗(yàn):
(1) 合成數(shù)據(jù)實(shí)驗(yàn): 隨機(jī)初始一個(gè) LSTM 生成器 A,隨機(jī)生成一部分訓(xùn)練數(shù)據(jù),來訓(xùn)練各種生成模型。
評判標(biāo)準(zhǔn)為:負(fù)對數(shù)似然(交叉熵) NLL. 詳細(xì)實(shí)驗(yàn)設(shè)置可以參看原論文。
(2) 現(xiàn)實(shí)數(shù)據(jù)實(shí)驗(yàn):主要展示中文詩句生成,奧巴馬演講生成,音樂生成的結(jié)果。實(shí)驗(yàn)數(shù)據(jù)分別為中文詩歌數(shù)據(jù)集 (16,394首絕句),奧巴馬演講數(shù)據(jù)集 (11,092 段落), Nottingham 音樂數(shù)據(jù)集 (695首歌)。評測方法為 BLEU score, 實(shí)驗(yàn)結(jié)果如下:
文中并未展示模型生成的詩歌等, 具體效果如何呢?
3. Adversarial Learning for Neural Dialogue Generation
論文鏈接:https://arxiv.org/pdf/1701.06547.pdf
論文源碼:https://github.com/jiweil/Neural-Dialogue-Generation
這篇論文是2017年1月26號上傳到 arxiv上的,屬于最新的 GAN 用于 NLP 的論文。文中主要用對抗性訓(xùn)練 (adversarial training) 方法來進(jìn)行開放式對話生成 (open-domain dialogue generation)。文中把這項(xiàng)任務(wù)作為強(qiáng)化學(xué)習(xí)(RL)問題,聯(lián)合訓(xùn)練生成器和判別器。和 SeqGAN 一樣,本文也是使用判別器D 的結(jié)果作為 RL 的 reward 部分,這個(gè) reward 用來獎(jiǎng)勵(lì)生成器G,推動生成器G 產(chǎn)生的對話類似人類對話。
總體來說,本文的思路和 SeqGAN 是大體一樣的,但是有幾處不同和改進(jìn)的地方:
(1) 因?yàn)楸疚氖怯糜陂_放式對話生成,所以文中的生成器采用 seq2seq 模型 (而非普通的 LSTM 模型)。 判別器則采用了 hierarchical encoder (而非 CNN)。
(2) 采取了兩種方法為完全生成或者部分生成的序列計(jì)算 reward。除了 Monte Carlo search (與 SeqGAN相似) 方法,本文新提出了一個(gè)能對部分生成的序列進(jìn)行 reward 計(jì)算的方法。使用所有完全 (fully) 和部分 (partially) 解碼的序列來訓(xùn)練判別器會造成 overfitting。早期產(chǎn)生的部分(partially)序列會出現(xiàn)在許多的訓(xùn)練數(shù)據(jù)中,比如生成的第一個(gè) token y_1 將會出現(xiàn)在所有的部分生成 (partially generated) 的序列里。所以本文提出僅僅分別從正(positive)序列 y 和負(fù)(negative)序列y-的每個(gè)子序列中隨機(jī)地選取一個(gè) sample 來訓(xùn)練判別器D。這個(gè)方法比 Monte Carlo search 更快速,但是也會使得判別器更弱,更不準(zhǔn)確。
(3) 在 SeqGAN 中,生成器只能間接的通過判別器生成的 reward 來獎(jiǎng)勵(lì)或者懲罰自己所產(chǎn)生的序列。而不能直接從 gold-standard 序列中直接獲取信息。 這種訓(xùn)練方式是脆弱的,一旦生成器在某個(gè)訓(xùn)練 batch 中變壞,判別器將會很容易對生成的句子進(jìn)行判斷 (比如 reward為0 ),此時(shí)生成器就會迷失。生成器只知道現(xiàn)在生成的句子是壞的,但是并不知道如何調(diào)整才能使得生成的句子變好。為了解決這個(gè)問題,在生成器的更新過程中,本文輸入了 human-generated responses。對于這些 human-generated responses, 判別器可以將其 reward 設(shè)置為1。這樣生成器可以在上述情況下仍能生成好的 responses。
(4) 訓(xùn)練過程中,有些針對 dialogue system 的設(shè)置(trick)。這部分內(nèi)容,讀者可以參考 Jiwei Li 之前的關(guān)于 dialogue system 的論文。
部分實(shí)驗(yàn)結(jié)果:
值得思考的地方:文中只嘗試用判別器的結(jié)果作為 reward, 結(jié)合 原文作者之前在 dialogue system 文中提出的其他 reward 機(jī)制(e.g., mutual information)會不會提高效果?
4. GANs for sequence of discrete elements with the Gumbel-softmax distribution
論文鏈接:https://arxiv.org/pdf/1611.04051.pdf
相比前面兩篇論文,本文在處理離散數(shù)據(jù)這個(gè)問題上則比較簡單暴力。
離散數(shù)據(jù) (用one-hot方法表示)一般可以從多項(xiàng)式采樣取得,例如由softmax函數(shù)的輸出p = softmax(h)。 根據(jù)之前的概率分布,以p的概率進(jìn)行采樣y的過程等價(jià)于:y=one_hot(argmax_i(h_i g_i)) , 其中g(shù)_i是服從Gumbel distribution (with zero location and unit scale)。然而one_hot(argmax(.)) 是不可微分的。
與原始GAN不同,作者提出了一種方法來近似上面的式子: y = softmax(1/ r (h g))。這個(gè)公式是可以微分的。算法結(jié)構(gòu)如下:
本文的實(shí)驗(yàn)部分做得比較粗糙,只展示了生成得context-free grammar, 并未在生成其他文本數(shù)據(jù)上做實(shí)驗(yàn)。
總的來說,這篇論文本身方法還值得改進(jìn),也可以值得借鑒下。
5. Connecting generative adversarial network and actor-critic methods
論文鏈接:https://arxiv.org/pdf/1610.01945.pdf
Actor-critic methods [2]: 許多RL方法 (e.g., policy gradient) 只作用于policy 或者 value function。Actor-critic方法則結(jié)合了policy-only和value function-only 的方法。 其中critic用來近似或者估計(jì)value function,actor 被稱為policy structure, 主要用來選擇action。Actor-critic是一個(gè)on-policy的學(xué)習(xí)過程。Critic模型的結(jié)果用來幫助提高actor policy的性能。
GAN和actor-critic具有許多相似之處。Actor-critic模型中的actor功能類似于GAN中的generator, 他們都是用來take an action or generate a sample。Actor-critic模型中的critic則類似于GAN中的discriminator, 主要用來評估 actor or generator 的輸出。具體的相同和不同點(diǎn),感興趣的朋友可以仔細(xì)閱讀原文。
這篇論文主要貢獻(xiàn)在于從不同的角度來說明了GAN和actor-critic模型的相同與不同點(diǎn),從而鼓勵(lì)研究GAN的學(xué)者和研究actor-critic模型的學(xué)者合作研發(fā)出通用、穩(wěn)定、可擴(kuò)展的算法,或者從各自的研究中獲取靈感。
最近Bahdanau等大神提出了用actor-critic模型來進(jìn)行sequence prediction [3]。雖然[3]中并沒有用到GAN,或許對各位能有啟發(fā)。 用類似的思想,GAN在sequence prediction上也許也能取得的比較好的效果?
[1] 深度解讀:GAN模型及其在2016年度的進(jìn)展
[2] Actor-Critic Algorithms
[3] An actor-critic algorithm for sequence prediction
筆者最近也在關(guān)注和從事 non-goal-oriented dialogue system 以及 goal-oriented question answering 的研究, please feel free to contact me if you have similar interests.
新浪微博:楊敏_HKU,Wechat: yangmin19911129
啟動2017創(chuàng)業(yè)大賽
AI 創(chuàng)業(yè)大賽由新智元與10 家主流 AI 創(chuàng)投機(jī)構(gòu):藍(lán)馳創(chuàng)投、紅杉資本中國基金、高瓴智成人工智能基金、藍(lán)湖資本、藍(lán)象資本、IDG資本、高榕資本、中信建投證券、明勢資本、松禾遠(yuǎn)望基金攜手發(fā)起,由新智元主辦,北京市中關(guān)村科技園區(qū)管理委員會、中關(guān)村科技園區(qū)海淀園管理委員會支持,是一場聚合了 AI 技術(shù)領(lǐng)袖和投資領(lǐng)袖的盛會。新智元向滿懷雄心的未來AI獨(dú)角獸提供強(qiáng)大的創(chuàng)投資源對接機(jī)會,頂級風(fēng)投 TS 等你來拿。
http://form.mikecrm.com/gthejw
聯(lián)系客服