刘亦菲被日视频,美女视频下载免费观看,美女视频网站在线观看

1 新智元推薦

作者：MirandaYang

AI復(fù)始，萬象更新！

新智元祝廣大訂戶雞年大吉！

新智元日前宣布，獲6家頂級機(jī)構(gòu)總額達(dá)數(shù)千萬元的PreA輪融資，藍(lán)馳創(chuàng)投領(lǐng)投，紅杉資本中國基金、高瓴智成、藍(lán)湖資本、藍(lán)象資本、今日頭條跟投。本輪融資將用于新智元團(tuán)隊(duì)規(guī)模擴(kuò)充并增加新產(chǎn)品服務(wù)線，目標(biāo)打造 To B 的人工智能全產(chǎn)業(yè)鏈服務(wù)平臺。

新智元啟動新一輪大招聘：COO、執(zhí)行總編、主編、高級編譯、主筆、運(yùn)營總監(jiān)、客戶經(jīng)理、咨詢總監(jiān)、行政助理等 9 大崗位全面開放。

簡歷投遞：jobs@aiera.com.cn

HR 微信：13552313024

新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵(lì)；為骨干員工提供最完整的培訓(xùn)體系、高于業(yè)界平均水平的工資和獎(jiǎng)金。

加盟新智元，與人工智能業(yè)界領(lǐng)袖攜手改變世界。

【新智元導(dǎo)讀】本文從 GAN 為什么沒有在自然語言處理（NLP）中取得讓人驚喜的成果出發(fā)，分析了原始 GAN 在 NLP 中的問題。介紹和分析了近期將 GAN 應(yīng)用于 NLP 中的一些論文，并進(jìn)行了總結(jié)。

GAN 自從被提出以來，就廣受大家的關(guān)注，尤其是在計(jì)算機(jī)視覺領(lǐng)域引起了很大的反響。這篇文章主要介紹 GAN 在 NLP 里的應(yīng)用（可以算是論文解讀或者論文筆記），并未涉及GAN 的基本知識。由于很長時(shí)間沒有寫中文文章了，請各位對文章中不準(zhǔn)確的地方多多包涵、指教。

GAN 為什么沒有 NLP 取得好成績？

雖然 GAN 在圖像生成上取得了很好的成績，GAN 并沒有在自然語言處理（NLP）任務(wù)中取得讓人驚喜的成果。其原因大概可以總結(jié)為如下幾點(diǎn)：

(1) 原始 GAN 主要應(yīng)用實(shí)數(shù)空間（連續(xù)型數(shù)據(jù)）上，在生成離散數(shù)據(jù)（texts）這個(gè)問題上并不 work。GAN 理論的提出者 Ian Goodfellow 博士這樣回答來這個(gè)問題問題：“GANs 目前并沒有應(yīng)用到自然語言處理（NLP）中，最初的 GANs 僅僅定義在實(shí)數(shù)領(lǐng)域，GANs 通過訓(xùn)練出的生成器來產(chǎn)生合成數(shù)據(jù)，然后在合成數(shù)據(jù)上運(yùn)行判別器，判別器的輸出梯度將會告訴你，如何通過略微改變合成數(shù)據(jù)而使其更加現(xiàn)實(shí)。一般來說只有在數(shù)據(jù)連續(xù)的情況下，你才可以略微改變合成的數(shù)據(jù)，而如果數(shù)據(jù)是離散的，則不能簡單的通過改變合成數(shù)據(jù)。例如，如果你輸出了一張圖片，其像素值是1.0，那么接下來你可以將這個(gè)值改為1.0001。如果輸出了一個(gè)單詞“penguin”，那么接下來就不能將其改變?yōu)椤皃enguin .001”，因?yàn)闆]有“penguin .001”這個(gè)單詞。因?yàn)樗械淖匀徽Z言處理（NLP）的基礎(chǔ)都是離散值，如“單詞”、“字母”或者“音節(jié)”， NLP 中應(yīng)用 GANs是非常困難的。一般而言，采用增強(qiáng)學(xué)習(xí)算法。目前據(jù)我所知，還沒有人真正的開始研究利用增強(qiáng)算法解決 NLP 問題。”

(2) 在生成 text 時(shí)，GAN 對整個(gè)文本序列進(jìn)行建模打分。對于部分(partially)生成的序列，十分難判斷其在之后生成整個(gè) (fully) 序列時(shí)的分?jǐn)?shù)。

(3) 另一個(gè)潛在的挑戰(zhàn)涉及 RNN 的性質(zhì)（生成文本大多采用 RNN 模型）。假設(shè)我們試圖從 latent codes 生成文本，error 就會隨著句子的長度成指數(shù)級的累積。最開始的幾個(gè)詞可能是相對合理的，但是句子質(zhì)量會隨著句子長度的增加而不斷變差。另外，句子的長度是從隨機(jī)的 latent representation 生成的，所以句子長度也是難以控制。

近期將 GAN 應(yīng)用于 NLP的論文介紹

下面我將主要介紹和分析最近閱讀過的將 GAN 應(yīng)用于 NLP 中的一些論文：

1. Generating Text via Adversarial Training

論文鏈接：

http://people.duke.edu/~yz196/pdf/textgan.pdf

這是2016年的 NIPS GAN Workshop 上的一篇論文，嘗試將 GAN 理論應(yīng)用到了文本生成任務(wù)上。文中的方法比較簡單，具體可以總結(jié)為：

(1) 以遞歸神經(jīng)網(wǎng)絡(luò)（LSTM）作為GAN的生成器（generator）。其中，用光滑近似（smooth approximation）的思路來逼近 LSTM 的輸出。結(jié)構(gòu)圖如下：

(2) 目標(biāo)函數(shù)和原始 GAN 有所不同，文中采用了feature matching 的方法。迭代優(yōu)化過程包含以下兩個(gè)步驟：

其中式 (6) 為標(biāo)準(zhǔn)GAN的優(yōu)化函數(shù)，式 (7) 為feature matching的優(yōu)化函數(shù)。

(3) 本文的初始化非常有意思，特別是在判別器的預(yù)訓(xùn)練方面，利用原始的句子和該句子中交換兩個(gè)詞的位置后得到的新句子進(jìn)行判別訓(xùn)練。(在初始化的過程中，運(yùn)用逐點(diǎn)分類損失函數(shù)對判別器進(jìn)行優(yōu)化)。這非常有意思，因?yàn)閷蓚€(gè)單詞互換位置，輸入的數(shù)據(jù)信息實(shí)際上是基本相同的。比如，大多數(shù)卷積計(jì)算最終會得出完全相同的值。

(4) 本文生成器的更新頻率是判別器的更新頻率的5倍，這與原始GAN的設(shè)定恰好相反。這是因?yàn)長STM比CNN的參數(shù)更多，更難訓(xùn)練。

(5) 然而，本文生成模型 (LSTM) decode 階段有 exposure bias 問題，即在訓(xùn)練過程中逐漸用預(yù)測輸出替代實(shí)際輸出作為下一個(gè)詞的輸入。

2. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

論文鏈接：https://arxiv.org/pdf/1609.05473.pdf

論文源碼：https://github.com/LantaoYu/SeqGAN

文本將誤差作為一種增強(qiáng)學(xué)習(xí)的獎(jiǎng)勵(lì)，以一種前饋的方式訓(xùn)練，用增強(qiáng)的學(xué)習(xí)的探索模式去更新G網(wǎng)絡(luò)。

主要內(nèi)容：這篇論文將序列生成過程當(dāng)作一個(gè) sequential decision making 過程。如下圖：

(1) 其中左圖為 GAN 網(wǎng)絡(luò)訓(xùn)練的步驟1，判別器D 主要用來區(qū)分真實(shí)樣本和偽造樣本，這里的判別器D 是用 CNN 來實(shí)現(xiàn)的。

(2) 右圖為 GAN 網(wǎng)絡(luò)訓(xùn)練的步驟2，根據(jù)判別器D 回傳的判別概率回傳給生成器G，通過增強(qiáng)學(xué)習(xí)的方法來更新生成器G，這里的的生成器G 是用 LSTM 來實(shí)現(xiàn)的。

(3) 因?yàn)?G網(wǎng)絡(luò)的更新策略是增強(qiáng)學(xué)習(xí)，增強(qiáng)學(xué)習(xí)的四個(gè)要素 state, action, policy, reward分別為：state 為現(xiàn)在已經(jīng)生成的tokens (當(dāng)前 timestep 之前 LSTM decoder 的結(jié)果), action 是下一個(gè)即將生成的 token (當(dāng)前解碼詞), policy 為 GAN 的生成器 G網(wǎng)絡(luò)，reward 為GAN 的判別器 D網(wǎng)絡(luò)所生成的判別概率。其中，reward 采用以下方法來近似：

本過程特點(diǎn)：即當(dāng)解碼到t時(shí)，即對后面 T-t 個(gè) timestep 采用蒙特卡洛搜索搜索出 N 條路徑，將這 N 條路徑分別和已經(jīng) decode 的結(jié)果組成N條完整輸出，然后將 D 網(wǎng)絡(luò)對應(yīng)獎(jiǎng)勵(lì)的平均值作為 reward. 因?yàn)楫?dāng) t=T 時(shí)無法再向后探索路徑，所以直接以完整 decode 結(jié)果的獎(jiǎng)勵(lì)作為 reward。

(4) 對于 RL 部分，本文采用了 policy gradient 方法。根據(jù) policy gradient 理論，生成器G的目標(biāo)函數(shù)可以表示如下：

求導(dǎo)結(jié)果為: (詳細(xì)推導(dǎo)過程請看原論文附頁)

(5) 每隔一段時(shí)間，當(dāng)生成更多的更逼真的句子后，重新訓(xùn)判別器D，其中判別器的目標(biāo)函數(shù)表示如下：

算法結(jié)構(gòu)圖可以表示為如下：

實(shí)驗(yàn)部分主要分為合成數(shù)據(jù)實(shí)驗(yàn)和現(xiàn)實(shí)數(shù)據(jù)實(shí)驗(yàn)：

(1) 合成數(shù)據(jù)實(shí)驗(yàn): 隨機(jī)初始一個(gè) LSTM 生成器 A，隨機(jī)生成一部分訓(xùn)練數(shù)據(jù)，來訓(xùn)練各種生成模型。

評判標(biāo)準(zhǔn)為：負(fù)對數(shù)似然(交叉熵) NLL. 詳細(xì)實(shí)驗(yàn)設(shè)置可以參看原論文。

(2) 現(xiàn)實(shí)數(shù)據(jù)實(shí)驗(yàn)：主要展示中文詩句生成，奧巴馬演講生成，音樂生成的結(jié)果。實(shí)驗(yàn)數(shù)據(jù)分別為中文詩歌數(shù)據(jù)集 (16,394首絕句)，奧巴馬演講數(shù)據(jù)集 (11,092 段落)， Nottingham 音樂數(shù)據(jù)集 (695首歌)。評測方法為 BLEU score, 實(shí)驗(yàn)結(jié)果如下：

文中并未展示模型生成的詩歌等, 具體效果如何呢？

3. Adversarial Learning for Neural Dialogue Generation

論文鏈接：https://arxiv.org/pdf/1701.06547.pdf

論文源碼：https://github.com/jiweil/Neural-Dialogue-Generation

這篇論文是2017年1月26號上傳到 arxiv上的，屬于最新的 GAN 用于 NLP 的論文。文中主要用對抗性訓(xùn)練 (adversarial training) 方法來進(jìn)行開放式對話生成 (open-domain dialogue generation)。文中把這項(xiàng)任務(wù)作為強(qiáng)化學(xué)習(xí)(RL)問題，聯(lián)合訓(xùn)練生成器和判別器。和 SeqGAN 一樣，本文也是使用判別器D 的結(jié)果作為 RL 的 reward 部分，這個(gè) reward 用來獎(jiǎng)勵(lì)生成器G，推動生成器G 產(chǎn)生的對話類似人類對話。

總體來說，本文的思路和 SeqGAN 是大體一樣的，但是有幾處不同和改進(jìn)的地方：

(1) 因?yàn)楸疚氖怯糜陂_放式對話生成，所以文中的生成器采用 seq2seq 模型 (而非普通的 LSTM 模型)。判別器則采用了 hierarchical encoder (而非 CNN)。

(2) 采取了兩種方法為完全生成或者部分生成的序列計(jì)算 reward。除了 Monte Carlo search (與 SeqGAN相似) 方法，本文新提出了一個(gè)能對部分生成的序列進(jìn)行 reward 計(jì)算的方法。使用所有完全 (fully) 和部分 (partially) 解碼的序列來訓(xùn)練判別器會造成 overfitting。早期產(chǎn)生的部分(partially)序列會出現(xiàn)在許多的訓(xùn)練數(shù)據(jù)中，比如生成的第一個(gè) token y_1 將會出現(xiàn)在所有的部分生成 (partially generated) 的序列里。所以本文提出僅僅分別從正(positive)序列 y 和負(fù)(negative)序列y-的每個(gè)子序列中隨機(jī)地選取一個(gè) sample 來訓(xùn)練判別器D。這個(gè)方法比 Monte Carlo search 更快速，但是也會使得判別器更弱，更不準(zhǔn)確。

(3) 在 SeqGAN 中，生成器只能間接的通過判別器生成的 reward 來獎(jiǎng)勵(lì)或者懲罰自己所產(chǎn)生的序列。而不能直接從 gold-standard 序列中直接獲取信息。這種訓(xùn)練方式是脆弱的，一旦生成器在某個(gè)訓(xùn)練 batch 中變壞，判別器將會很容易對生成的句子進(jìn)行判斷 (比如 reward為0 )，此時(shí)生成器就會迷失。生成器只知道現(xiàn)在生成的句子是壞的，但是并不知道如何調(diào)整才能使得生成的句子變好。為了解決這個(gè)問題，在生成器的更新過程中，本文輸入了 human-generated responses。對于這些 human-generated responses，判別器可以將其 reward 設(shè)置為1。這樣生成器可以在上述情況下仍能生成好的 responses。

(4) 訓(xùn)練過程中，有些針對 dialogue system 的設(shè)置(trick)。這部分內(nèi)容，讀者可以參考 Jiwei Li 之前的關(guān)于 dialogue system 的論文。

部分實(shí)驗(yàn)結(jié)果：

值得思考的地方：文中只嘗試用判別器的結(jié)果作為 reward, 結(jié)合原文作者之前在 dialogue system 文中提出的其他 reward 機(jī)制(e.g., mutual information)會不會提高效果？

4. GANs for sequence of discrete elements with the Gumbel-softmax distribution

論文鏈接：https://arxiv.org/pdf/1611.04051.pdf

相比前面兩篇論文，本文在處理離散數(shù)據(jù)這個(gè)問題上則比較簡單暴力。

離散數(shù)據(jù) (用one-hot方法表示)一般可以從多項(xiàng)式采樣取得，例如由softmax函數(shù)的輸出p = softmax(h)。根據(jù)之前的概率分布，以p的概率進(jìn)行采樣y的過程等價(jià)于：y=one_hot(argmax_i(h_i g_i)) , 其中g(shù)_i是服從Gumbel distribution (with zero location and unit scale)。然而one_hot(argmax(.)) 是不可微分的。

與原始GAN不同，作者提出了一種方法來近似上面的式子： y = softmax(1/ r (h g))。這個(gè)公式是可以微分的。算法結(jié)構(gòu)如下：

本文的實(shí)驗(yàn)部分做得比較粗糙，只展示了生成得context-free grammar, 并未在生成其他文本數(shù)據(jù)上做實(shí)驗(yàn)。

總的來說，這篇論文本身方法還值得改進(jìn)，也可以值得借鑒下。

5. Connecting generative adversarial network and actor-critic methods

論文鏈接：https://arxiv.org/pdf/1610.01945.pdf

Actor-critic methods [2]: 許多RL方法 (e.g., policy gradient) 只作用于policy 或者 value function。Actor-critic方法則結(jié)合了policy-only和value function-only 的方法。其中critic用來近似或者估計(jì)value function，actor 被稱為policy structure, 主要用來選擇action。Actor-critic是一個(gè)on-policy的學(xué)習(xí)過程。Critic模型的結(jié)果用來幫助提高actor policy的性能。

GAN和actor-critic具有許多相似之處。Actor-critic模型中的actor功能類似于GAN中的generator，他們都是用來take an action or generate a sample。Actor-critic模型中的critic則類似于GAN中的discriminator, 主要用來評估 actor or generator 的輸出。具體的相同和不同點(diǎn)，感興趣的朋友可以仔細(xì)閱讀原文。

這篇論文主要貢獻(xiàn)在于從不同的角度來說明了GAN和actor－critic模型的相同與不同點(diǎn)，從而鼓勵(lì)研究GAN的學(xué)者和研究actor-critic模型的學(xué)者合作研發(fā)出通用、穩(wěn)定、可擴(kuò)展的算法，或者從各自的研究中獲取靈感。

最近Bahdanau等大神提出了用actor-critic模型來進(jìn)行sequence prediction [3]。雖然[3]中并沒有用到GAN，或許對各位能有啟發(fā)。用類似的思想，GAN在sequence prediction上也許也能取得的比較好的效果？

[1] 深度解讀：GAN模型及其在2016年度的進(jìn)展

[2] Actor-Critic Algorithms

[3] An actor-critic algorithm for sequence prediction

筆者最近也在關(guān)注和從事 non-goal-oriented dialogue system 以及 goal-oriented question answering 的研究， please feel free to contact me if you have similar interests.

新浪微博：楊敏_HKU，Wechat: yangmin19911129

【尋找AI獨(dú)角獸】新智元聯(lián)手10大資本

啟動2017創(chuàng)業(yè)大賽

AI 創(chuàng)業(yè)大賽由新智元與10 家主流 AI 創(chuàng)投機(jī)構(gòu)：藍(lán)馳創(chuàng)投、紅杉資本中國基金、高瓴智成人工智能基金、藍(lán)湖資本、藍(lán)象資本、IDG資本、高榕資本、中信建投證券、明勢資本、松禾遠(yuǎn)望基金攜手發(fā)起，由新智元主辦，北京市中關(guān)村科技園區(qū)管理委員會、中關(guān)村科技園區(qū)海淀園管理委員會支持，是一場聚合了 AI 技術(shù)領(lǐng)袖和投資領(lǐng)袖的盛會。新智元向滿懷雄心的未來AI獨(dú)角獸提供強(qiáng)大的創(chuàng)投資源對接機(jī)會，頂級風(fēng)投 TS 等你來拿。

http://form.mikecrm.com/gthejw

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频