AI公開課:18.05.16 周明博士(MSRA副院長)—北大AI第十一講之《語言智能的進(jìn)展》課堂筆記——你了解語言智能
導(dǎo)讀
? ? ? ? 周明博士,微軟亞洲研究院副院長、國際計(jì)算語言學(xué)協(xié)會(huì)(ACL)候任主席、中國計(jì)算機(jī)學(xué)會(huì)理事、中文信息技術(shù)專委會(huì)主任、中國中文信息學(xué)會(huì)常務(wù)理事、哈爾濱工業(yè)大學(xué)、天津大學(xué)、南開大學(xué)、北航等多所學(xué)校博士導(dǎo)師。周明博士1991年獲哈爾濱工業(yè)大學(xué)博士學(xué)位。1991-1993年清華大學(xué)博士后,隨后留校任副教授。1996-1999訪問日本高電社公司領(lǐng)導(dǎo)中日機(jī)器翻譯研究。他是中國第一個(gè)中英翻譯系統(tǒng)CEMT-I(哈工大1989年)、日本最有名的中日機(jī)器翻譯產(chǎn)品J-北京(日本高電社1998年)的研制者。1999年,周明博士加入微軟亞洲研究院,不久開始負(fù)責(zé)自然語言研究組。他帶領(lǐng)團(tuán)隊(duì)進(jìn)行了微軟輸入法、英庫詞典(必應(yīng)詞典)、中英翻譯、微軟中國文化系列(微軟對(duì)聯(lián)、微軟字謎、微軟絕句)等重要產(chǎn)品和項(xiàng)目的研發(fā),并對(duì)微軟Office、必應(yīng)搜索、Windows等產(chǎn)品中的自然語言技術(shù)做出了重要貢獻(xiàn)。英庫詞典獲得華爾街日?qǐng)?bào)亞洲創(chuàng)新獎(jiǎng)、與中科院合作的手語翻譯榮獲微軟CEO特別嘉獎(jiǎng)。近年來,周明博士領(lǐng)導(dǎo)研究團(tuán)隊(duì)與微軟產(chǎn)品組合作開發(fā)了微軟小冰(中國)、Rinna(日本)、Zo(美國)等聊天機(jī)器人系統(tǒng)。
?
目錄
? ? ? 深度學(xué)習(xí)里的Attention model其實(shí)模擬的是人腦的注意力模型,舉個(gè)例子來說,當(dāng)我們觀賞一幅畫時(shí),雖然我們可以看到整幅畫的全貌,但是在我們深入仔細(xì)地觀察時(shí),其實(shí)眼睛聚焦的就只有很小的一塊,這個(gè)時(shí)候人的大腦主要關(guān)注在這一小塊圖案上,也就是說這個(gè)時(shí)候人腦對(duì)整幅圖的關(guān)注并不是均衡的,是有一定的權(quán)重區(qū)分的。這就是深度學(xué)習(xí)里的Attention Model的核心思想。
? ? ? ?AM剛開始也確實(shí)是應(yīng)用在圖像領(lǐng)域里的,AM在圖像處理領(lǐng)域取得了非常好的效果!于是,就有人開始研究怎么將AM模型引入到NLP領(lǐng)域。最有名的當(dāng)屬“Neural machine translation by jointly learning to align and translate”這篇論文了,這篇論文最早提出了Soft Attention Model,并將其應(yīng)用到了機(jī)器翻譯領(lǐng)域。
? ? ? Soft Attention Model: ?這里其實(shí)是上面圖的拆解,“Neural machine translation by jointly learning to align and translate”這篇論文提出了soft Attention Model,并將其應(yīng)用到了機(jī)器翻譯上面。其實(shí),所謂Soft,意思是在求注意力分配概率分布的時(shí)候,對(duì)于輸入句子X中任意一個(gè)單詞都給出個(gè)概率,是個(gè)概率分布。
其實(shí)有Soft AM,對(duì)應(yīng)也有一個(gè)Hard AM。既然Soft是給每個(gè)單詞都賦予一個(gè)單詞對(duì)齊概率,那么如果不這樣做,直接從輸入句子里面找到某個(gè)特定的單詞,然后把目標(biāo)句子單詞和這個(gè)單詞對(duì)齊,而其它輸入句子中的單詞硬性地認(rèn)為對(duì)齊概率為0,這就是Hard Attention Model的思想。Hard AM在圖像里證明有用,但是在文本里面用處不大,因?yàn)檫@種單詞一一對(duì)齊明顯要求太高,如果對(duì)不齊對(duì)后續(xù)處理負(fù)面影響很大。
? ? ? ?但是,斯坦福大學(xué)的一篇paper“Effective Approaches to Attention-based Neural Machine Translation”提出了一個(gè)混合Soft AM 和Hard AM的模型,論文中,他們提出了兩種模型:Global Attention Model和Local Attention Model,Global Attention Model其實(shí)就是Soft Attention Model,Local Attention Model本質(zhì)上是Soft AM和 Hard AM的一個(gè)混合。一般首先預(yù)估一個(gè)對(duì)齊位置Pt,然后在Pt左右大小為D的窗口范圍來取類似于Soft AM的概率分布。
參考文獻(xiàn)
深度學(xué)習(xí)筆記——Attention Model(注意力模型)學(xué)習(xí)總結(jié)
?
聯(lián)系客服