中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
如何讓人工智能學(xué)會(huì)用數(shù)據(jù)說話




什么是基于結(jié)構(gòu)化數(shù)據(jù)的文本生成


美聯(lián)社機(jī)器人撰寫財(cái)經(jīng)報(bào)道,微軟機(jī)器人自動(dòng)生成對(duì)聯(lián),谷歌機(jī)器人自動(dòng)寫詩(shī),一時(shí)間,機(jī)器人自動(dòng)寫作成為學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注和討論的熱門話題【1,2】。


機(jī)器人寫作又稱文本生成。從廣義上講,一些傳統(tǒng)的自然語言處理任務(wù),例如機(jī)器翻譯、文本摘要、對(duì)聯(lián)生成、詩(shī)詞生成等都屬于文本生成的范疇。這些任務(wù)的共同點(diǎn)是用戶輸入非結(jié)構(gòu)化的文本,機(jī)器根據(jù)任務(wù)目標(biāo)輸出相應(yīng)的文本。


不同于這些任務(wù),本文主要與大家分享的是基于結(jié)構(gòu)化數(shù)據(jù)的文本生成,即用戶輸入結(jié)構(gòu)化的數(shù)據(jù),機(jī)器輸出描述和解釋結(jié)構(gòu)化數(shù)據(jù)的文本。(注:為了簡(jiǎn)便,下文中的文本生成均指基于結(jié)構(gòu)化數(shù)據(jù)的文本生成。)該任務(wù)的特點(diǎn)是基于數(shù)據(jù)和事實(shí)說話。文本生成的典型商業(yè)應(yīng)用包括財(cái)經(jīng)和體育類新聞報(bào)道的生成、產(chǎn)品描述的生成、商業(yè)數(shù)據(jù)的分析和解釋、物聯(lián)網(wǎng)(Internet of Things)數(shù)據(jù)的分析和解釋。圖1給出了天氣預(yù)報(bào)自動(dòng)生成的例子。其中,圖1a是各種感知器采集到的結(jié)構(gòu)化的天氣數(shù)據(jù),機(jī)器將圖1a中的數(shù)據(jù)作為輸入,輸出圖1b中的天氣預(yù)報(bào)。


圖 1天氣預(yù)報(bào)的自動(dòng)生成(此例來源于論文【3】)


接下來,本文嘗試從商業(yè)應(yīng)用技術(shù)發(fā)展兩個(gè)方面來總結(jié)文本生成的領(lǐng)域現(xiàn)狀。


文本生成的商業(yè)前景


近些年,隨著文本生成技術(shù)的發(fā)展,工業(yè)界也誕生了一些專注于文本生成的明星創(chuàng)業(yè)公司,例如Narrative Science(前5輪共融資2950萬美元),Automated Insights(前3輪共融資1080萬美金,并于2015年被美國(guó)私募股權(quán)基金 Vista Equity Partners以8000萬美金的價(jià)格收購(gòu)),Arria NLG(第一輪獲得了4027萬美金融資)等。這幾家明星初創(chuàng)企業(yè)的產(chǎn)品也涵蓋了文本生成在不同商業(yè)領(lǐng)域的應(yīng)用。


Narrative Science的主要產(chǎn)品是Quill,該產(chǎn)品可以幫助第三方公司分析和解釋商業(yè)數(shù)據(jù)。其客戶多為金融服務(wù)和咨詢公司。此外,Narrative Science還特別開發(fā)了Quill for Google Analytics,該工具可以實(shí)時(shí)的將Google Analytics所統(tǒng)計(jì)的各種復(fù)雜的用戶訪問數(shù)據(jù)轉(zhuǎn)化成簡(jiǎn)單的文字說明,幫助Google Analytics的用戶免去閱讀各種復(fù)雜圖表的痛苦,讓用戶能夠快速理解其站點(diǎn)的流量數(shù)據(jù),為優(yōu)化站點(diǎn)提供建議。


Automated Insights的主要產(chǎn)品是WordSmith,該產(chǎn)品已經(jīng)在美國(guó)聯(lián)合通訊社(The Associated Press)和雅虎得到成功應(yīng)用,用于撰寫財(cái)新和體育類報(bào)道。讓人驚嘆的是,美聯(lián)社在采用Automated Insights的文本生成技術(shù)后,每季度可以撰寫的財(cái)報(bào)新聞數(shù)量從300篇增加到了4300篇,生產(chǎn)力得到了極大的提高【2】。


Arria NLG則主要與英國(guó)國(guó)家氣象服務(wù)局Met Office合作,自動(dòng)生成天氣預(yù)報(bào)。這是文本生成技術(shù)在物聯(lián)網(wǎng)領(lǐng)域的一個(gè)典型應(yīng)用。如圖1所示,各種感知器每天可以采集到大量的結(jié)構(gòu)化數(shù)據(jù)。但解讀這些數(shù)據(jù)的困難在于:一方面感知器采集的數(shù)據(jù)量非常大,另一方面數(shù)據(jù)的解讀需要專業(yè)知識(shí)?;诮Y(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)首先需要從大量的數(shù)據(jù)中篩選出重要信息,然后生成易于閱讀和理解的天氣預(yù)報(bào)文本內(nèi)容。

 

文本生成的技術(shù)發(fā)展


>>>>

挑戰(zhàn)


基于結(jié)構(gòu)化數(shù)據(jù)的文本生成任務(wù)主要包括兩個(gè)挑戰(zhàn)【4】


第一,說什么(What to say)


第二,怎么說(How to say)


如圖1所示,機(jī)器首先需要決定說什么,這就意味著機(jī)器需要從輸入的若干數(shù)據(jù)記錄中選擇要描述的記錄(圖1a中被高亮的數(shù)據(jù)記錄);然后決定怎么說。簡(jiǎn)單的來說就是機(jī)器需對(duì)選定的數(shù)據(jù)記錄,用自然語言描述出來(圖1b)。

 

>>>>

評(píng)測(cè)


Dimitra Gkatzia等人【5】對(duì)文本生成任務(wù)的評(píng)測(cè)方法進(jìn)行了總結(jié)。不一樣的是Dimitra Gkatzia等人【5】分析了近10年發(fā)表在自然語言處理領(lǐng)域相關(guān)會(huì)議和期刊(ACL、EMNLP、NAACL等)上關(guān)于文本生成的論文,并將相關(guān)工作所采用的評(píng)測(cè)方法歸為兩大類:內(nèi)在(Intrinsic)評(píng)測(cè)外在(Extrinsic)評(píng)測(cè)。


內(nèi)在評(píng)測(cè)關(guān)注系統(tǒng)生成文本的正確性、流暢性和可理解性等。內(nèi)在評(píng)測(cè)方法又可分為兩類:(1)通過采用自動(dòng)化的評(píng)測(cè)方法(如BLEU, NIST和ROUGE等)對(duì)比系統(tǒng)生成的文本和人工寫作的文本之間的相似度,以此來衡量系統(tǒng)生成文本的質(zhì)量;(2)通過調(diào)查問卷等方式,由人們正確性、流暢性等角度出發(fā)直接對(duì)系統(tǒng)生成的文本進(jìn)行打分,來評(píng)價(jià)系統(tǒng)生成文本的質(zhì)量。


外在評(píng)測(cè)關(guān)注于評(píng)價(jià)系統(tǒng)生成文本的可用性,即評(píng)價(jià)系統(tǒng)生成的文本對(duì)于用戶完成特定任務(wù)是否有幫助。



Dimitra Gkatzia等人【5】的分析表明,現(xiàn)階段文本生成的相關(guān)工作多采用自動(dòng)化的內(nèi)在評(píng)測(cè)方法——即利用計(jì)算機(jī)對(duì)比系統(tǒng)生成文本和人工寫作文本之間的相似度,原因是此類評(píng)價(jià)方法更加便捷、成本較低。而外在的評(píng)測(cè)方法成本較高,采用此類評(píng)測(cè)方法的論文較少,但是此類評(píng)測(cè)方法能更好的標(biāo)示出系統(tǒng)的可用性。

 

>>>>

方法


早期的文本生成系統(tǒng)多是基于規(guī)則的,Reiter等對(duì)規(guī)則系統(tǒng)進(jìn)行了歸納總結(jié)【4】,認(rèn)為文本生成系統(tǒng)可以分為三個(gè)較為獨(dú)立的模塊:(1)內(nèi)容規(guī)劃(Content planning),即選擇描述哪些數(shù)據(jù)記錄或數(shù)據(jù)域;(2)句子規(guī)劃(Sentence planning),即決定所選擇的數(shù)據(jù)記錄或數(shù)據(jù)域在句子中的順序;(3)句子實(shí)現(xiàn)(Surface realization),即基于句子規(guī)劃的結(jié)果生成實(shí)際的文本。可以認(rèn)為,內(nèi)容規(guī)劃主要是解決“說什么”,句子規(guī)劃和句子實(shí)現(xiàn)主要是解決“怎么說”


在該框架下,針對(duì)不同模塊,若干基于統(tǒng)計(jì)的模型被提出。Barzilay等提出先將數(shù)據(jù)記錄和句子進(jìn)行對(duì)齊,然后學(xué)習(xí)模型解決內(nèi)容選擇【6】。Percy Liang等提出了一個(gè)概率圖模型同時(shí)解決內(nèi)容規(guī)劃和句子實(shí)現(xiàn)【7】。具體來說就是該生成模型首先選擇生成哪些數(shù)據(jù)記錄,然后選擇生成數(shù)據(jù)記錄中的哪些數(shù)據(jù)域,最后生成描述數(shù)據(jù)域的文本。


近幾年,隨著深度學(xué)習(xí)方法在自然語言處理領(lǐng)域取得突破,研究人員也嘗試將神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用于文本生成?;谏窠?jīng)網(wǎng)絡(luò)的方法又分為基于神經(jīng)語言模型(Neural Language Model)的方法和基于神經(jīng)機(jī)器翻譯(Neural Machine Translation)的方法。


其中,Wen等提出了Semantic Controlled LSTM(Long Short-term Memory)模型用于對(duì)話系統(tǒng)中的文本生成【8】。該模型在標(biāo)準(zhǔn)LSTM的基礎(chǔ)上引入了一個(gè)控制門讀取結(jié)構(gòu)化數(shù)據(jù)信息,并控制結(jié)構(gòu)化數(shù)據(jù)信息在語言模型中的輸出。該論文獲得了2015年EMNLP會(huì)議的最佳論文。Kiddon等提出了神經(jīng)清單模型(Neural Checklist Model),用于解決RNN(Recurrent neural networks)模型對(duì)結(jié)構(gòu)化數(shù)據(jù)中的信息重復(fù)生成的問題【9】。Kiddon等將該模型應(yīng)用于菜譜的生成,即輸入菜名以及食材清單,機(jī)器輸出相應(yīng)的菜譜?;诮Y(jié)構(gòu)化數(shù)據(jù)的文本生成存在數(shù)據(jù)稀疏的問題,即結(jié)構(gòu)化數(shù)據(jù)中的許多數(shù)據(jù)值(實(shí)體名、數(shù)值等)出現(xiàn)次數(shù)非常少,使得模型的學(xué)習(xí)變的困難。Lebret等將拷貝動(dòng)作(copy-action)引入神經(jīng)語言模型,用于解決數(shù)據(jù)稀疏的問題【10】。Lebret等將該模型應(yīng)用于維基百科的人物傳記生成,即輸入人物的信息框(Infobox),機(jī)器根據(jù)信息框中的人物信息,輸出人物的文本描述。



受神經(jīng)機(jī)器翻譯模型【11】的啟發(fā),Mei等將基于結(jié)構(gòu)化數(shù)據(jù)的文本生成任務(wù)視為一個(gè)翻譯任務(wù),即輸入的源語言是結(jié)構(gòu)化數(shù)據(jù),輸出的目標(biāo)語言是文本【3】。很自然的,神經(jīng)機(jī)器翻譯模型可以解決怎么說的問題。為了進(jìn)一步解決說什么的問題,Mei等在神經(jīng)機(jī)器翻譯模型的基礎(chǔ)上引入了對(duì)數(shù)據(jù)記錄的重要性進(jìn)行建模的機(jī)制,即越重要的數(shù)據(jù),其先驗(yàn)概率越大,越有可能在文本中被表達(dá)出來。


基于神經(jīng)語言模型的方法和基于神經(jīng)機(jī)器翻譯的方法在特定數(shù)據(jù)集上都取得了較大的進(jìn)步,其本質(zhì)仍然是Sequence-to-sequence方法的勝利。

 

>>>>

數(shù)據(jù)


為了推動(dòng)文本生成技術(shù)的發(fā)展,研究人員們將相關(guān)數(shù)據(jù)集共享給學(xué)術(shù)界研究使用。本文對(duì)部分?jǐn)?shù)據(jù)集進(jìn)行了收集和整理:


(1)斯坦福大學(xué)的Percy Liang教授共享了一份天氣預(yù)報(bào)數(shù)據(jù)集【7】。這份數(shù)據(jù)集包括了美國(guó)3753個(gè)城市(人口大于10000)連續(xù)三天的天氣預(yù)報(bào)。


數(shù)據(jù)集下載地址為:https://cs.stanford.edu/~pliang/data/weather-data.zip


(2)德克薩斯大學(xué)奧斯汀分校的Raymond J. Mooney教授共享了機(jī)器人足球賽的數(shù)據(jù)集【12】。這份數(shù)據(jù)集包括了2036場(chǎng)機(jī)器人足球賽的數(shù)據(jù)統(tǒng)計(jì)和評(píng)論。


數(shù)據(jù)集下載地址為:http://www.cs.utexas.edu/~ml/clamp/sportscasting/data.tar.gz


(3)Facebook共享了維基百科人物傳記的數(shù)據(jù)集【10】。這份數(shù)據(jù)集包括了728,321篇從維基百科獲取的人物傳記。


數(shù)據(jù)集下載地址為:https://github.com/DavidGrangier/wikipedia-biography-dataset


(4)劍橋大學(xué)的Tsung-Hsien Wen共享了基于服務(wù)的人機(jī)對(duì)話數(shù)據(jù)集【8】。這份數(shù)據(jù)集包括了248輪餐館領(lǐng)域的對(duì)話和164輪酒店領(lǐng)域的對(duì)話。


數(shù)據(jù)集下載地址為:https://github.com/shawnwun/RNNLG/tree/master/data/original


總結(jié)和展望


綜上,基于結(jié)構(gòu)化數(shù)據(jù)的文本生成技術(shù)已經(jīng)在商業(yè)領(lǐng)域獲得了初步的成功,深度學(xué)習(xí)技術(shù)的發(fā)展和大數(shù)據(jù)的積累也推動(dòng)著相關(guān)技術(shù)的進(jìn)步。相信該領(lǐng)域會(huì)在技術(shù)、數(shù)據(jù)和商業(yè)的三重驅(qū)動(dòng)下取得更大的突破。



參考文獻(xiàn)


【1】劉挺,機(jī)器人來了,記者去哪兒,http://wenting.baijia.baidu.com/article/165162


【2】徐曼,國(guó)外機(jī)器人新聞寫手的發(fā)展與思考,http://media.people.com.cn/n1/2016/0105/c401845-28014693.html


【3】Mei, Hongyuan, T. T. I. UChicago, Mohit Bansal, and Matthew R. Walter. 2016. What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment. In Proceedings of NAACL-HLT.


【4】Reiter, Ehud. 2007. An architecture for data-to-text systems. In Proceedings of ENLG.


【5】Gkatzia, Dimitra, and Saad Mahamood. 2015. A Snapshot of NLG Evaluation Practices 2005-2014. In Proceedings of ENLG.


【6】Barzilay, Regina, and Mirella Lapata. 2005. Collective content selection for concept-to-text generation. In Proceedings of EMNLP.


【7】Liang, Percy, Michael I. Jordan, and Dan Klein. 2009. Learning semantic correspondences with less supervision. In Proceedings of ACL.


【8】Wen, Tsung-Hsien, Milica Gasic, Nikola Mrksic, Pei-Hao Su, David Vandyke, and Steve Young. 2015. Semantically conditioned LSTM-based natural language generation for spoken dialogue systems. In Proceedings of EMNLP.


【9】Kiddon, Chloé, Luke Zettlemoyer, and Yejin Choi. 2016. Globally coherent text generation with neural checklist models. In Proceedings of EMNLP.


【10】Lebret, Rémi, David Grangier, and Michael Auli. 2016. Neural text generation from structured data with application to the biography domain.  In Proceedings of EMNLP.


【11】Bahdanau, Dzmitry, KyungHyun Cho, Yoshua Bengio, and Roee Aharoni. 2014. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of NIPS.


【12】Chen, David L., and Raymond J. Mooney. 2008. Learning to sportscast: a test of grounded language acquisition. In Proceedings of ICML.


作者簡(jiǎn)介
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
帶你讀論文 | 數(shù)據(jù)到文本生成的近期優(yōu)質(zhì)論文,我們?yōu)槟闾暨x了這六篇
熱巢首席算法工程師:實(shí)戰(zhàn)文本分類,深度學(xué)習(xí)是最優(yōu)算法嗎?|熱巢數(shù)據(jù)控
【持續(xù)更新】ACL2020論文精選
系統(tǒng)綜述|圖像描述問題發(fā)展趨勢(shì)及應(yīng)用
【每周CV論文推薦】初學(xué)模型剪枝值得閱讀的文章
數(shù)據(jù)競(jìng)賽如何推動(dòng)基礎(chǔ)科研研究?從文本摘要生成技術(shù)談起
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服