中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
【白碩】自然語言處理與人工智能(13頁P(yáng)PT圖文詳解版)

【靜點(diǎn)評】中國中文信息學(xué)會常務(wù)理事白碩先生是我非常尊敬的一位老師,他對靜.沙龍的智慧貢獻(xiàn)體現(xiàn)在三個方面:第一,他樂于分享知識、樂于展開線上線下的討論。他不僅積極參與各種人工智能和算法等議題的探討,還把社區(qū)的氛圍和討論水平提升到一個相當(dāng)高的境界。去年6月21日,《算法帝國》沙龍?jiān)谪?cái)訊傳媒集團(tuán)舉辦,白碩老師是當(dāng)天乘飛機(jī)從上海趕來,分享《算法交易的技術(shù)生態(tài)變革》,講完課又匆忙回上海。這次的《新智能時(shí)代論壇》,白碩老師同樣是論壇結(jié)束就趕回上海,連晚飯也來不及吃。他為了多參與Panel討論,還差點(diǎn)誤機(jī)。第二,他不僅是計(jì)算機(jī)理論、自然語言與中文信息處理方面的權(quán)威,還在哲學(xué)、音樂等領(lǐng)域頗為見長。去年靜.沙龍?jiān)诰€分享的第二期,就是白碩老師擔(dān)綱主講《解構(gòu)集異璧》。我想對于《集異璧》這部人工智能的圣經(jīng),在諸多國內(nèi)人工智能領(lǐng)域?qū)<依?,沒有比他更適合的說書人選了。

因此,白碩老師也深受靜.沙龍群友的愛戴與崇敬,以高票當(dāng)選2014年度靜.沙龍最佳講者榮譽(yù)。3月22號,他給大家?guī)砹恕蹲匀徽Z言處理與人工智能》的分享。事實(shí)上,近年來谷歌和百度等公司,在機(jī)器翻譯技術(shù)上取得長足進(jìn)步,主要是由于統(tǒng)計(jì)方法、算法和大數(shù)據(jù)的改進(jìn)。網(wǎng)絡(luò)實(shí)時(shí)數(shù)據(jù)、海量的語言數(shù)據(jù)庫讓谷歌認(rèn)為算法和大數(shù)據(jù)比語言學(xué)研究靠譜。

但白碩老師在這次報(bào)告中也提出了獨(dú)特的觀點(diǎn),他試圖尋求自然語言背后的奧秘,是否在中文和英文之間有通用的路徑。在他看來自然語言是人類智能的一種展現(xiàn),既然是智能的展現(xiàn),那么通過研究自然語言,就可以挖掘出智能的一些本質(zhì)。而一旦語言被機(jī)器認(rèn)知理解,那么真正的人工智能就有更多實(shí)現(xiàn)的可能。

因此,白碩老師的研究也正是訊飛研究院胡郁院長提到的新認(rèn)知革命的一部分,雖然比較抽象,但這正是人類智能高于其他生物之處,值得我們進(jìn)一步去探索和挖掘。


【白碩】說起實(shí)現(xiàn)各種各樣的智能系統(tǒng),大家都認(rèn)為“善解人意”應(yīng)該是一個最起碼的條件,一個繞不過去的條件。實(shí)現(xiàn)它的一個重要的橋梁就是語言。

拿語言說事,這個我們見得很多了。剛才講的圖靈測試,實(shí)際上就是要通過這個對話,通過語言來判斷隱藏在那個不可見的位置跟你對話的到底是人還是機(jī)器。

還有中文屋子,大家如果關(guān)心智能問題的話也都會比較熟悉,一個屋子里的人不懂中文,只懂英文,但可以執(zhí)行特定的規(guī)則,把符號搬來搬去,最后效果是把英文翻譯成中文,問題是,到底誰懂中文?


另外,從亞里士多德到布爾,從萊布尼茲到維特根斯坦,實(shí)際上哲學(xué)在20世紀(jì)初有一次重要的“語言學(xué)轉(zhuǎn)向”,就是從拍腦袋的思辨到針對文本,看我們的理解,我們的定義,什么時(shí)候出現(xiàn)了問題。

語言學(xué)里面也有人思考,表現(xiàn)在外部語言和腦子里面的概念的關(guān)系,到底是不是一一對應(yīng)的。今天看到楊義先老師講這個字的英文到現(xiàn)在沒有對應(yīng)的貼切翻譯。有人舉例子說,蒙古人關(guān)于馬的詞匯好幾十種,愛斯基摩人對雪的詞匯也有好幾十種,我們不生活在馬和雪的世界的人就很少。是語言造就了概念,還是概念造就了語言?是全人類有共同的概念,還是有一種語言就塑造一套概念?看來這確實(shí)是個問題。


從干活的角度,我們看到了各種“大腦”計(jì)劃,各種助手和機(jī)器人推出來,有各種搜索和數(shù)據(jù)庫在精準(zhǔn)化,拿語言去搜,也有各種的過去就有推理機(jī),智能機(jī),一直在延續(xù)著七八十年代的夢想,雖然進(jìn)展不大。

但是所有拿語言說事兒的、用語言干事兒的,這中間都繞不開一個問題,即語言到底是怎么回事?這是我們真正搞自然語言理解,搞自然語言處理的人必須面對的問題。我們說要善解人意,人意在哪?它藏在符號怪陣的背后。我們來看這張圖:


上面最表層的,可能是通過文字的方式表現(xiàn)的,可能是通過語音的方式表現(xiàn)的,也可能是通過電子輸入的方式表現(xiàn)的。再向下有詞法、句法和語義,乃至語用。這是語言學(xué)界標(biāo)準(zhǔn)的層次的劃分,我們現(xiàn)在看中間的虛線,上方涉及到一點(diǎn)點(diǎn)的句法,句法的大部分在下方。以虛線為界,虛線之上的通常認(rèn)為是淺層,虛線之下的認(rèn)為是深層。請注意這里講的是語言學(xué)知識的淺層和深層。淺層的這種語言模型見效很快,門檻很低,基本上可以擺脫語言學(xué)家,工程師自己可以玩,有數(shù)據(jù)就可以玩,或者是標(biāo)注,找一些中專生就可以玩。然而深層的語言學(xué)知識,有一些地方可能說不清楚,可能眾說紛紜,但是淺層解決不了的問題,最終要通過深層來解決。上海電臺里有一檔節(jié)目叫“音樂會說話”,不論是按照什么分詞標(biāo)準(zhǔn),很多的分詞系統(tǒng)都會把它切成“音樂會/說話”,就是說“音樂會”當(dāng)做一個詞的切法是應(yīng)該占優(yōu)勢的,但是恰恰這檔節(jié)目說的是“音樂//說話”,它用到了深層的句法和語義,甚至到語用才確定是一個隱喻,只有到了這個層次反作用回去才發(fā)現(xiàn)正確的分詞方案是什么。

我們也看到了大家對深度學(xué)習(xí)充滿了期待。但是必須說明,學(xué)習(xí)的度深和淺,跟學(xué)習(xí)對象在語言層次上的淺和深是兩個概念。如果是在模型停留在淺層,就是把深度學(xué)習(xí)用到極致也有局限。

但是深層這個東西就復(fù)雜了,因?yàn)樵蹅冎v證據(jù),淺層的東西大家都看得見,深層有很多是看不見的,看不見就各說各的話,就沒有一個統(tǒng)一的標(biāo)準(zhǔn),所以這個東西就比較難搞,這是我們看到的一個現(xiàn)狀。

善解人意的“人意”好不好解,是不是跟語種有關(guān)系呢?在這張圖上,我們看到很多中文難以處理的例子。很多評論的第一反應(yīng)是中文博大精深,中文不一樣,英語很好的方法到中文就不行。有的人就說我們比別人更懂中文。即使是知識圖譜也出了個“中文知識圖譜”,好象這個知識圖譜到底是知識層面的還是語言層面的這件事情,都有了商量了。這說明了什么?說明我們還停留在我們對母語的認(rèn)識的初級階段。我們對母語的認(rèn)識,和對人類共同的語言機(jī)制的認(rèn)識,還沒有統(tǒng)一起來,中間還有巨大的鴻溝。

一般來說,我們對母語的認(rèn)識分成三個階段:第一階段,碰見這些例子,都認(rèn)為這是習(xí)慣用法,根本沒有規(guī)律的,我們也不關(guān)心這個,我們的指標(biāo)很好看。這就完了嗎?可是實(shí)際的問題并沒有解決。第二個階段,規(guī)律是有的,但我們的母語就是特殊,我們只能使用特殊的東西把這些問題解決了。是有這么一個見招拆招的階段,但是作用很有限。真正的能夠進(jìn)到最后一個階段的人很少很少。這種人既熟悉了母語的特殊性,同時(shí)又知道這個世界上關(guān)于語言共性普適的進(jìn)展,而且還能把二者融會貫通結(jié)合起來。這種人太少了,而且這種人跟我們的交流太少了,所以我們不知道他們的存在,更不知道去挖掘他們的寶藏。

經(jīng)常有一種說法,說基于規(guī)則的系統(tǒng)是傻子,基于統(tǒng)計(jì)的系統(tǒng)是瘋子。基于規(guī)則的系統(tǒng),在規(guī)則不能覆蓋的地方表現(xiàn)極其糟糕。基于統(tǒng)計(jì)的系統(tǒng),因?yàn)楹芏嗄P同F(xiàn)在只能做到淺層,深層的不知道怎么做,所以實(shí)現(xiàn)也只能做到淺層,有局限,又不知道自己的局限在哪,就出現(xiàn)了明明不知道的,沒有自知之明了,大家一看就知道是笑話,但是他敢拿出來說。還有兩個組合,一個是基于規(guī)則處理淺層語言模型的,比如做英語的詞法的,詞根的變換,還原等,是可以做一點(diǎn)但有限,油水不多了?;诮y(tǒng)計(jì)處理深層語言模型,是有的,但由于深層模型的本身是有一個資源建設(shè)這樣一個積累在里面的。如果沒有資源建設(shè),深層是無從談起的。你做統(tǒng)計(jì),又要有語料的積累。語料和資源建設(shè)的雙重積累是瓶頸,能夠用打通瓶頸往前走的人不多,但我認(rèn)為這是正確的路。


在自然語言處理領(lǐng)域,我感覺到一個不好的現(xiàn)象:厚此薄彼。我們看到,理工農(nóng)醫(yī)各類專業(yè)的領(lǐng)域?qū)<沂呛苁茏鹁吹?,唯?dú)語言學(xué)家不受尊重。不僅很多和自然語言相關(guān)的大型的項(xiàng)目里面語言學(xué)家的參與度很不夠,就連谷歌的諾維格和語言學(xué)家喬姆斯基之間的爭論也是很不友好的,語言學(xué)里面有很多寶貝,但是外面的人不認(rèn)識,認(rèn)識不到。那為什么自然語言處理還能這么火呢,我認(rèn)為這里面一個原因是他們還在吃我所說的“規(guī)模紅利”。當(dāng)我的語料規(guī)模非常大、應(yīng)用面非常廣的時(shí)候,即使是淺層,也能做出很好的效果來,為一些處理到淺層就夠了的應(yīng)用提供了很好的支持,所以會有這樣的現(xiàn)象。但是另一方面,深層的玩法并沒有大的突破,要想抄底,別人不做,你來做,總要有一些瓷器活,但是這個瓷器活目前還不行。


對目前這個主流的基于統(tǒng)計(jì)的淺層自然語言處理,有兩點(diǎn)我認(rèn)為是需要高度肯定的:

第一是使用正確的手段解決了語言邊界這樣一個典型的非良定義的人工智能的問題。所謂非良定義,就是說人知道這個邊界在哪,但是沒有數(shù)學(xué)公式把這個邊界寫出來,而且這個邊界是上下文相關(guān)的,在不同的環(huán)境下是浮動的。對這樣的東西,使用統(tǒng)計(jì)學(xué)習(xí)的方式來獲取領(lǐng)域知識,這是正面的,我認(rèn)為這個方向是對的。

第二,是把符號的根基,也就是語言中不可再分的符號代表了什么這件事情,映射到,或者說植根于網(wǎng)絡(luò)空間之上。說幾個簡單的例子:關(guān)于你在哪的問題,跟你手機(jī)里的地圖聯(lián)系起來了;關(guān)于你跟哪個人什么關(guān)系的問題,跟你的通訊錄聯(lián)系起來了,跟你的社交網(wǎng)絡(luò)的賬號聯(lián)系起來了;天氣的問題,甚至是車次的問題,跟相應(yīng)的這樣一些服務(wù)聯(lián)系起來了。這個是一個最重要的、值得高度肯定的一點(diǎn)。


但是底下我們還是要講,這是不夠的。對語言學(xué)領(lǐng)域的這個知識到底長什么樣,如果不知道長什么樣就想學(xué)習(xí),或者說隨便攢一個長什么樣,然后就學(xué)習(xí),這個效果會差得很遠(yuǎn),很少有人真的去關(guān)注語言學(xué)知識真往深了走到底長什么樣。深層的知識躲在后面,似乎沒有什么硬標(biāo)準(zhǔn)能夠把它們拎出來,或者說你可以畫一樣,他可以畫另一樣,大家的畫法不一樣。但是,大家要解決、要共同面對的問題難點(diǎn)是明確的:一個是遞歸嵌套的深度,一個是語言成分遠(yuǎn)距離相關(guān)的寬度。相關(guān)成分相距越遠(yuǎn)、遞歸嵌套層數(shù)越深,淺層模型越難處理。只要這兩個難點(diǎn)有所突破,我相信不管是把語言模型畫成了一個什么樣子,這個樣子肯定在某種程度上反映了深層的語言學(xué)知識。


我個人在自然語言處理領(lǐng)域的研究興趣,一是關(guān)注語言學(xué)知識長什么樣,就是剛才所描述的問題;二是利用RNN(遞歸神經(jīng)網(wǎng)絡(luò))做語言知識的自動獲取,這個有很多的花樣,比如可以加棧、加計(jì)數(shù)器,可以把規(guī)則編譯成RNN等等,和自動機(jī)的機(jī)理非常接近,這個領(lǐng)域是值得特別關(guān)注的;三是用自然語言作為知識表示直接進(jìn)行模式推理和檢索,是我?guī)е鴮W(xué)生做的方向。個人在純語言學(xué)方向也有一些研究興趣。


說到語言與人工智能的關(guān)系,我認(rèn)為語言從三個角度對人工智能是有貢獻(xiàn)的:第一,語言是一個自然的交互界面,善解人意繞不開這個界面;第二,語言背后是一套知識,對它怎么學(xué)習(xí),怎么表示,和對一般的知識怎么學(xué)習(xí)和怎么表示,是有共性的;第三,語言是一個窗口,通過對人類語言的觀察,我們可以側(cè)面了解人類大腦內(nèi)部發(fā)生的推理和表示。


但我還是要提兩個“不指望”。第一是我們做自然語言處理的,不指望人工智能的天上掉下語言處理的餡餅,還是靠自己認(rèn)識語言,真正地在這個語言上做文章,而不要在其他的地方做文章,其他的地方?jīng)]有出路。第二是不指望語言處理的這個方向,如果突破了的話,會導(dǎo)致人工智能領(lǐng)域出現(xiàn)什么樣的飛躍或者奇跡,這也是不現(xiàn)實(shí)的,因?yàn)檎Z言這個東西就是剛才說的許多類別的知識領(lǐng)域之一,就是一個邊角的東西,雖然很重要,雖然躲不開,但是對人工智能那邊沒有太大的影響,那邊該怎么研究就怎么研究。

看到各種大腦計(jì)劃,大腦計(jì)劃的外顯能力都離不開自然語言的處理,但是我們還是可以根據(jù)語言處理所用到的技術(shù)的不同,把它們分幾個類型,如下圖所示:


其中剛才說的高考是屬于第三個層面的,最后一個類型(分析理解型)最難,其典型就是應(yīng)用題。誰能解決了我覺得很令人佩服,如果真做好了說明是對語言深一層的東西掌握了。上圖所舉的應(yīng)用題,是我們期權(quán)培訓(xùn)教材里面一個考題,自然語言理解怎么樣處理這樣一個題,通過什么方式入手來處理,很有講究。我們看到這里面有計(jì)算和分析,還有價(jià)值取向:要賺錢。在這道題里面隱含了一個答題目標(biāo),就是如何做才是賺錢的。這是典型的投資邏輯。

搞大腦計(jì)劃,一般都是一個非常龐大的團(tuán)隊(duì),會進(jìn)行大規(guī)模的標(biāo)注和訓(xùn)練,對非限定領(lǐng)域的大數(shù)據(jù)大語料進(jìn)行訓(xùn)練和開發(fā),對各種智能化技術(shù)進(jìn)行綜合集成,這個做出來會很震撼,很酷。但小團(tuán)隊(duì)也有優(yōu)勢,可以比較輕靈,在特定領(lǐng)域,限定領(lǐng)域作出出色的應(yīng)用,比如出門問問。還有另一種方式,就是游俠,他們不太可能大規(guī)模地推開業(yè)務(wù),只會做一些核心技術(shù),特別是頂層的建模。我一直主張,在一個自然語言處理系統(tǒng)里,語言學(xué)知識到底長什么樣,決定了把后續(xù)的學(xué)習(xí)手段加上之后到底能夠走多遠(yuǎn),這個東西我想一個項(xiàng)目立項(xiàng)之時(shí),這個思路就已經(jīng)定了,后面再做也超不過先天局限。而恰恰是這個游俠方式,可以在這個地方走得更遠(yuǎn)。


總結(jié)一下我的主要觀點(diǎn):自然語言處理的核心關(guān)鍵問題還沒有解決,但應(yīng)用方面取得一些進(jìn)展不是偶然的,有其走得對的地方。突破的鑰匙掌握在語言學(xué)家或者是通曉語言學(xué)成果的人手里。最要害的試金石是兩個:遞歸嵌套,遠(yuǎn)距相關(guān),如能做到,說明對語言的深層處理能力有標(biāo)志性的進(jìn)步。我們認(rèn)為后面有很多機(jī)會,不僅大腦計(jì)劃有機(jī)會,游俠模式也有機(jī)會,統(tǒng)計(jì)走不下去的地方,規(guī)則抄底的機(jī)會也是存在的。最后說與人工智能的關(guān)聯(lián)。雖然我是這樣的題目,結(jié)論是自然語言處理和人工智能并沒有強(qiáng)關(guān)聯(lián),而自然語言處理可以為人工智能的進(jìn)步做一點(diǎn)點(diǎn)貢獻(xiàn),但是是比較微弱的。謝謝。


附:講者簡歷

【白碩】博士,研究員,中國中文信息學(xué)會常務(wù)理事,信息檢索與內(nèi)容安全專業(yè)委員會主任委員,中國科學(xué)院計(jì)算所、信工所和中國科學(xué)院大學(xué)兼職博士生導(dǎo)師,上海證券通信有限責(zé)任公司董事長。曾長期從事自然語言處理、信息檢索相關(guān)領(lǐng)域研究工作。目前主持輕便高效證券交易系統(tǒng)和證券行業(yè)云服務(wù)等證券領(lǐng)域信息技術(shù)應(yīng)用研究。


本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
從奇點(diǎn)中國兩個創(chuàng)業(yè)項(xiàng)目看人工智能的發(fā)展
李飛飛又有新動向,斯坦福 AI 實(shí)驗(yàn)室由 Christopher Manning 接棒
MIT華人博士共同一作:用概率程序建模,破解世界模型!
專欄 | 香儂科技獨(dú)家對話斯坦福大學(xué)計(jì)算機(jī)學(xué)院教授、麥克阿瑟天才獎得主Dan Jurafsky
哈爾濱工業(yè)大學(xué)教授劉挺:自然語言處理的十個發(fā)展趨勢
當(dāng)前計(jì)算語言學(xué)發(fā)展的幾個特點(diǎn)
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服