從自然語言理解理解概念的提出,到后續(xù)計算語言學(xué)(computational linguistics, CL)和自然語言處理(natural language processing, NLP)相關(guān)術(shù)語的出現(xiàn),伴隨自動語音識別(automatic speech recognition, ASR)和語音合成(text to speech synthesis, TTS)姊妹技術(shù)的同步發(fā)展,這一被統(tǒng)稱為人類語言技術(shù)(human language technology, HLT)的學(xué)科方向已經(jīng)走過了近70年的曲折路程。近年來,從技術(shù)應(yīng)用的角度,以機器翻譯、人機對話系統(tǒng)、語音識別和語音合成等為代表的應(yīng)用系統(tǒng)性能快速提升,在人類社會和生活中發(fā)揮了越來越大的作用。與此同時,如何使相關(guān)技術(shù)表現(xiàn)出更加智慧和優(yōu)越的性能,始終是技術(shù)研發(fā)人員孜孜追求的目標(biāo);從科學(xué)探索的角度,人腦語言理解的神經(jīng)基礎(chǔ)和認(rèn)知機理是什么?大腦是如何存儲、理解和運用復(fù)雜的語言結(jié)構(gòu)、語境和語義表達,并實現(xiàn)不同語言之間語義、概念關(guān)系對應(yīng)的?太多的奧秘有待于揭示。
為此,綜合語言信息理解相關(guān)方向的基礎(chǔ)問題研究和應(yīng)用技術(shù)研發(fā),同時考慮文字和語音兩大本質(zhì)屬性的孿生關(guān)系,本報告提出了語言信息處理未來研究的7個重要問題:
1. 語義表示和語義計算模型
這里的語義(semantic)指的是語言所蘊含的意義,是語言符號所對應(yīng)的現(xiàn)實世界中的事物所代表的概念的含義,以及這些含義之間的關(guān)系。在自然語言處理中,語義表示研究自然語言中詞匯、短語、句子和篇章的意義表示,是語義計算和推理的基礎(chǔ)。語義計算研究詞匯、短語、句子和篇章等各語言單元之間的語義關(guān)系。幾乎所有自然語言處理任務(wù),例如機器翻譯、自動問答和人機對話等,都依賴于對輸入語言序列的語義表示和計算。
傳統(tǒng)的離散符號表示適合自然語言的符號邏輯推理,而近年來流行的分布式向量表示更加適合自然語言的計算機語義計算。目前來看,離散符號表示與分布式向量表示很難兼容。因此,如何兼顧語義計算和推理,設(shè)計高效魯棒的語義表示和計算模型是自然語言處理的未來挑戰(zhàn)。
首先,常用的分布式語義表示方法將詞匯、短語、句子和篇章無差別的表示為維度相同的向量,且各個維度的含義無法解釋,這種編碼方式無法捕捉細(xì)粒度的語義差別且與人腦語義表征理論相違背。因此,如何針對不同類型文本構(gòu)造不同形式的、可解釋性的編碼模型對于提升文本語義表示質(zhì)量是十分必要的。另外,現(xiàn)有的語義表示模型僅利用無結(jié)構(gòu)的、單一模態(tài)的文本信息而忽略了豐富的世界知識,無法將不同模態(tài)的世界知識進行關(guān)聯(lián)、對學(xué)過的知識進行有效地存儲和檢索。這使得表示模型的訓(xùn)練依賴大量語料且泛化性能差,因此,未來工作應(yīng)考慮如何融合多種模態(tài)信息和已有的知識庫資源開發(fā)更加智能的語義表示模型。還有,目前的語義表示方法局限于利用語義相似度或在下游任務(wù)中的測試質(zhì)量進行評價,忽略了如文本間的推理關(guān)系、語義類別等方面信息,無法全面地評估語義表示的質(zhì)量。因此如何合理地評價語義表示的質(zhì)量也是需要研究的關(guān)鍵問題。
2. 面向小樣本和魯棒可解釋的自然語言處理
基于統(tǒng)計和深度學(xué)習(xí)的自然語言處理方法都強烈依賴于大規(guī)模高質(zhì)量的訓(xùn)練數(shù)據(jù),而很多語言或特定應(yīng)用領(lǐng)域中往往沒有足夠多的訓(xùn)練數(shù)據(jù),這就導(dǎo)致小樣本問題。例如,除了漢語和英語等幾種常用語言外,很多語言(例如土耳其語、烏爾都語、達利語等)的標(biāo)注資源十分匱乏,高質(zhì)量的自然語言理解和機器翻譯方法成為空中樓閣。另一方面,盡管當(dāng)前基于深度學(xué)習(xí)的自然語言處理方法性能最佳,但魯棒性較差,且缺乏可解釋性。這主要體現(xiàn)在,模型對輸入的輕微擾動可能會產(chǎn)生截然不同的輸出結(jié)果,對預(yù)測結(jié)果無法解釋、無法歸因。
不同于其他領(lǐng)域中的小樣本問題,自然語言處理中的小樣本問題更具挑戰(zhàn)性。以機器翻譯為例,小樣本體現(xiàn)在雙語對照的平行句對很少,從而會導(dǎo)致測試時很多源語言詞匯及其譯文并未在訓(xùn)練數(shù)據(jù)中出現(xiàn)過,即待預(yù)測的標(biāo)簽空間是也未知的。因此,如何解決小數(shù)據(jù)的自然語言處理任務(wù)是一個具有挑戰(zhàn)性的熱點研究問題。此外,各種實際應(yīng)用任務(wù),例如金融投資預(yù)測、法律法規(guī)解讀以及醫(yī)療方案規(guī)劃等,不僅需要準(zhǔn)確的決策,還希望結(jié)果是魯棒的,并且是可歸因的。但是,基于深度學(xué)習(xí)的自然語言處理實質(zhì)是學(xué)習(xí)一個非線性映射函數(shù),無法闡述決策過程,也就是模型本身就是不可解釋的。所以,魯棒可解釋的自然語言處理模型研究必將成為自然語言處理的核心關(guān)鍵科學(xué)問題,它直接決定了自然語言處理在特定領(lǐng)域的實際應(yīng)用。
3. 基于多模態(tài)信息的自然語言處理
幾十年來的自然語言處理研究幾乎都是以文本為處理對象,而文本只是語義表達的一種方式,也是不完備的一種方式。很多自然語言的語義理解需要結(jié)合語音和圖像等其他模態(tài)的信息,例如英語句子中“bank”可能需要借助圖像是“銀行”還是“河岸”去進行理解?;诙嗄B(tài)的自然語言處理旨在以自然語言文本為核心,將與之相關(guān)的語音和視覺模態(tài)的信息作為輔助知識進行建模,幫助語義的消岐和理解,從而實現(xiàn)性能更好的自然語言處理模型。
基于多模態(tài)信息的自然語言處理需要解決兩大難題。首先,需要明確哪些自然語言處理任務(wù)需要多模態(tài)信息的幫助。其次,文本、語音和視覺模態(tài)的信息如何進行融合。特別地,還需要明確同源多模態(tài)信息和異源多模態(tài)信息是否應(yīng)該具有相同的語義融合范式。由于人類就是在多模態(tài)的環(huán)境下進行語言理解,因此,基于多模態(tài)信息的自然語言處理方法必將是未來該領(lǐng)域研究的一個重要方向。
4. 交互式、自主學(xué)習(xí)的自然語言處理
目前絕大部分的自然語言處理方法幾乎都是全局的和靜態(tài)的,無法體現(xiàn)實時(在線)從錯誤和用戶反饋中學(xué)習(xí)和優(yōu)化過程,從而模擬人類交互學(xué)習(xí)和終身學(xué)習(xí)的智能行為。交互式自然語言處理旨在與用戶的交互過程中收集、建模和利用反饋信息,不斷迭代和優(yōu)化自然語言處理模型。在線方法能夠被動或主動地發(fā)現(xiàn)錯誤,并根據(jù)錯誤實現(xiàn)在線學(xué)習(xí)和動態(tài)更新機制,最終建立一套自主學(xué)習(xí)框架。
交互式自然語言處理需要克服三個難點。首先,需要設(shè)計一個自然的交互式環(huán)境和平臺;其次,需要設(shè)計真實高效的交互任務(wù);最后,需要建立一個基于反饋的終身學(xué)習(xí)的自然語言處理模型??梢灶A(yù)見,一個成熟智能的自然語言處理系統(tǒng)一定是能夠建立人與機器的生態(tài)閉環(huán),并在與人類的交互過程中逐步得到優(yōu)化的系統(tǒng)。因此,面向在線人機交互和自主學(xué)習(xí)的自然語言處理方法將會是一個未來的研究趨勢。
5. 類腦語言信息處理
基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在近年來備受推崇,它在某種意義上的確模擬了人腦的認(rèn)知功能,但是,這種方法只是對神經(jīng)元結(jié)構(gòu)和信號傳遞方式給出的形式化數(shù)學(xué)描述,并非是基于人腦的工作機理建立起來的數(shù)學(xué)模型,它同樣難以擺脫對大規(guī)模訓(xùn)練樣本的依賴性。類腦語言信息處理旨在通過研究大腦的語言認(rèn)知機理,分析認(rèn)知機理與文本計算方法之間的關(guān)聯(lián),最終設(shè)計語言認(rèn)知啟發(fā)的自然語言處理模型。
目前人們只是在宏觀上大致了解腦區(qū)的劃分和在語言理解過程中所起的不同作用,但在介觀和微觀層面,語言理解的生物過程與神經(jīng)元信號傳遞的關(guān)系,以及信號與語義、概念和物理世界之間的對應(yīng)與聯(lián)系等,都是未知的奧秘。如何打通宏觀、介觀和微觀層面的聯(lián)系并給出清晰的解釋,將是未來急需解決的問題。從微觀層面進一步研究人腦的結(jié)構(gòu),發(fā)現(xiàn)和揭示人腦理解語言的機理,借鑒或模擬人腦的工作機理建立形式化的數(shù)學(xué)模型才是最終解決自然語言理解問題的根本出路。此外,人腦的語言理解過程遵循自主學(xué)習(xí)和進化機制,而目前語言信息處理模型仍然采用一次學(xué)習(xí)終身使用的機制。因此,如何借鑒人腦的語言認(rèn)知與理解機理設(shè)計具備自主學(xué)習(xí)和進化的自然語言理解模型是通向類人智能語言處理的必經(jīng)之路。
6. 復(fù)雜場景下的語音分離與識別
在真實場景中,麥克風(fēng)接收到的語音信號可能同時包含多個說話人的聲音以及噪聲、混響和回聲等各種干擾,人類的聽覺系統(tǒng)可以很容易地選擇想要關(guān)注的內(nèi)容,但是對于計算機系統(tǒng)來說就顯得十分困難,這就是所謂的雞尾酒會問題。如何有效的提升復(fù)雜信道和強干擾下的語音的音質(zhì),進一步探索復(fù)雜場景下的聽覺機理,對語音聲學(xué)建模和語音識別均具有很重要的意義。
此外,重口音、口語化、小語種、多語言等復(fù)雜情況,也對語音模型的訓(xùn)練帶來很大挑戰(zhàn),這種復(fù)雜性,使得語音數(shù)據(jù)變得稀疏,現(xiàn)有的方法難以形成泛化能力很強的模型。因此,如何有效解決這些復(fù)雜情況下的語音識別問題依然具有很高的挑戰(zhàn)性和研究價值。
7. 小數(shù)據(jù)個性化語音模擬
盡管目前語音合成技術(shù)在特定數(shù)據(jù)集和限定條件下能合成出逼近真人的語音,但是仍然存在一些問題,比如雖然發(fā)音和真人類似,但往往發(fā)音風(fēng)格比較單一,且經(jīng)常需要較多的語音數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。在真實場景中,發(fā)音人說話比較隨意和口語化,且大多數(shù)情況下只能獲取很少量音質(zhì)較低的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)普遍缺乏標(biāo)注,給真實場景下個性化語音模擬帶來很多挑戰(zhàn)。此外,由于個性化語音數(shù)據(jù)還存在著數(shù)據(jù)稀疏問題,阻礙了在稀疏空間下精準(zhǔn)捕捉目標(biāo)說話人的韻律特征和有效構(gòu)建說話人發(fā)音表征,從而很難構(gòu)建出高泛化性和高魯棒性的語音模擬模型。因此,如何有效利用數(shù)量少且音質(zhì)低的語音數(shù)據(jù),獲得高表現(xiàn)力個性化模擬語音仍然具有較大的挑戰(zhàn)和重要的研究價值。
聯(lián)系客服