論語言在認(rèn)知中的作用
葉峰 2016.12.24.
作者簡介:葉峰,首都師范大學(xué)哲學(xué)系。
人大復(fù)印:《科學(xué)技術(shù)哲學(xué)》2016 年 11 期
原發(fā)期刊:《世界哲學(xué)》2016 年第 20165 期 第 72-82 頁
關(guān)鍵詞:語言轉(zhuǎn)向/ 分析哲學(xué)/ 人工智能/
摘要:在人工智能研究中,人工神經(jīng)元網(wǎng)絡(luò)進路之成功促使我們重新思考語言在人類認(rèn)知活動中的作用。人類語言是一維符號系統(tǒng),但世界是四維的,因此語言難以有效地記錄事物的時空結(jié)構(gòu)信息。人類大腦中的表征系統(tǒng)很可能是多維而非一維的。人類語言的主要功能是在大腦間傳遞對世界的多維表征而不是用一維符號序列去表征世界。分析哲學(xué)中的所謂語言轉(zhuǎn)向夸大了語言在人類認(rèn)知活動中的作用,提供了一幅關(guān)于人類認(rèn)知活動的不真實的圖畫。
一、引言
2016年3月,谷歌的人工智能程序阿爾法圍棋(AlphaGo)以四比一戰(zhàn)勝世界圍棋冠軍李世石九段,這是人工智能發(fā)展史上的一個標(biāo)志性事件,更是人工智能研究中人工神經(jīng)元網(wǎng)絡(luò)進路之成功的一個標(biāo)志性事件。符號計算與人工神經(jīng)元網(wǎng)絡(luò)是人工智能研究中模擬人類智能的兩個進路。自上世紀(jì)50年代人工智能產(chǎn)生以來一直存在兩個進路之間的競爭,但符號計算進路一直在幾乎所有人工智能研究領(lǐng)域中占據(jù)主導(dǎo)地位。主流人工智能研究者不認(rèn)為人工神經(jīng)元網(wǎng)絡(luò)算法能夠?qū)崿F(xiàn)通用智能,而是僅僅將其視為幾種實現(xiàn)機器學(xué)習(xí)的方法之一,而機器學(xué)習(xí)只是眾多人工智能研究領(lǐng)域中的一個①。直到2006年左右,深度人工神經(jīng)元網(wǎng)絡(luò)的學(xué)習(xí)算法獲得突破,使得深度人工神經(jīng)元網(wǎng)絡(luò)在解決一些應(yīng)用問題上超越了傳統(tǒng)的符號計算方法,特別是解決了一些傳統(tǒng)符號計算進路無法解決的問題。因此,近十年來人工神經(jīng)元網(wǎng)絡(luò)進路越來越受到主流人工智能研究者以及工業(yè)界的關(guān)注。特別是在最近幾年,在許多人工智能研究與應(yīng)用領(lǐng)域中,人工神經(jīng)元網(wǎng)絡(luò)進路都有取代符號計算進路的趨勢②。
人工智能的符號計算進路用符號語言表達關(guān)于世界的知識,例如,用謂詞邏輯的原子語句表達關(guān)于簡單事實的知識,用條件句表達關(guān)于一般規(guī)律的知識。它假定,擁有知識就在于擁有描述世界的真語句,具有智能則在于能夠?qū)φZ言中的詞項、語句等作恰當(dāng)?shù)淖儞Q處理,包括作演繹推理以及不確定性推理(如貝葉斯推理)等等。它認(rèn)為,能夠通過圖靈測試是具有智能的主要標(biāo)志。所謂圖靈測試指的是,讓一個人工智能系統(tǒng)與你對話,使得你無法分辨它是一個真人還是一個人工智能系統(tǒng)。將圖靈測試作為檢驗智能的標(biāo)志,也就是認(rèn)為具有智能主要在于能夠恰當(dāng)?shù)厥褂谜Z言。
與此相對,人工神經(jīng)元網(wǎng)絡(luò)進路是通過學(xué)習(xí)來調(diào)整一個人工神經(jīng)元網(wǎng)絡(luò)中神經(jīng)元結(jié)點上的權(quán)重分布,學(xué)習(xí)的結(jié)果是一個具有恰當(dāng)?shù)臋?quán)重分布因而能夠完成某種任務(wù)的人工神經(jīng)元網(wǎng)絡(luò)。這樣一個人工神經(jīng)元網(wǎng)絡(luò)應(yīng)當(dāng)也記錄了關(guān)于世界的一些知識,但它不是將知識記錄成符號語言中的一系列語句,也不能簡單地轉(zhuǎn)換為這樣的一系列語句。事實上,人工神經(jīng)元網(wǎng)絡(luò)進路在模擬智能時不需要使用符號語言,既不用語言中的語句來描述簡單事實及一般規(guī)律,也不對語言中的語句作邏輯或統(tǒng)計推理。例如,一個人工神經(jīng)元網(wǎng)絡(luò)經(jīng)過學(xué)習(xí)后能夠識別貓、狗、人、汽車等幾類圖像,但學(xué)習(xí)過程中不涉及任何描述貓、狗等的外表特征的語句,學(xué)習(xí)的結(jié)果中也不包含這樣的語言描述。同樣,阿爾法圍棋系統(tǒng)中也沒有用語言表達的棋理規(guī)則,比如關(guān)于什么情況下應(yīng)該打入、什么情況下不應(yīng)該的規(guī)則。人工神經(jīng)元網(wǎng)絡(luò)進路的成功似乎說明,語言對于認(rèn)識世界、記錄關(guān)于世界的知識以及進行像下圍棋那樣的高級智能活動來說,并不是必不可少的。也就是說,擁有知識不必在于擁有真語句,運用智能不必在于對語句進行正確且高效率的推理。
這促使我們哲學(xué)研究者重新思考語言在人類認(rèn)知活動中的作用,因為,20世紀(jì)分析哲學(xué)中的所謂語言轉(zhuǎn)向正是將語言的使用視為人類認(rèn)識世界的活動的核心。一些20世紀(jì)分析哲學(xué)家假設(shè)了這樣一幅關(guān)于語言的圖景:語言是人類心靈通達世界的通道和媒介,所有認(rèn)知活動都不得不通過語言,最終都是使用語言的活動,因此分析語言,特別是分析語言如何具有意義,成了探索世界、回答關(guān)于世界的認(rèn)識論與本體論問題的關(guān)鍵。其中一些哲學(xué)家如早期維特根斯坦、卡爾納普、奎因、戴維森等接受真值條件語義學(xué)或冗余論語義學(xué),認(rèn)為語言是像圖畫一樣描繪世界。但因為我們不得不在語言背后透過語言這層幕布或有色眼鏡看世界,而語言可以有多種而且蘊含一些不確定性(即有多種語言框架的選擇,有指稱及翻譯的不確定性等),因此這些哲學(xué)家又認(rèn)為,我們不能看到完全真實、完全客觀的世界。另一些哲學(xué)家如后期維特根斯坦、達米特等認(rèn)為語言的意義在于其使用而不是描繪世界。這樣,意義本身不是完全客觀的東西,因而世界也不是我們初看起來那樣的實在。特別是達米特,由分析語言的使用如何確定語言的意義得出了一些關(guān)于世界的反實在論的結(jié)論。這是一個“主體—語言—世界”三分的圖景,其中語言將主體與世界隔離開,同時又是主體認(rèn)識世界的媒介,因此語言在這個關(guān)于主體與世界的關(guān)系的圖景中處于中心地位,研究人類認(rèn)識世界的活動也因此主要在于研究語言?!拔业恼Z言的界限就是我的世界的界限”是這個圖景的一種概括。如果我被我的語言包裹著,與世界隔離開,而且我的語言的界限就是我能見到的世界的界限,那么我將不得不依靠使用語言來探索世界,同時依靠分析語言來探求世界的界限,探求世界上可能有怎樣的存在物。
分析哲學(xué)界的學(xué)者們迄今為止已提出了許多與語言在人類認(rèn)知及智能活動中的地位相關(guān)的觀點。事實上,各種觀點的組合都有人嘗試提出并為之辯護(參見博登,2001;Carter,2007;Fantl,2012)。比如,有的學(xué)者認(rèn)為,我們的關(guān)于“如何做”的知識(know-how)不是用語言表達的命題性知識,也不能轉(zhuǎn)換為命題性知識。有的學(xué)者進一步認(rèn)為這種知識是非表征性的,既沒有使用語言來表征事物,也沒有任何其他形式的表征,即他們認(rèn)為大腦不是通過構(gòu)造對世界的某種表征模型來記錄這些關(guān)于“如何做”的知識并控制行動。有的學(xué)者甚至進一步認(rèn)為,直觀上明顯屬于命題性知識的那些知識其實在大腦中也不是被記錄為類似于語句的信念,他們完全否認(rèn)大腦中存在類似于語言中的詞項、語句等等的概念和信念。這些是所謂取消主義者,他們否認(rèn)語言在認(rèn)知活動中具有中心地位。也有學(xué)者否認(rèn)大腦中存在任何形式的表征,不論是語言表征還是其他非語言的表征。這些是徹底的非表征主義者。還有的學(xué)者不否認(rèn)語言在智能活動中的核心地位,但強調(diào)我們對于日常語言的使用活動不能理論化,不能用一些語言規(guī)則來概括,同時他們也否認(rèn)語言的意義在于表征事物。這包括德雷福斯(Dreyfus)那樣推崇海德格爾和后期維特根斯坦對語言及常識的思考的學(xué)者。還有一些學(xué)者如塞爾(Searle)沒有否認(rèn)擁有知識在于擁有真語句以及具有智能在于能夠理解及恰當(dāng)處理語言,也沒有否認(rèn)語言的意義在于表征事物,但他們強調(diào),語言的意義不能完全歸結(jié)為對語言符號的純形式上的操作變換。以上所列舉的是哲學(xué)家們已經(jīng)提出的、對語言在認(rèn)知及行使智能中的作用的種種哲學(xué)觀點。當(dāng)然還有認(rèn)知科學(xué)家及人工智能專家們提出的涉及技術(shù)性方面的許多觀點和理論。
本文的反思主要是哲學(xué)上的反思,但本文將采取一個新的、涉及一些技術(shù)問題的出發(fā)點,它是受人工智能研究中的人工神經(jīng)元網(wǎng)絡(luò)進路的啟發(fā)而注意到的三個事實:(1)人類語言是一維符號系統(tǒng),而世界及其中的事物是四維的,這使得人類語言不能有效地記錄世界中的事物的時空結(jié)構(gòu)信息;(2)大腦神經(jīng)元網(wǎng)絡(luò)可以實現(xiàn)一個多維而非一維的表征系統(tǒng);(3)語言的真正功能是在大腦間傳遞多維表征,而不是用一維符號序列去表征世界。筆者認(rèn)為,注意到這些事實是澄清許多相關(guān)的哲學(xué)問題的關(guān)鍵。一方面,這些事實能夠說明分析哲學(xué)中的“主體—語言—世界”這種三分圖景的錯誤何在。另一方面它們又意味著,否定語言在認(rèn)知中的中心地位不等于放棄表征主義,大腦中還是可以有對世界的表征模型,但它們可以是多維的、以神經(jīng)元網(wǎng)絡(luò)為基礎(chǔ)的表征模型,而不是一維的語言表征。大腦中存在對世界的表征這一點,既符合常識中的直觀,使得我們可以理解、想象大腦如何運作,也有科學(xué)證據(jù)的支持,因此保留它應(yīng)該是一個優(yōu)點。從這些事實出發(fā)也可以說明,我們的常識包括日常語言的使用并非原則上不能理論化,只不過是不能用一維的語言有效地理論化。換言之,理論化,或運用理性智能來概括知識,不必是用一維語言陳述一些規(guī)則來作概括,然后進行一維語言中的推理,它還可以是恰當(dāng)?shù)貥?gòu)造抽象的、具有概括性的多維表征,以及對多維表征進行有規(guī)則的處理變換。同時,這些事實也告訴我們,語言的意義不能完全歸結(jié)為對語言符號的純形式的操作變換,但我們可以更進一步為語言的意義究竟何在提出一個解說,即語言的意義在于與語言符號相關(guān)聯(lián)的大腦中的多維表征。因此,從這三個事實出發(fā),我們可以澄清、甄別上面所提到的種種有關(guān)語言在認(rèn)知及行使智能中的作用的哲學(xué)觀點的正誤,可以對相關(guān)的一系列問題都提出自己的回答。
但限于篇幅,本文只能詳細(xì)闡述作為這個出發(fā)點的三個事實,以及它們對分析哲學(xué)中的“主體—語言—世界”圖景的解構(gòu)。對于其他問題的詳細(xì)論述要留待以后的研究。
二、一維語言與四維世界
不論是自然語言還是現(xiàn)代邏輯中的形式語言都是一維符號系統(tǒng)。語言的最基本的成分是互有差異但沒有內(nèi)在結(jié)構(gòu)的一些符號,語言的表征單元即詞組和語句則是由符號組成的一維線性序列,即符號串,它們只能通過各種符號在一個一維的符號串中的相對位置來記錄世界的信息。對語言表征的操作變換只是對一維的符號串進行匹配、切割、連接、替換等等。邏輯推理就是對一維的符號串的這種匹配、切割、連接及替換。例如,假言三段論就是匹配和切割,代入規(guī)則是替換。假如世界也是一維的,世界中的事物之間的關(guān)系只有一維線性序列上的相對位置關(guān)系,那么語言可以很直接地、很完整地模擬世界。但世界是四維的。每個物體本身占據(jù)三維空間的一個部分,而且在時間維度上會發(fā)生變化,所以一個物體是四維時空中的一個部分。物體之間也是在四維時空中有相對位置關(guān)系,包括(可能是動態(tài)的)包圍、嵌入、纏繞等等復(fù)雜的相對位置關(guān)系。
用一維的語言難以記錄四維事物的時空結(jié)構(gòu)信息。比如,考慮如何用語言記錄這個房間內(nèi)的物體及其部分的相對時空位置(包括它們在時間維度上的變化)。相應(yīng)于公理化幾何與坐標(biāo)幾何,也有兩種用語言來記錄的方式。一種是直接用謂詞邏輯語言中的語句描述物體及其部分的相對時空位置關(guān)系。這需要賦予每個物體及其每個部分一個名字,然后用表達相對位置的謂詞加一系列名字為主目,構(gòu)成原子命題,來表達它們之間的相對位置。例如,
a:瓶子,b:瓶蓋,c:瓶中的水,d:桌面;
同時還需要全稱語句來幫助確定這些謂詞的意義,例如,
但很顯然,以這樣的方式很難記錄所有四維的結(jié)構(gòu)信息。這種直接使用謂詞邏輯語言來表征世界的方式,是先把四維世界的結(jié)構(gòu)信息碎片化,用一個原子命題那樣的一維符號串來記錄四維世界中的某一小片結(jié)構(gòu)信息,然后將許許多多這樣的符號串以一維的、線性的方式連接起來,試圖以一個很長的、一維的符號序列,來完整記錄四維世界的所有結(jié)構(gòu)信息。也許原則上一維的符號序列可以記錄四維世界的所有結(jié)構(gòu)信息,而且原則上可以由一維記錄再重構(gòu)四維結(jié)構(gòu),但這中間不得不經(jīng)過大量多余的、很不自然的轉(zhuǎn)換,帶來大量的冗余計算。更為困難的是表達四維物體的動態(tài)規(guī)律,如“碰瓶子的上部更容易使瓶子傾倒”這種動態(tài)規(guī)律。另一個人們熟知的難題是所謂框架問題(frame problem)。瓶子的傾倒對于四維世界來說只是一個局部的變化,但對于(1)那樣的描述世界的語句序列來說,為了從描述瓶子傾倒前的世界的語句序列變換到描述瓶子傾倒后的世界的語句序列,需要進行極為復(fù)雜的、非局部的操作。例如,這個瓶子的傾倒與旁邊那個瓶子本不相關(guān),但傾倒前這個瓶子與那個瓶子平行,傾倒后則與它垂直,所以,所有記錄兩個瓶子之間的位置關(guān)系的命題都需要更新。瓶子的傾倒不再是一個局部的事件,而是成了“一維符號世界”中的全局性事件。這就是所謂框架問題(cf.Shanahan,2016)。這些都顯示以這種方式不能有效地表征世界。
另一種用語言記錄四維世界的結(jié)構(gòu)信息的方式是設(shè)立時空坐標(biāo),將時空分割成小方塊,將一個物品看作一些時空小方塊的集合,然后用語言描述每個時空小方塊的特征,比如顏色、硬度等等。這也是先將四維世界的結(jié)構(gòu)信息拆解、一維化成一個由數(shù)字等符號構(gòu)成的線性序列,只不過在一維化過程中用了一個統(tǒng)一的編碼,即坐標(biāo)編碼。然后,物體的四維結(jié)構(gòu)特征需要在這些一維記錄上來回作數(shù)學(xué)計算得出。
當(dāng)一個物體的形狀比較規(guī)則時,我們可用算法函數(shù)壓縮對物體的坐標(biāo)表征。比如,對一個規(guī)則的圓柱形,我們可以用一個數(shù)學(xué)方程表達一個條件,坐標(biāo)滿足此條件的小方塊就是屬于這個圓柱形的小方塊,而不必將所有那些小方塊的坐標(biāo)列出來。而且此時容易用一些較快速的算法計算出物體的一些特征,包括動態(tài)特征,比如確定屬于這個圓柱形的底部、側(cè)部的小方塊,確定圓柱體傾倒過程的軌跡等等。但是,對形狀不規(guī)則的物體就只能靠在一維的坐標(biāo)記錄上來回窮盡列舉、窮盡搜索得出其四維結(jié)構(gòu)特征(含動態(tài)特征),這就帶來許多冗余的計算。同樣更為困難的是表達“碰瓶子的上部更容易使瓶子傾倒”那樣的動態(tài)規(guī)律。
要以智能的方式表征世界,表征產(chǎn)品應(yīng)該比世界本身更簡單,應(yīng)該能夠恰當(dāng)?shù)睾雎允澜缰械氖挛锏囊恍┎幌喔傻募?xì)節(jié),進行抽象,同時,對表征產(chǎn)品的操作變換應(yīng)該比被表征的事物的實際變化更簡單,這樣才能體現(xiàn)出智能。但是,用一維的符號系統(tǒng)來表征四維世界,總是不得不先將世界的四維結(jié)構(gòu)信息拆解、碎片化,用一維的符號串來記錄一小片信息,然后又以一維的連接方式拼接,試圖以此完整地記錄四維世界的結(jié)構(gòu)信息。同時要用對一維符號序列的處理變換對應(yīng)四維世界中的物體的變化。這使得表征產(chǎn)品在某些重要的方面扭曲了被表征的事物,因此表征產(chǎn)品以及對表征產(chǎn)品的操作處理,比被表征的事物本身以及它們在實際時空中的變化還要復(fù)雜。這不能達到智能的目的。也許原則上可以用一維的語言完整地記錄四維世界的信息,但智能在于有效地做一件事,而不是原則上可以做什么。例如,原則上我們可以用窮舉法下圍棋,但這顯然不是智能的方法。用一維的語言表征四維的世界,即使原則上可以做到,似乎也不是智能的方法。
三、大腦中的多維表征系統(tǒng)
人類大腦對世界的表征很可能是用某種由神經(jīng)元網(wǎng)絡(luò)實現(xiàn)的多維表征系統(tǒng),而不是一維的語言符號系統(tǒng)。以視覺表征為例(cf.Goldstein,2010)。已知初級視皮層對所見物體的表征直接保留了物體的空間結(jié)構(gòu)信息,是一種近似于拓?fù)渫瑯?gòu)的表征,相近的神經(jīng)元對應(yīng)于物體上相近的線條(edge),物體上的線條之間的相對位置信息被直接記錄下來。所以,初級視皮層中的一個表征單元自身應(yīng)該被理解為一個多維的結(jié)構(gòu),而且是用自身的多維結(jié)構(gòu)直接記錄所見物體的多維結(jié)構(gòu),而不是記下一些一維的、線性的結(jié)構(gòu),然后再以一維線性的方式拼接這些記錄,來記錄物體的空間結(jié)構(gòu)。初級視皮層可能只是記錄了線條以及線條的相對位置信息。對于識別由線條構(gòu)成的物體(object)的神經(jīng)元機制以及識別物體的運動的神經(jīng)元機制等等,我們還所知甚少,但當(dāng)代計算視覺理論中已經(jīng)提出的一些表征物體的模型,都很自然地是多維模型而不是一維的模型,不是用類似于語言中的語句那樣的一維符號序列來描述線條如何構(gòu)成物體(cf.Frisby and Stone,2010)。一些心理實驗似乎能夠證明大腦中有視覺圖像那樣的表征(cf.Kosslyn,Thompson and G.Ganis,2006)。同樣,用深度人工神經(jīng)元網(wǎng)絡(luò)進行圖像識別時,網(wǎng)絡(luò)的中間層次的結(jié)點可以表征圖像中的線條、輪廓、物體等,這些也是直接保留了事物的空間結(jié)構(gòu)信息的表征(cf.Goodfellow,Bengio and Courville,2016:Chapter 1,F(xiàn)ig.1.2)。
一個神經(jīng)元可以與許許多多個神經(jīng)元連接。這種靈活的連接方式應(yīng)當(dāng)使得神經(jīng)元網(wǎng)絡(luò)可以直接地模擬多維結(jié)構(gòu),雖然我們還不清楚其中的機制。比如,想象一個由空間中的一些點構(gòu)成的一個空間立方體。將每個點看作一個神經(jīng)元,每個點與相鄰的點有線條連接。這是一個三維結(jié)構(gòu)。再想象有一系列這樣的立方體,而且前一個立方體中的每個點有一條線與后一立方體中的一個對應(yīng)點相連接。這樣一系列的立方體實際上就構(gòu)成了對一個立方體在時間維度上的變化的記錄,即表征了一個四維(而不是三維)的結(jié)構(gòu)。也就是說,三維空間中的點可以直接表征四維結(jié)構(gòu),只要點之間可以靈活地連接。(一維符號串中的符號之間恰恰不能這樣靈活地連接;在一維符號序列中,每個符號只能固定地與左右相鄰的兩個符號連接,一個符號序列中的任意兩個符號之間只有一個關(guān)系,即中間相隔幾個符號這個關(guān)系。)這僅僅是設(shè)想一個例子。人類大腦表征三維物體及其在時間維度上的變化的方式,肯定比這個更有效。這只是想表明,有理由相信,神經(jīng)元之間的靈活的連接方式,應(yīng)該使得大腦可以較直接地表征物體的四維結(jié)構(gòu),雖然我們還不清楚其中的機制。所以可以設(shè)想,大腦神經(jīng)元網(wǎng)絡(luò)對事物的表征應(yīng)該是多維的,不是一維的。
事實上,我們可以進一步設(shè)想大腦中存在三維物體的縮微模型,而且不只是靜態(tài)物體的縮微模型,如前面所描述的,可以設(shè)想大腦中有物體在時間維度上的一系列變化過程的縮微模型。至少,當(dāng)我們試圖設(shè)計一個可以表征四維世界的機器人的人工智能系統(tǒng)的時候,可以嘗試讓機器人人工智能系統(tǒng)內(nèi)部的東西這樣直接地模擬外部四維世界及四維物體。然后,世界中物體的運動、變形等就直接被表征為大腦中的縮微模型的變化,反之縮微模型的變化也就是大腦對世界中的事物的變化的想象。然后,可以再設(shè)想,大腦能夠?qū)蓚€縮微模型進行模式識別中的那種匹配。比如,大腦觀察到一只手水平地推瓶子的上部,大腦中生成這個場景的縮微模型,然后大腦將這個縮微模型與記憶中的一個具有類似開端的四維縮微模型匹配成功,由此就可以根據(jù)記憶中的那個四維縮微模型的結(jié)局預(yù)測到這個瓶子將傾倒。同時,縮微模型還可以直接參與控制手去完成扶住瓶子這個恰當(dāng)?shù)膭幼鳌_€可以想象,這種縮微表征模型可以有不同程度的抽象。比如,表征一張桌子的縮微模型可以只是一個大致的立體結(jié)構(gòu),類似于一個大致地像桌子的抽象立體雕塑。類似地,表征“水平地推一個柱形物體的上部使其傾倒”這種場景的縮微模型,可以是像一個抽象動態(tài)立體雕塑。這使得一個表征可以匹配許多不同的具體事物或場景。還有,可以想象,這些縮微表征模型可以拆解然后重新組合,可以通過聯(lián)想互相關(guān)聯(lián)。比如,一張桌子的縮微模型可以拆解成桌面、桌腿、抽屜等等的縮微模型,而且由桌子的抽屜的縮微模型可以聯(lián)想到櫥柜的抽屜的縮微模型,又聯(lián)想到櫥柜的縮微模型等等。這樣的一些縮微模型可以構(gòu)成一個多維的表征系統(tǒng),能夠更靈活、更直接、更有效地表征四維世界中的四維事物。
這些只是設(shè)想人類大腦或以神經(jīng)元網(wǎng)絡(luò)為基礎(chǔ)的機器人人工智能系統(tǒng)可以如何構(gòu)造對事物的多維表征。至于究竟如何在人類大腦或機器人人工智能系統(tǒng)中實際做到這些,當(dāng)然還需要許多深入的研究。但既然當(dāng)代計算視覺理論已經(jīng)比較肯定大腦中的視覺表征是多維的表征,同時我們又可以設(shè)想縮微模型這樣的多維表征模型,而且可以設(shè)想這種多維表征如何更靈活有效地模擬事物,因此我們有理由相信人類大腦中應(yīng)該是有一個多維的表征系統(tǒng)。
四、人類語言的真正功能
如果人類語言不適于表征世界,而人類大腦中的表征系統(tǒng)是多維的表征系統(tǒng)而不是一維符號語言系統(tǒng),那么人類語言的真正功能是什么?
從進化歷史看,人類語言的首要功能應(yīng)該是在大腦之間傳遞信息,包括傳遞大腦對世界的多維表征,而不是用一維的語言符號序列自身來記錄世界的信息。動物大腦對世界的表征能力的出現(xiàn)顯然要早于語言的出現(xiàn),而且是遠(yuǎn)遠(yuǎn)地早于語言的出現(xiàn)。當(dāng)極簡單的動物語言出現(xiàn)時,動物大腦的視覺表征能力已經(jīng)很強了。因此完全沒有必要假設(shè)大腦中對物體的視覺表征是像人類語言那樣的一維的符號序列。人類語言的出現(xiàn)當(dāng)然是更晚近的事情。從進化的角度看,不論是動物語言還是早期人類語言的產(chǎn)生,應(yīng)該主要是為了完成在大腦間傳遞表征信息這個功能。早期的人類語言應(yīng)該十分簡單,那種簡單語言自身顯然不足以記錄人類從世界獲得的豐富的視覺信息。
例如,設(shè)想你看一眼窗外,你所能得到的有關(guān)窗外的樓房、樹木、道路、車輛等等的視覺信息是如此之豐富,使得你幾乎不可能用語言詳細(xì)地、足夠準(zhǔn)確地記錄所有這些事物的形狀、色彩、相對時空間位置等等信息。而簡單的人類語言之所以能夠傳遞大腦中極其復(fù)雜的表征,是因為人類大腦之間的相似性。這種相似性使得兩個大腦對同樣的物體或場景產(chǎn)生的內(nèi)部表征(如看見一個物體所產(chǎn)生的視覺圖像)大致是相同的。因此,兩個大腦之間只需要傳遞一個很簡單的、包含很少信息量的信號,比如,只要傳遞物體的名字,就可以使它們聯(lián)想起同樣的內(nèi)部表征,而這個內(nèi)部表征所包含的信息量要遠(yuǎn)遠(yuǎn)超過一個簡單名字。比如,你看著窗外說,“一輛紅車在樹下急剎車”。如果在電腦中每個漢字用兩個字節(jié)存儲,這個由十個漢字構(gòu)成的句子自身的信息量至多不過是20個字節(jié)即160個比特。但由這個句子能夠在大腦中產(chǎn)生的視覺聯(lián)想(包括對動態(tài)場景的視覺圖像)是非常豐富的,所包含的信息量遠(yuǎn)遠(yuǎn)大于160個比特。所以,一維的、簡單的語言,雖然略去了大量的四維世界的信息,卻可以在人們之間很有效地傳遞很復(fù)雜的多維視覺表征。
有的人可能認(rèn)為,只有語言符號才能表達抽象概念。這也是一個誤解。比如考慮“婚姻”這個概念?!盎橐觥边@兩個漢字所能直接記錄的信息量也是太少。即使加上許多其他相關(guān)的語言描述,例如“婚姻是兩個人的契約”(“婚姻”的字面定義的一部分)、“婚姻是旅程”(隱喻)等等,所能直接記錄的信息量也還是太少。我們理解“婚姻”這個概念,依據(jù)的是由這個詞聯(lián)想起的大量的視覺及其他知覺表征,比如對婚禮、家庭生活、孩子的出生與培育等等眾多場景的視覺記憶,對種種婚姻故事所傳達的場景的視覺想象等等。注意,就婚姻故事來說,重要的不是對婚姻故事中的語詞本身的記憶,而是對故事所傳達的場景的視覺想象,后者比前者要豐富得多。如果沒有對旅程中的種種場景、事件的豐富的視覺想象及其他非視覺記憶(比如,對旅途中的新鮮感及疲勞感的記憶),“旅程”這兩個字也只是32比特,隱喻“婚姻是旅程”對理解婚姻也無所助益。所以,不是一個抽象名詞自身就是一個抽象概念,也不是一個抽象名詞再加上一些包含這個名詞的相關(guān)句子就成為一個抽象概念。一個抽象名詞的主要功能同樣只是使人聯(lián)想起一些非常復(fù)雜的非語言表征,而抽象概念的意義在于后者,而不在于那些語詞及語句。
當(dāng)然,當(dāng)復(fù)雜的人類語言產(chǎn)生之后,它對提高人類表征世界的能力的確起到了很大的作用。一段語言描述能夠?qū)⒁幌盗幸曈X想象等非語言表征組合、串聯(lián)起來,構(gòu)成一個更復(fù)雜的表征。這也就是講一個復(fù)雜的、包含許多場景的故事時語言所起的作用。這里,語言是將一系列非語言表征組合、串聯(lián)起來的線。這樣一條線是必要的,但認(rèn)為這樣一條線本身就能表征世界,那就是誤會了。不過,用語言線條可以編織一個很復(fù)雜的網(wǎng)絡(luò),將大腦中的大量非語言表征包括視覺表征串起來,構(gòu)成一個很復(fù)雜的表征。特別是書寫文字被發(fā)明以后,人們可以把這種由語言線條織成的網(wǎng)絡(luò)保存下來,而且不斷地組合、擴大,成為了今天人類表征世界的整個知識體系。這里語言確實起到了非常重要的作用。但在這里,語詞序列依舊是將視覺表征等包含更多信息的非語言表征串聯(lián)起來的線,雖然由這些線織成的網(wǎng)自身也已經(jīng)很復(fù)雜,因此使得人們誤以為是語言自身在描繪、表征世界。
許多人已經(jīng)指出,我們的語言的一個特征是具有系統(tǒng)性和組合性(systematicity and compositionality)。這指的是,語言中的詞項可以依規(guī)則任意組合,構(gòu)成潛在地?zé)o窮多的有意義的句子,而且我們一旦掌握了這種規(guī)則,也就能理解潛在地?zé)o窮多的句子。比如,你能理解“約翰愛瑪麗”也就能理解“瑪麗愛約翰”,以及“約翰愛瑪麗,但瑪麗愛湯姆”等等。哲學(xué)家福多(Fodor)提出,我們大腦中的思想也應(yīng)該具有系統(tǒng)性和組合性,因為我們也能思考潛在地?zé)o窮多的思想。由此他試圖論證,人類大腦中應(yīng)該有類似于自然語言的所謂思想語言(Language of Thought),而人的思想就是由思想語言符號構(gòu)成的語句(cf.Fodor and Lepore,2002)③。這是由大腦中的表征系統(tǒng)應(yīng)該具有系統(tǒng)性和組合性以及語言確實具有系統(tǒng)性和組合性這兩點出發(fā),試圖得出大腦中的表征系統(tǒng)應(yīng)該類似于語言。這個論證的錯誤是沒有考慮到多維的表征系統(tǒng)同樣可以有系統(tǒng)性和組合性。由表征系統(tǒng)應(yīng)該具有系統(tǒng)性和組合性這一合理前提出發(fā),不能得出表征系統(tǒng)必須是一維的語言符號系統(tǒng)。事實上,普通的三維物體也可以被拆解成部分又重新拼裝成新的物體。例如,桌子、椅子等可以拆解成部分然后重新拼裝成新的物體。但這是在三維空間中依三維結(jié)構(gòu)的組合,不是一維的線性組合。也就是說,具有系統(tǒng)性和組合性的東西本身可以是多維的,不必是一維的。
更具體地說,我們的語言的系統(tǒng)性和組合性的基礎(chǔ)其實是我們的知覺想象能力的系統(tǒng)性和組合性。你能想象約翰愛瑪麗的種種場景,也就能想象瑪麗愛約翰的種種場景,以及約翰愛瑪麗但瑪麗愛湯姆的種種場景。如果不能將知覺想象組合,我們也不可能理解語詞的組合。比如,當(dāng)我們試圖理解一個描寫大場面的文本的時候,我們事實上是依靠我們對視覺想象的組合能力,將所讀到的文字引發(fā)的一系列視覺想象組合起來,由此才能得到對整個大場景的理解。缺了這種對視覺想象的多維的組合能力,一個人就無法理解那些描寫大場景的文本。也就是說,語言的系統(tǒng)性和組合性其實是視覺表征等非語言表征的系統(tǒng)性和組合性的后果。
然后更進一步,假設(shè)如前面所設(shè)想的,大腦中是用物體的縮微模型來表征物體,想象物體就是在大腦中構(gòu)造縮微模型。那么,大腦的知覺想象能力的系統(tǒng)性和組合性其實在于這些縮微模型的系統(tǒng)性和組合性,即縮微模型可以被拆解然后重新拼裝。事實上,人的視覺想象的組合方式要比一維語言的組合方式復(fù)雜得多。你能將想象中的一個四維的物體或場景以許多種方式分割成部分,而對于一個一維的符號串,你只能將它在其中某一點一分為二。你能想象兩個四維物體,就能想象它們在四維時空中以多種形式組合、互動,包括可能是動態(tài)的碰撞、嵌入、包圍、纏繞等等。你能想象兩個場景,就能想象它們以先后相續(xù)、并行或交織等多種方式來組合成更大的場景。而對于一維語言,系統(tǒng)性和組合性僅僅在于簡單的分割和重新作一維的拼接。
所以,語言的確具有系統(tǒng)性和組合性這些功能性特征,但語言的這些功能性特征的基礎(chǔ)是大腦中的多維的表征系統(tǒng)的系統(tǒng)性與組合性。我們不必像福多那樣,認(rèn)為大腦是在使用一維的思想語言,也不必認(rèn)為日常語言的系統(tǒng)性與組合性就足以使日常語言自身可以表征世界。
另一方面,人類語言之所以是一維的語言并非必然,而是具有生物偶然性的。人類是靠聲帶發(fā)音來傳遞信息,而聲音是一維的。這就是人類語言一維性的原因。人類語言的一維性是依賴于人類靠聲音交流這個偶然的生物特征。這意味著,語言并非必然是一維的,多維語言也是可設(shè)想的,而且將比一維語言更適于表征世界(也具有更復(fù)雜的系統(tǒng)性和組合性)。
比如,我們可以想象這樣一種外星人,他們沒有發(fā)音的聲帶,但他們進化出了一種人類不具有的能力:他們的眼睛像電影放映機,可以像放映全息立體電影一樣將他們腦子里的四維視覺想象直接放映出來,其他人通過看這樣的全息立體電影就可以看到自己的視覺想象。他們是這樣傳遞他們大腦中的信息。因此,這種外星人的語言就是四維的、視覺的、圖像的語言,而非一維的、聽覺的、聲音的語言。他們對別人講一個故事的時候,不是用一維的聲音符號串去激發(fā)別人的視覺想象等非語言表征,而是直接向別人放映全息立體電影。
這樣的圖像語言也有系統(tǒng)性和組合性,而且有比聲音語言更復(fù)雜豐富的系統(tǒng)性和組合性,因為他們可以將放映出來的四維圖像以多種方式分割與重新組合。這種視覺語言同樣可以表達抽象概念,也可以有語言約定。一方面,一維語言可看作這樣的四維圖像語言的一個極簡單的子語言。你可以放映四維圖像,當(dāng)然也可以放映一維的符號串。因此一維語言所具有的豐富性及表征能力,四維圖像語言都會有,包括一維語言中抽象名詞具有的、使人聯(lián)想起大量非語言表征作為抽象概念的意義這種能力。而且,四維圖像語言可以有更復(fù)雜、豐富的表達抽象概念的方式。比如,在四維圖像語言中,你可以用像抽象畫、抽象雕塑、甚至動態(tài)抽象雕塑那樣的四維圖像表達抽象概念,而且這些表征單元之間可以以動態(tài)碰撞、嵌入、包圍、纏繞等等無盡的方式組合,以表達更復(fù)雜的抽象概念。可以想象,不論是表征具體事物還是表達抽象概念,四維圖像語言都將遠(yuǎn)遠(yuǎn)優(yōu)于一維語言。由此也可以反過來得出,我們的一維聲音、文字語言并不那么適于表征世界,其功能更多地是傳遞人類大腦中的表征。
更進一步,甚至作為大腦之間交流信息的工具的語言本身也不是絕對必需的。比如,按科幻小說《三體》中的設(shè)想,一個三體人可以直接感知另一個三體人大腦中的東西,不需要我們的語言這種傳遞媒介。機器人其實也不需要傳遞機器人大腦中的表征的另外一種語言,因為一個機器人可以通過無線網(wǎng)絡(luò)將自己大腦中的整個內(nèi)部表征直接復(fù)制給另一個機器人,不需要將大腦中的表征先轉(zhuǎn)化為一種語言再傳遞給另一個機器人,更不需要先轉(zhuǎn)化為一種一維的聲音、文字語言。
這些都應(yīng)該被理解為思想實驗,只是在設(shè)想一些可能的事物與情境。但這些應(yīng)該有助于澄清人類語言的真正功能與地位。綜合起來,由于生物偶然性,人類的語言是一維聲音符號系統(tǒng),它自身不適于記錄四維事物的時空結(jié)構(gòu)信息,不適于表征世界。有理由相信我們大腦中的表征系統(tǒng)是一個多維的表征系統(tǒng),它也具有系統(tǒng)性和組合性。我們的一維聲音、文字語言的首要功能是在大腦之間傳遞大腦中的視覺表征等非語言表征,而不是用一維符號序列來表征世界。對于能夠認(rèn)識世界、具有高級智能的生物(或機器人)來說,作為交流信息的手段的語言甚至不是絕對必需的。這些加在一起應(yīng)該能夠說明,人類語言在人類認(rèn)知活動中并沒有一些20世紀(jì)分析哲學(xué)家所想象的那么重要的作用與地位。
五、分析哲學(xué)中的語言崇拜
20世紀(jì)分析哲學(xué)對語言的特別關(guān)注可以追溯到弗雷格在19世紀(jì)末發(fā)明現(xiàn)代數(shù)理邏輯這一事件。弗雷格的目的是為算術(shù)奠定嚴(yán)密的邏輯基礎(chǔ),為此他發(fā)明了現(xiàn)代邏輯語言。就其哲學(xué)目的來說,弗雷格的邏輯主義沒有成功,但就用一種嚴(yán)格、精確的語言表達我們的算術(shù)知識這一點,弗雷格是完全成功了。然后,由于羅素、維特根斯坦、希爾伯特等人的推進,人們開始相信,數(shù)理邏輯的語言原則上可以完全地表達所有數(shù)學(xué)知識。就表達關(guān)于自然數(shù)、實數(shù)的數(shù)學(xué)理論來說,這應(yīng)該是很自然的,因為數(shù)字、小數(shù)展開式這些事物本質(zhì)上是一維的。對于幾何,事實上,數(shù)學(xué)家們在構(gòu)造證明的時候依靠的是空間直覺而不是語言中的邏輯推理。當(dāng)然,我們還是認(rèn)為,原則上幾何學(xué)也可以在數(shù)理邏輯的語言中形式化,但這已經(jīng)是很大的“原則上”。一些哲學(xué)家們則進一步設(shè)想,語言原則上可以完備地描述整個世界,表達我們關(guān)于世界的所有知識。這當(dāng)然是更大的“原則上”。的確,只要設(shè)立時空坐標(biāo),我們“原則上”可以用一維的語言描述世界上的一切,但這種“原則上”可行的做法與人類實際上如何表征、認(rèn)識世界已經(jīng)相差太遠(yuǎn)了。
也許是因為哲學(xué)家們往往只關(guān)心原則上可以怎樣,不關(guān)心實際上發(fā)生了什么,或怎么做才是最有效的,語言的這種“原則上”的表征能力使得一些哲學(xué)家(比如卡爾納普、奎因、達米特等)很自然地就認(rèn)為,語言自身就包括我們所有的表征、概念、思想,就包括我們所具有的一切知識,因此哲學(xué)研究可以專注于分析語言。大腦或心靈中非語言的東西漸漸被忘卻。這些哲學(xué)家進而認(rèn)為,通過分析語言如何具有意義就能說清我們?nèi)祟惾绾握J(rèn)識世界,甚至能回答一些關(guān)于世界的本體論問題。對語言的這種關(guān)注最后演變成為一個關(guān)于語言的“主體—語言—世界”三分圖景。語言不再僅僅是用于大腦之間傳遞信息的、簡單的、能引發(fā)大腦中的豐富聯(lián)想的一維聲音文字信號,而是成了心靈與整個世界之間的媒介,隔離心靈與世界的幕布,以及心靈不得不通過其“看”整個世界的有色眼鏡。
這個圖景之不真實,通過想象不需要語言的三體人及機器人(比如變形金剛)就不難看出。對于不需要語言的智能生物或機器人,如果還有所謂“看世界的有色眼鏡”,那肯定不能是我們目前所說的漢語、英語或一階邏輯語言這種語言。也許它是三體人或機器人大腦中的某種表征系統(tǒng)。但如果是這樣,對于我們?nèi)祟?,所謂“看世界的有色眼鏡”也應(yīng)該是我們大腦中的多維表征系統(tǒng)而不是我們的語言。類似地,說“我的語言的界限就是我的世界的界限”,其實等于說“這個大腦與那個大腦之間傳遞信息的聲波信號的界限就是世界的界限”,這顯然荒謬,而對于不需要語言的智能生物或機器人,這個說法就更沒有意義了。語言只是相對簡單的、通過聯(lián)想引發(fā)大腦中豐富的非語言表征來傳遞信息的一維聲音和文字符號系統(tǒng)。它不是大腦與世界之間的媒介。理解認(rèn)知應(yīng)該主要是在于理解大腦如何存儲、處理信息,包括如何構(gòu)造大腦中對世界的多維表征,而不是主要在于理解大腦之間如何用聲音、文字交流信息。語言的意義是在于大腦之外的聲音、文字符號與大腦中的那些多維表征之間的關(guān)聯(lián)。由分析語言如何獲得意義去探討世界上有什么存在,等于是由分析人類聲帶振動產(chǎn)生的聲波模式如何與人類大腦中的多維表征相關(guān)聯(lián),去探討世界上其他地方有什么事物存在。這也是荒謬的。那種“主體—語言—世界”的三分圖景是一幅關(guān)于語言在人類認(rèn)知活動中的作用與地位的極為扭曲的圖畫。
對語言的作用的過分夸大可能還有另一方面的原因。20世紀(jì)以前的主流哲學(xué)傳統(tǒng),不論是經(jīng)驗論、唯理論、德國觀念論,都是在談?wù)摽床灰?、摸不著的心理性或精神性的觀念(idea)、概念等等,背后是二元論、觀念論或唯心論的世界觀。進入20世紀(jì)以來,受科學(xué)尤其是進化論的影響,很多哲學(xué)家相信我們應(yīng)該放棄二元論、觀念論及唯心論,而接受自然主義的甚至物理主義的世界觀。比如,卡爾納普和奎因都接受某種形式的物理主義。但直到20世紀(jì)中葉以前,人們還完全不能想象大腦神經(jīng)元網(wǎng)絡(luò)如何工作,如何能在大腦中產(chǎn)生視覺等知覺表征,如何能有智能。而另一方面,語言多少顯得是有物質(zhì)基礎(chǔ)的,是看得見、摸得著的可以用科學(xué)方法描述的東西,不像傳統(tǒng)哲學(xué)中的觀念、概念等。而且,圖靈機模型使得我們可以想象一個機器如何能夠處理語言符號,能夠進行邏輯推理。人們甚至實際地制造出了能夠處理語言符號和進行邏輯推理的計算機。因此,語言自然地成了這些哲學(xué)家(以及嘗試模擬智能的人工智能研究者)專注的對象,他們以此回避他們對之完全缺乏認(rèn)識的大腦神經(jīng)元網(wǎng)絡(luò)及其中的多維表征。這里,夸大語言的作用正是因為對真正起作用的東西即大腦中的表征的無知。這是可以理解的現(xiàn)象。
但今天科學(xué)家們已經(jīng)開始認(rèn)真探討大腦神經(jīng)元網(wǎng)絡(luò)如何工作。計算視覺理論已經(jīng)對大腦神經(jīng)元網(wǎng)絡(luò)如何構(gòu)造視覺表征提出一些模型,雖然還只是一些很粗略的設(shè)想(cf.Goldstein,2010;Frisby and Stone,2010)。人工智能研究中的人工神經(jīng)元網(wǎng)絡(luò)進路已經(jīng)開始嘗試模擬神經(jīng)元網(wǎng)絡(luò)如何以不同于一維符號語言的語句的方式記錄:關(guān)于世界的知識,以不同于進行推理的方式行使智能。因此我們沒有必要再回避大腦或心靈中的那些非語言的東西。同時,我們還應(yīng)該對語言還其本來面目,拒絕過分夸大語言的作用的那種“主體—語言—世界”三分圖景。這不是要完全否認(rèn)分析語言對于澄清我們的知識體系的價值。既然我們是用語言作為線條編織一個復(fù)雜的網(wǎng)絡(luò),將我們大腦中非語言的多維:表征串起來,構(gòu)成我們對世界的知識體系,語言所編成的網(wǎng)絡(luò)至少顯示了我們的知識體系的某種粗線條的結(jié)構(gòu),因此分析語言肯定有助于澄清我們的知識體系。這只是強調(diào),我們不應(yīng)該忽視我們大腦中非語言的表征,而且,要真正澄清語言如何獲得意義正是需要正視那些非語言的表征。
原文曾在智能與心靈學(xué)術(shù)研討會(2016年4月21日,中國人民大學(xué)哲學(xué)院)及北京大學(xué)哲學(xué)系邏輯前沿討論班上報告過,作者感謝參會者的批評及建議。
注釋:
①見拉塞爾和諾維格(Russell and Norvig,2010)著作的第一章中對人工智能發(fā)展歷史的簡要概述。這本很流行的人工智能教科書只用很小的篇幅討論人工神經(jīng)元網(wǎng)絡(luò)學(xué)習(xí)??ㄌ?Carter,2007)及加森(Garson,2015)對符號計算進路及人工神經(jīng)元網(wǎng)絡(luò)進路(又稱聯(lián)結(jié)主義)的介紹,適于哲學(xué)學(xué)者閱讀。
②最新的綜述可見古德費洛、本希奧和考維爾(Goodfellow,Bengio and Courville,2016)著作的第一章。
③福多一直是人工神經(jīng)元網(wǎng)絡(luò)進路的批評者。
參考文獻:
[1]博登,2001,《人工智能哲學(xué)》,劉西瑞、王漢琦譯,上海譯文出版社。
[2]Carter,M.,2007,Minds and Computers:An Introduction to the Philosophy of Artificial Intelligence,Edinburgh University Press.
[3]Fantl,J.,2012,“Knowledge How”,in E.N.Zalta ed.,Stanford Encyclopedia of Philosophy,http://plato.stanford.edu/entries/knowledge-how/.
[4]Frisby,J.P.and J.V.Stone,2010,Seeing:The Computational Approach to Biological Vision,2nd ed.,Cambridge,The MIT Press.
[5]Fodor,J.and E.Lepore,2002,The Compositionality Papers,Oxford University Press.
[6]Garson,J.,2015,“Connectionism”,in E.N.Zalta ed.,Stanford Encyclopedia of Philosophy,http://plato.stanford.edu/entries/connectionism/.
[7]Goldstein,E.B.,2010,Sensation and Perception,8th ed.,Cengage Learning.
[8]Goodfellow,I.,Y.Bengio and A.Courville,2016,Deep Learning,The MIT Press,http://www.deeplearningbook.org/.
[9]Kosslyn,S.M.,W.L.Thompson and G.Ganis,2006,The Case for Mental Imagery,Oxford University Press.
[10]Russell,S.J.and P.Norvig,2010,Artificial Intelligence:A Modern Approach,Prentice Hall.
聯(lián)系客服
微信登錄中...
請勿關(guān)閉此頁面