已有的數(shù)字化文本,為閱讀和研究提供了極大便利。用戶可在某部圖書或者在某個(gè)平臺(tái)上的全部圖書中搜檢需要的字詞,進(jìn)而獲取相關(guān)的內(nèi)容。輔之以相應(yīng)的工具,則可以進(jìn)行統(tǒng)計(jì)、校對(duì)、詞語匹配、內(nèi)容聚類等工作,轉(zhuǎn)換為古籍整理的工作語匯,就是說能夠用計(jì)算機(jī)工具來處理文本校勘、詞語名物注釋、專題資料匯編等任務(wù)。
這些應(yīng)用是從古文獻(xiàn)領(lǐng)域來說的。從數(shù)據(jù)科學(xué)的角度看,近幾年來,以深度學(xué)習(xí)為代表的大數(shù)據(jù)相關(guān)技術(shù)已成為當(dāng)代科技發(fā)展的重要標(biāo)志,滲透到社會(huì)各個(gè)領(lǐng)域,對(duì)各學(xué)科的知識(shí)體系及研究方式都帶來了很大沖擊。作為已有相關(guān)數(shù)字化基礎(chǔ)的古籍整理專業(yè),也需要認(rèn)真思索,為拓展研究路徑尋求有效的方法。
過往的學(xué)者在史料的爬梳尋檢上既有真知灼見,又有宏大設(shè)想,只是限于物質(zhì)條件和工具手段不得實(shí)現(xiàn)。如清代章學(xué)誠(chéng)就已認(rèn)識(shí)到索引的功用,提出應(yīng)將古籍中的人名、地號(hào)、書目等一切有名可治、有數(shù)可稽者都制成韻編(即音序索引),以收事半功倍之效。但直至清末,這類索引的編制都寥寥無幾,究其原因,在版刻刷印時(shí)代,不能不考慮篇幅巨大的索引帶來的出版壓力。
△章學(xué)誠(chéng) 資料圖片
作為清華大學(xué)中國(guó)古典文獻(xiàn)研究中心的兼職研究員,近年來我與中心同人合作,把古籍?dāng)?shù)據(jù)化及基于數(shù)據(jù)化的中國(guó)古代知識(shí)工程作為重要的學(xué)術(shù)思考方向,期望借此讓古籍文本更有效地服務(wù)于實(shí)現(xiàn)傳統(tǒng)學(xué)者的最高理想境界,即梁?jiǎn)⒊^的“探察人間全體之運(yùn)動(dòng)進(jìn)步,即國(guó)民全體之經(jīng)歷,及其相互之關(guān)系”。
柳詒徵曾說,“史之所紀(jì),則若干時(shí)間,若干地域,若干人物,皆有聯(lián)帶關(guān)系,非具有區(qū)分聯(lián)貫之妙用,不足以臚舉全國(guó)之多方面,而又各顯其特質(zhì)”。在傳統(tǒng)的古籍整理手段下,學(xué)者們對(duì)此已做了很多嘗試。如傅璇琮先生主編的《唐才子傳校箋》,從群體觀念、以箋證方式考證近四百位唐代重要詩(shī)人,將他們的生平和創(chuàng)作分事項(xiàng)列出,一一標(biāo)舉在不同文獻(xiàn)中的記載和后人的考訂,局部實(shí)現(xiàn)了這一學(xué)術(shù)理想。
△傅璇琮《唐才子傳校箋》 資料圖片
中心以此為目標(biāo)與追求,擬進(jìn)行“中國(guó)古典知識(shí)庫(kù)”(Chinese Classics Knowledge Base,簡(jiǎn)稱CCKB)的建設(shè)工作,在保障古籍文獻(xiàn)內(nèi)容完整性及內(nèi)部邏輯的基礎(chǔ)上,突破文獻(xiàn)原有結(jié)構(gòu),關(guān)注文獻(xiàn)中的年代、地域、人物、社團(tuán)、著述等實(shí)體的相關(guān)屬性及不同實(shí)體間的關(guān)系,通過這些實(shí)體及相互關(guān)系對(duì)文獻(xiàn)進(jìn)行深層組織和知識(shí)管理。歷史上的各種事物都在相互作用中發(fā)生、演進(jìn)、湮滅、更新,這些事實(shí)散見于各類古籍中,有必要將其按客觀的面貌梳理出來。
中心參與了國(guó)家重大科技文化項(xiàng)目“中華字庫(kù)工程”,從傳世宋元刻本文獻(xiàn)中采集了大批經(jīng)典文本,又參與不同專業(yè)出版機(jī)構(gòu)的古籍主題詞表及知識(shí)庫(kù)建設(shè)工作,積累了較為豐富的經(jīng)驗(yàn)。目前,CCKB已涵蓋數(shù)以百萬計(jì)的實(shí)體,千萬計(jì)的實(shí)體屬性及實(shí)體間關(guān)系,但還遠(yuǎn)不足以覆蓋古籍文獻(xiàn)內(nèi)容。
知識(shí)庫(kù)不僅能夠智能化地保存和管理已有知識(shí),還可對(duì)外提供便捷訪問所需的知識(shí)接口,幫助人們準(zhǔn)確、高效地獲取知識(shí)資源。科技界在知識(shí)庫(kù)構(gòu)建方面已經(jīng)做了大量工作,其工作思路和方法可作為我們的重要參考。比如,谷歌很早就提出知識(shí)圖譜的概念,用符號(hào)來描述物理世界中的概念及其相互之間的結(jié)構(gòu),構(gòu)建用于知識(shí)獲取的網(wǎng)絡(luò)服務(wù)。目前,該數(shù)據(jù)庫(kù)已包含超過數(shù)億個(gè)實(shí)體及實(shí)體關(guān)系,力圖涵蓋地球上所有書籍以及網(wǎng)站上的內(nèi)容信息。專門領(lǐng)域的知識(shí)庫(kù)也開始出現(xiàn),哈佛大學(xué)費(fèi)正清研究中心主持研發(fā)的“中國(guó)歷代人物傳記資料庫(kù)”(China Biographical Database Project,簡(jiǎn)稱CBDB),以中國(guó)歷史人物為中心,對(duì)重要的工具書詞條及傳記資料進(jìn)行數(shù)字化處理,提取人物及人物之間的社會(huì)關(guān)系,為學(xué)術(shù)研究提供了諸多便利。
△費(fèi)正清 資料圖片
這些經(jīng)驗(yàn)印證了CCKB構(gòu)建的可能性及廣闊前景,也在操作方法上給予我們很多啟示。多年來,我們主要采用人工方式提取各種實(shí)體,構(gòu)建其屬性和關(guān)系,穩(wěn)妥而效率不高。清華大學(xué)在計(jì)算機(jī)及信息處理技術(shù)上有得天獨(dú)厚的優(yōu)勢(shì),在古文獻(xiàn)研究這一傳統(tǒng)領(lǐng)域也有著相當(dāng)?shù)膶?shí)力,兩相結(jié)合,應(yīng)是未來中心構(gòu)建CCKB的方向。清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系孫茂松教授的團(tuán)隊(duì)通過計(jì)算機(jī)對(duì)大量古代詩(shī)歌文本的深度學(xué)習(xí),自主研發(fā)了古典詩(shī)歌創(chuàng)作系統(tǒng),可以按照任意給定的主題或體裁,創(chuàng)作出格律謹(jǐn)嚴(yán)、內(nèi)容合理、情感協(xié)調(diào)的律詩(shī)作品;清華大學(xué)統(tǒng)計(jì)學(xué)研究中心鄧柯副教授首創(chuàng)“無指導(dǎo)中文文本分析技術(shù)”,即脫離先驗(yàn)詞表的支撐,通過反復(fù)計(jì)算學(xué)習(xí),可以初步實(shí)現(xiàn)對(duì)古籍文本的詞語切分,為后續(xù)的標(biāo)點(diǎn)斷句、專名標(biāo)注等工作提供了進(jìn)一步審訂編輯的基礎(chǔ)。
結(jié)合這些高新技術(shù)手段,發(fā)揮文獻(xiàn)中心傳統(tǒng)古籍整理研究思路和基礎(chǔ)實(shí)踐等方面的長(zhǎng)處,一方面,已提取的實(shí)體以及各種關(guān)系模型可以起到先驗(yàn)詞表的作用,輔助開展實(shí)體及關(guān)系提取等文本挖掘分析工作,進(jìn)而豐富擴(kuò)大知識(shí)庫(kù)的知識(shí)規(guī)模;另一方面,各類實(shí)體及其關(guān)系的抽取過程,實(shí)際上也是文本的標(biāo)引過程,兩者反復(fù)互動(dòng),最終將實(shí)現(xiàn)知識(shí)庫(kù)與文獻(xiàn)的映射與鏈接,從而達(dá)到所有文本的多維度有序提取、排列及重新組合。
在大數(shù)據(jù)技術(shù)支撐下,我們希望與多方通力合作,充分利用新技術(shù)手段和研究方法,構(gòu)建古籍領(lǐng)域內(nèi)完善的、足以映射全部?jī)?nèi)容的知識(shí)庫(kù),為今人及后人的古籍整理與文史研究提供一個(gè)可用的、好用的通用平臺(tái)。
(作者系中國(guó)出版集團(tuán)研究員)
光明文學(xué)遺產(chǎn)工作室出品
聯(lián)系客服