1955年加菲爾德發(fā)表題為《引文索引用于科學(xué)》的論文,系統(tǒng)地提出用引文索引檢索科技文獻(xiàn)的方法,1961年開始編制面向全部科技領(lǐng)域的綜合性引文索引《科學(xué)引文索引》(簡稱SCI)并于1963年出版[1]。1965年,普賴斯借助《SCI》發(fā)表了論文《科學(xué)論文的網(wǎng)絡(luò)》,這篇論文研究了科學(xué)論文之間的引證和被引證關(guān)系以及由此形成的引證網(wǎng)絡(luò)。普賴斯指出在這個(gè)網(wǎng)絡(luò)圖上,有密集分布的小條或小塊,如果把這些小條小塊研究清楚,就可以繪制當(dāng)代科學(xué)的“地形圖”[2]。由此引文分析普遍開展起來,而信息技術(shù)的廣泛運(yùn)用,更使得引文分析、共現(xiàn)分析等方法如虎添翼。進(jìn)入新世紀(jì)以來,知識(shí)圖譜的理論與方法,以其理論上的綜合化、方法上的可視化、描繪上的形象化等諸多特征,獲得迅猛的發(fā)展,一躍成為當(dāng)代科學(xué)計(jì)量學(xué)的研究熱點(diǎn)與最新前沿,研究極為活躍。但在文獻(xiàn)計(jì)量學(xué)的發(fā)源地——圖書館學(xué)情報(bào)學(xué)領(lǐng)域,知識(shí)圖譜卻不是非常重視。當(dāng)代著名情報(bào)學(xué)家加菲爾德和權(quán)威科學(xué)學(xué)家默頓都認(rèn)為:科學(xué)計(jì)量學(xué)、文獻(xiàn)計(jì)量學(xué)、信息計(jì)量學(xué)都屬于同一門學(xué)科——科學(xué)計(jì)量學(xué)[3]。因此,本文擬對知識(shí)圖譜的理論與方法作一簡要介紹,以期引起國內(nèi)同行的重視和研究。
1 知識(shí)圖譜概述
1.1 知識(shí)圖譜的概念
知識(shí)圖譜(Mapping Knowledge Domain,在圖書情報(bào)界也稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖),是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。具體來說,知識(shí)圖譜是把應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu)的多學(xué)科融合的一種研究方法。它把復(fù)雜的知識(shí)領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制而顯示出來,揭示知識(shí)領(lǐng)域的動(dòng)態(tài)發(fā)展規(guī)律,為學(xué)科研究提供切實(shí)的、有價(jià)值的參考。迄今為止,其實(shí)際應(yīng)用在發(fā)達(dá)國家已經(jīng)逐步拓展并取得了較好的效果,但它在我國仍屬研究的起步階段。
1.2 知識(shí)圖譜與知識(shí)地圖、信息可視化、知識(shí)管理之間的關(guān)系
為了確切地理解知識(shí)圖譜的概念,首先要明確它與知識(shí)地圖、信息可視化、知識(shí)管理之間的關(guān)系。
1 2.1 知識(shí)圖譜是知識(shí)地圖的一種高級表現(xiàn)形式
英國著名的情報(bào)學(xué)家布魯克斯(B. C. Brooks)在他的經(jīng)典著作《情報(bào)學(xué)基礎(chǔ)》中最早提出了“知識(shí)地圖”的概念。布魯克斯指出情報(bào)學(xué)的真正任務(wù)應(yīng)該是組織、加工和整理人類客觀知識(shí),將知識(shí)結(jié)構(gòu)繪制成以各個(gè)知識(shí)單元概念為節(jié)點(diǎn)的學(xué)科“認(rèn)識(shí)地圖”,通過對文獻(xiàn)中的邏輯內(nèi)容進(jìn)行分析,找到人們思想的相互影響及聯(lián)系的結(jié)合點(diǎn),從而為用戶提供知識(shí)之間關(guān)系的一種知識(shí)組織的理想狀態(tài)[4]。布魯克斯所提出的“知識(shí)地圖”是從知識(shí)網(wǎng)絡(luò)的形式出發(fā),說明知識(shí)單元發(fā)展變化的過程,促進(jìn)知識(shí)的變化過程向理想的狀態(tài)發(fā)展。而目前信息管理界研究的應(yīng)用于知識(shí)管理的知識(shí)地圖,其思想來源于布魯克斯,但與他提出的“知識(shí)地圖”的概念是不同的。目前研究的知識(shí)地圖就是對組織知識(shí)資源總體分布情況的可視化描述,包括組織知識(shí)資源的存在情況及其載體,以及資源之間可能存在的聯(lián)系。實(shí)質(zhì)上就是利用現(xiàn)代信息技術(shù)制作的組織知識(shí)資源的總目錄和各知識(shí)條目之間關(guān)系的綜合體以及組織專家的導(dǎo)航系統(tǒng)。是利用構(gòu)造地圖的方法將各類知識(shí)資源中的知識(shí)關(guān)聯(lián)起來,使之成為一個(gè)網(wǎng)絡(luò)[5]。IBM的The Lotus Knowledge Discovery System推出了強(qiáng)大的知識(shí)地圖集成方案;微軟公司的知識(shí)地圖包含了137項(xiàng)顯性知識(shí)及200項(xiàng)隱性知識(shí)[6]。由此可見,目前研究的知識(shí)地圖建立的只是文獻(xiàn)信息之間的,最多是知識(shí)之間的一種關(guān)聯(lián),而無法說明知識(shí)單元發(fā)展變化的過程,因此,并不能稱為嚴(yán)格意義上的知識(shí)地圖。而知識(shí)圖譜正是實(shí)證研究科學(xué)共同體結(jié)構(gòu)與發(fā)展的方法,通過把最先進(jìn)的信息技術(shù)運(yùn)用于知識(shí)圖譜的繪制,來實(shí)現(xiàn)動(dòng)態(tài)發(fā)展著的學(xué)科知識(shí)的可視化,揭示學(xué)科發(fā)展規(guī)律。在知識(shí)圖譜中,學(xué)科前沿之間的交互關(guān)系是以空間的形式展現(xiàn)出來的,這樣就能夠探明有關(guān)學(xué)科之間的親緣關(guān)系和結(jié)構(gòu),劃定某學(xué)科的作者集體以及“無形學(xué)院”(無形學(xué)院是特定的學(xué)術(shù)社群,即具有共同信念的合作群體中的學(xué)者形成的交流網(wǎng)絡(luò)),分析推測學(xué)科間的交叉、滲透和衍生趨勢,對某一學(xué)科的產(chǎn)生背景、發(fā)展歷史、突破性成就、今后發(fā)展方向進(jìn)行分析,從而揭示學(xué)科的動(dòng)態(tài)結(jié)構(gòu)。因此,知識(shí)圖譜遵循了布魯克斯“知識(shí)地圖”的思想,可以說是布魯克斯所提出的“知識(shí)地圖”的真正雛形,并向著這一理想目標(biāo)邁出了堅(jiān)實(shí)的一步。
1.2.2 知識(shí)圖譜是信息可視化的一個(gè)分支
信息可視化是利用計(jì)算機(jī)支撐的、交互的、對抽象數(shù)據(jù)的可視表示。可視化技術(shù)不僅在揭示信息資源的廣度與深度上有很大的優(yōu)勢,還能夠?qū)㈦[藏在信息資源內(nèi)部的、復(fù)雜的、抽象的語義以直觀的圖形方式呈現(xiàn)給用戶,為用戶直觀、方便獲取、過濾、理解大規(guī)模數(shù)據(jù)和信息提供了有效途徑,從而發(fā)現(xiàn)信息之間的關(guān)系特征和規(guī)律[7]。知識(shí)可視化是將數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)等方法所獲得的知識(shí)和規(guī)律,尤其是知識(shí)的構(gòu)成和知識(shí)之間的邏輯關(guān)系,以及具有復(fù)雜結(jié)構(gòu)的知識(shí),利用可視化的方法表現(xiàn)出來,使得知識(shí)便于理解。該類型的可視化可以是靜態(tài)的關(guān)聯(lián)、聚類、分類知識(shí),也可以是反映系統(tǒng)演化規(guī)律的知識(shí)[8]。知識(shí)圖譜就是利用信息可視化技術(shù),根據(jù)共引分析、共現(xiàn)分析等理論基礎(chǔ),構(gòu)建的一種知識(shí)之間關(guān)系的網(wǎng)絡(luò)圖,常見的網(wǎng)絡(luò)有時(shí)序網(wǎng)絡(luò)、共引網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、耦合網(wǎng)絡(luò)、合作網(wǎng)絡(luò)等。它包含了以文獻(xiàn)等信息為節(jié)點(diǎn)、以它們之間關(guān)系為邊的鏈型、樹型、網(wǎng)型等結(jié)構(gòu)的圖形。這些關(guān)系聚類圖的可視化包括作者、文章、期刊、關(guān)鍵詞、學(xué)科等類型,節(jié)點(diǎn)分別是作者、文章或期刊等,邊即權(quán)重。知識(shí)圖譜這種擴(kuò)展到深層次的知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘領(lǐng)域中的可視化方法,在信息管理界被稱為知識(shí)領(lǐng)域可視化[9]。因此,知識(shí)圖譜和信息檢索過程可視化、信息檢索結(jié)果可視化一樣都屬于信息可視化的一個(gè)重要分支。
1.2.3 知識(shí)圖譜是知識(shí)管理中數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的有效手段
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘隱含的、先前未知的、具有潛在價(jià)值的知識(shí)或規(guī)則。這些規(guī)則蘊(yùn)含了數(shù)據(jù)之間的特定關(guān)系,揭示出有價(jià)值的知識(shí)[10]。數(shù)據(jù)挖掘的主要模式有聚類、關(guān)聯(lián)規(guī)則、序列模式、分類等。聚類是把一組個(gè)體按照相似屬性歸成若干類別,其目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別的個(gè)體間的距離盡可能大;序列模式主要是分析數(shù)據(jù)間的前后序列關(guān)系;分類要解決的問題是為一個(gè)事件或?qū)ο髿w類。知識(shí)圖譜就是將數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的有關(guān)方法和模式移植到文獻(xiàn)信息之間的共引、共現(xiàn)關(guān)系上,采用關(guān)聯(lián)、序列、聚類、分類等方法進(jìn)行深層次的分析,發(fā)揮它能夠從大量的、不完全、模糊的、隨機(jī)的、事先未知的數(shù)據(jù)中自動(dòng)、有效、智能地提取隱含于其中的有用信息和知識(shí)的優(yōu)勢??茖W(xué)發(fā)展的繼承性可以從引證關(guān)系上體現(xiàn)出來;通過對引證關(guān)系的挖掘分析,發(fā)現(xiàn)科學(xué)理論和方法的歷史演變過程;用共現(xiàn)、共引、耦合關(guān)系按年代分布所構(gòu)成的歷史圖和網(wǎng)狀關(guān)系進(jìn)行研究,能夠揭示學(xué)科結(jié)構(gòu)特點(diǎn)、研究熱點(diǎn)、發(fā)展源流、專業(yè)相關(guān)程度以及突破性成就、未來發(fā)展方向等[11]。知識(shí)管理提供容易使人們理解和使用的知識(shí),而不是分散的、復(fù)雜的、難以理解的信息單元。知識(shí)管理強(qiáng)調(diào)系統(tǒng)化地處理和利用信息,發(fā)掘知識(shí)內(nèi)涵,建立以先進(jìn)信息技術(shù)為基礎(chǔ)的知識(shí)管理系統(tǒng),促進(jìn)知識(shí)的廣泛共享[12]。因此,知識(shí)圖譜方法就是知識(shí)管理的一種有效形式,在揭示信息關(guān)聯(lián)及規(guī)律方面具備其他許多方法不可比擬的優(yōu)越性和獨(dú)到之處。
1.3 知識(shí)圖譜的主要應(yīng)用領(lǐng)域
知識(shí)圖譜的主要應(yīng)用領(lǐng)域包括:(1)從事科學(xué)技術(shù)活動(dòng)的學(xué)術(shù)共同體和作為其知識(shí)載體的網(wǎng)絡(luò);(2)某一學(xué)科主要研究領(lǐng)域之間的內(nèi)部聯(lián)系,各研究領(lǐng)域之間的知識(shí)輸入與知識(shí)輸出;(3)研究主題的衍生、滲透與擴(kuò)散趨勢;(4)學(xué)科領(lǐng)域內(nèi)顯性或編碼化的知識(shí)(作者、機(jī)構(gòu)、專利、期刊和其他出版物等)之間的關(guān)系;(5)科學(xué)社會(huì)網(wǎng)絡(luò)(科學(xué)合作網(wǎng)絡(luò))等。
2 構(gòu)建知識(shí)圖譜的理論
2.1 引文分析理論與共引、耦合網(wǎng)絡(luò)
所謂引文分析,就是利用各種數(shù)學(xué)及統(tǒng)計(jì)學(xué)的方法和比較、歸納、概括等邏輯方法,對科學(xué)期刊、論文、著者等各種對象的引用與被引用現(xiàn)象進(jìn)行分析,揭示其數(shù)量特征和內(nèi)在規(guī)律的一種文獻(xiàn)計(jì)量方法。科學(xué)文獻(xiàn)的引用與被引用,說明了科學(xué)知識(shí)的繼承和利用。通過引文間的網(wǎng)狀關(guān)系進(jìn)行研究,能夠探明有關(guān)學(xué)科間的關(guān)系和某些發(fā)展規(guī)律。當(dāng)兩篇文獻(xiàn)共同出現(xiàn)在第3篇文獻(xiàn)的參考文獻(xiàn)中,這兩篇文獻(xiàn)就成為被共引的關(guān)系。共引頻率定義為這兩篇文獻(xiàn)一起被引用的頻率。一對文獻(xiàn)被共引的頻率越高,它們就越相似。兩篇文獻(xiàn)共同引用第3篇文獻(xiàn),這兩篇文獻(xiàn)就成為耦合關(guān)系,耦合頻率與共引頻率相同。利用文獻(xiàn)間的相似性特征,就能夠構(gòu)造學(xué)科的層次結(jié)構(gòu),為洞察其變化趨勢提供直觀的工具。同傳統(tǒng)的學(xué)者個(gè)人歸納、訪談?wù){(diào)查等主觀分類方法相比,共被引分析最大的優(yōu)勢是它的客觀性、分類原則的科學(xué)性和數(shù)據(jù)的有效性。共被引分析又可以分為文獻(xiàn)、期刊、作者、學(xué)科分析等。引文分析理論與共引、耦合網(wǎng)絡(luò)可以:(1)揭示科學(xué)研究間的隱含關(guān)系,發(fā)現(xiàn)學(xué)科歷史淵源,作為分析科學(xué)史的依據(jù);(2)反映學(xué)科間的交叉融合,生成學(xué)科關(guān)系圖,分析科學(xué)結(jié)構(gòu);(3)用于探索交叉學(xué)科研究前沿,尋找新的研究方向,促進(jìn)交叉學(xué)科發(fā)展等[13]。
2.2 詞頻分析理論與共詞網(wǎng)絡(luò)
詞頻分析法是利用能夠揭示或表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞在某一研究領(lǐng)域中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點(diǎn)和發(fā)展動(dòng)向的文獻(xiàn)計(jì)量方法。由于一篇文獻(xiàn)的關(guān)鍵詞或主題詞是文章核心內(nèi)容的濃縮和提煉,因此,如果某一關(guān)鍵詞或主題詞在其所在領(lǐng)域的文獻(xiàn)中反復(fù)出現(xiàn),則可反映出該關(guān)鍵詞或主題詞所表征的研究主題是該領(lǐng)域的研究熱點(diǎn)。共詞分析方法屬于內(nèi)容分析方法的一種,它通過對一組詞兩兩統(tǒng)計(jì)它們在同一文獻(xiàn)中出現(xiàn)的次數(shù),并以此為基礎(chǔ)對這些詞進(jìn)行聚類分析,從而反映出這些詞之間的親疏關(guān)系,進(jìn)而分析這些詞所代表的學(xué)科研究熱點(diǎn)、主題的結(jié)構(gòu)變化和轉(zhuǎn)移趨勢[14]。這種方法的優(yōu)點(diǎn)是方法靈活,結(jié)果直觀,同時(shí)詞和詞共現(xiàn)不僅出現(xiàn)在科學(xué)期刊中,也出現(xiàn)在專利和政策報(bào)告等灰色文獻(xiàn)中。共詞分析法是對當(dāng)前發(fā)表文獻(xiàn)的直接統(tǒng)計(jì),所尋找的是當(dāng)前論文所集中關(guān)注的主題,適合尋找前沿領(lǐng)域。因?yàn)榍把仡I(lǐng)域的研究往往人數(shù)眾多而不集中,作品比較分散,被引用情況不穩(wěn)定,而關(guān)鍵詞卻很好地體現(xiàn)了該學(xué)科的研究熱點(diǎn)、發(fā)展方向。
2.3 社會(huì)網(wǎng)絡(luò)分析理論與科研合作網(wǎng)絡(luò)
社會(huì)網(wǎng)絡(luò)分析(SNA)是人、集團(tuán)、組織或者其他信息與知識(shí)處理實(shí)體的關(guān)系和流動(dòng)的映射和測量。網(wǎng)絡(luò)中的節(jié)點(diǎn)是人和集團(tuán)而鏈接表示節(jié)點(diǎn)間的關(guān)系或者流動(dòng)。它將社會(huì)結(jié)構(gòu)界定為一個(gè)網(wǎng)絡(luò),強(qiáng)調(diào)的是每個(gè)行動(dòng)者都與其他行動(dòng)者有或多或少的關(guān)系,更多地聚焦于成員之間的聯(lián)系而非個(gè)體的特征,一個(gè)社會(huì)網(wǎng)絡(luò)是一個(gè)人群的集合,其中的每一個(gè)人都與其中某個(gè)子群體的人相互熟悉。這樣一個(gè)網(wǎng)絡(luò)可以用點(diǎn)(或矢量)的集合來代表人,用線的連接來表示相識(shí)。在理論上,社會(huì)網(wǎng)絡(luò)分析可以為任何共同體構(gòu)建一個(gè)社會(huì)網(wǎng)絡(luò)[15],建立這些網(wǎng)絡(luò)關(guān)系的模型,描述群體關(guān)系的結(jié)構(gòu),研究這種結(jié)構(gòu)對群體功能或者群體內(nèi)部個(gè)體的影響。在一個(gè)科學(xué)合作網(wǎng)絡(luò)中,如果兩個(gè)科學(xué)家共同發(fā)表了一篇合作文獻(xiàn),就被界定為他們之間存在聯(lián)系。除了作者間的合作外,合作網(wǎng)絡(luò)還包括合作者的數(shù)量、合作論文數(shù)、聚類的度等等[16]。社會(huì)網(wǎng)絡(luò)分析提出了若干定量分析的指標(biāo),主要概念有:緊密性、中介性、中心性、橋、簇、團(tuán)、叢等[17],通過這些概念,可以借助可視化技術(shù)了解有重要地位的作品、作者、學(xué)科力量和群體分布等[18]。
3 構(gòu)建知識(shí)圖譜的關(guān)鍵技術(shù)方法
知識(shí)圖譜的關(guān)鍵技術(shù)最主要的是解決在圖形生成過程中的數(shù)據(jù)降維問題,傳統(tǒng)的映射技術(shù)有多元統(tǒng)計(jì)分析方法,包括因子分析(主要是主成份分析)、多維尺度分析和聚類分析,目前比較先進(jìn)的映射技術(shù)有:尋徑網(wǎng)絡(luò)[19]、自組織特征映射[20]、力矢量布局算法[21]、潛在語義分析[22]、最小生成樹算法[23]、三角測量等新的先進(jìn)算法,這些都只在國外有試驗(yàn)報(bào)道,在國內(nèi)只有尋徑網(wǎng)絡(luò)的方法有實(shí)驗(yàn)報(bào)道,其他都是簡單的評介,還無相關(guān)實(shí)驗(yàn)研究。共詞分析采用的主要可視化方法包括包容圖、臨近圖、戰(zhàn)略坐標(biāo)圖等方法,戰(zhàn)略坐標(biāo)圖更為常用。戰(zhàn)略坐標(biāo)圖可以可視化的形式概括地表現(xiàn)一個(gè)知識(shí)領(lǐng)域的結(jié)構(gòu)。
4 構(gòu)建知識(shí)圖譜可用軟件評介
目前構(gòu)建知識(shí)圖譜應(yīng)用較多的是一些用于社會(huì)網(wǎng)絡(luò)分析的軟件,下面就國內(nèi)外文獻(xiàn)報(bào)道所使用的軟件做一簡要分析介紹。
4.1 Pajek[24]
Pajek是一個(gè)網(wǎng)絡(luò)分析和可視化的程序,專門為處理大型數(shù)據(jù)集而設(shè)計(jì),是基于Windows的免費(fèi)社會(huì)科學(xué)軟件,它允許用戶對大量抽象的數(shù)據(jù)進(jìn)行分析。它能夠同時(shí)處理若干網(wǎng)絡(luò),包括雙模式網(wǎng)絡(luò)、時(shí)間事件網(wǎng)絡(luò)、縱向網(wǎng)絡(luò)等的分析功能,用戶也能夠生成一系列局部交叉的網(wǎng)絡(luò)進(jìn)行各種分析。軟件的結(jié)構(gòu)是建立在幾種數(shù)據(jù)結(jié)構(gòu)(網(wǎng)絡(luò)、分區(qū)、轉(zhuǎn)置、群、層級和向量)和這些結(jié)構(gòu)的轉(zhuǎn)換之上的。繪圖功能較強(qiáng),繪圖窗口給用戶很多選項(xiàng)來處理圖表。能夠支持二維、三維網(wǎng)絡(luò)和3D的可視化,能使用多種格式存儲(chǔ):EPS、SVG、KIN、BMP以及VRML。
4.2 UCINET[25]
UCINET是網(wǎng)絡(luò)分析集成軟件,其中包括一維與二維數(shù)據(jù)分析的Netdraw,還有正在發(fā)展應(yīng)用的三維展示分析軟件Mage等,同時(shí)集成了Pajek用于大型網(wǎng)絡(luò)分析的Free應(yīng)用軟件程序。UCINET6.0是菜單驅(qū)動(dòng)的Windows程序,通過速度按鈕能夠輸出到Pajek和Mage,能夠登錄到Netdraw,這3個(gè)程序和UCINET是搭配的。它有兩種輸出形式:文本型(保存成日志型在屏幕上顯示)和數(shù)據(jù)型(能夠作為其他程序的輸入)。UCINET是面向矩陣的,數(shù)據(jù)集合是一個(gè)或多個(gè)矩陣的集合。一個(gè)簡單的UCINET文件包含兩個(gè)文件:事實(shí)數(shù)據(jù)和關(guān)于數(shù)據(jù)的信息。UCINET數(shù)據(jù)可以直接導(dǎo)入也可以新建表單直接錄入。UCINET提供大量的數(shù)據(jù)管理和轉(zhuǎn)換工具,例如選擇子集、合并數(shù)據(jù)集、序化、轉(zhuǎn)化或記錄數(shù)據(jù)。UCINET不包含可視化的過程,但是它卻和軟件Mage、Netdraw和Pajek集成在一起,從而能夠?qū)崿F(xiàn)可視化。
4.3 Netdraw[26]
Netdraw是簡單的繪制網(wǎng)絡(luò)圖的工具,它可以讀取UCINET系統(tǒng)文件、UCINET文本文件、Pajek文本文件。繪制的圖片以WMF、BMP和JPG文件格式保存。它可以同時(shí)處理多種關(guān)系,并可以根據(jù)節(jié)點(diǎn)的特性設(shè)置顏色、形狀和節(jié)點(diǎn)的大小,是一個(gè)非常靈活的可視化軟件,并可做數(shù)據(jù)分析,如中心性分析、子圖分析、角色分析等,也具有很強(qiáng)的矩陣運(yùn)算能力。
4.4 Bibexcel
Bibexcel是由瑞典科學(xué)計(jì)量學(xué)家開發(fā)的用于科學(xué)研究的科學(xué)計(jì)量學(xué)免費(fèi)軟件。其功能包括:文獻(xiàn)計(jì)量學(xué)分析、引文、共引、藕合分析、聚類分析、知識(shí)圖譜繪制等等。
4.5 WordStat[27]
該軟件是Simstat的一個(gè)模塊,具有所有基本分析功能,還有一些注釋功能和各種信息的計(jì)量統(tǒng)計(jì)功能,如按各個(gè)字段來統(tǒng)計(jì)人名、作者、關(guān)鍵詞、主題詞等的出現(xiàn)頻率,這種統(tǒng)計(jì)功能可用于文獻(xiàn)計(jì)量學(xué)的分析。Winisis1.4版漢化版命名為C_Winisis,可供國內(nèi)圖書情報(bào)機(jī)構(gòu)免費(fèi)使用。
4.6 Wordsmith
是英國牛津大學(xué)開發(fā)的商業(yè)性詞頻分析軟件。其主要功能是Wordlist和Concord tool兩種。Wordlist可以將一個(gè)文本中的所有單詞按出現(xiàn)頻次進(jìn)行排序;應(yīng)用Concord tool可以找到與任意一個(gè)單詞搭配的詞組。該軟件在國外計(jì)量學(xué)領(lǐng)域中得到了大量的應(yīng)用。
4.7 Citespace[28]
是2003年由Drexel大學(xué)Chaomei Chen開發(fā)的,該系統(tǒng)的首要目標(biāo)就是利用可視化技術(shù)在知識(shí)域中幫助用戶進(jìn)行突發(fā)趨勢和技術(shù)預(yù)測的分析。對某一領(lǐng)域根據(jù)時(shí)間順序進(jìn)行“快照”,然后把這些“快照”連接起來,演繹出這一領(lǐng)域研究熱點(diǎn)的變化過程和發(fā)展趨勢。
4.8 HistCite[29]
2003年Garfield博士等開發(fā)了HistCite軟件包,它是一個(gè)很好的引文歷史可視化分析工具。該工具利用共引理論通過一系列相關(guān)數(shù)據(jù)產(chǎn)生時(shí)代和其他類型的表格及編年圖表,以此實(shí)現(xiàn)知識(shí)領(lǐng)域的分析功能。
4.9 VxInsight[30]
該工具是知識(shí)可視化工具,通過相似性組織大規(guī)模的數(shù)據(jù)元素,用3D虛擬風(fēng)景畫描繪數(shù)據(jù)元素的密度,國外已將其成功用于可視化核物理領(lǐng)域。
5 國內(nèi)外知識(shí)圖譜研究的發(fā)展歷程
5.1 共詞圖譜的發(fā)展
詞頻分析方法被國內(nèi)外的許多文獻(xiàn)和科學(xué)計(jì)量學(xué)研究者應(yīng)用于學(xué)科前沿的研究。例如,中國科學(xué)計(jì)量學(xué)家梁立明借助詞頻分析方法研究了56位情報(bào)學(xué)家對科學(xué)的關(guān)注視角及解讀方法[31];荷蘭科學(xué)計(jì)量學(xué)家用共引分析與詞頻分析相結(jié)合的方法,繪制出了生物化學(xué)領(lǐng)域研究前沿的知識(shí)圖譜等等。1973年,法國文獻(xiàn)計(jì)量學(xué)家最早提出共詞分析法這個(gè)概念,1986年,法國國家科學(xué)研究中心CNRS的Callon、Law和Rip出版了《Mapping the Dynamics of Science and Technology》[32]一書,該書的出版是共詞分析方法的重要里程碑。隨后法國的Law等率先運(yùn)用共詞分析法分析環(huán)境酸化研究中的政策和科學(xué)變化地圖[33],并撰文驗(yàn)證共詞分析方法[34],Qin也撰文專門探討如何用共詞分析法發(fā)現(xiàn)學(xué)科知識(shí)結(jié)構(gòu)[35],Courtial等人對專利文獻(xiàn)的題目詞做了共詞聚類分析,得到食品類專利的研究熱點(diǎn)問題,同時(shí)用戰(zhàn)略坐標(biāo)將這些研究熱點(diǎn)顯示出來[36]。國內(nèi)的張晗[37]等對生物信息學(xué)文獻(xiàn)做了高頻主題詞的共詞聚類分析,很好地顯示了該主題的研究熱點(diǎn),同時(shí)做了戰(zhàn)略坐標(biāo)圖,定量地分析了各熱點(diǎn)的發(fā)展階段。中國醫(yī)科大學(xué)的崔雷等人從1996年開始,通過采用共主題詞和共關(guān)鍵詞聚類分析的方法發(fā)表了多篇以醫(yī)學(xué)和生物類為主題的文獻(xiàn)計(jì)量學(xué)文章,探究該領(lǐng)域的研究熱點(diǎn)及學(xué)科結(jié)構(gòu)變化[38][39][40][41][42]。
5.2 共引圖譜的發(fā)展
1981年White和Griffith合作發(fā)表的《作者共引:科學(xué)結(jié)構(gòu)的文獻(xiàn)測量方法》一文開創(chuàng)了同引研究的先河,該文通過對1972-1979年39位情報(bào)學(xué)家的共引情況,描繪了他們在學(xué)科中的位置和情報(bào)學(xué)的學(xué)科結(jié)構(gòu)[43]。此后20多年間的研究主要有:1989年White和McCain通過共引分析,將情報(bào)學(xué)分為兩個(gè)主要領(lǐng)域——計(jì)量學(xué)(包括引文分析)和情報(bào)檢索[44];Small等人開發(fā)了基于共引理論的單機(jī)系統(tǒng)SCI-Map來描繪科學(xué)文獻(xiàn)間的結(jié)構(gòu)[45];1997年美國肯塔基大學(xué)的Linxia首先嘗試將自組織映射技術(shù)用于共引矩陣,并在2000年生成了一個(gè)將情報(bào)學(xué)家聚到幾個(gè)主題域的圖譜[46];1998年,White和McCain再次采用ACA技術(shù),通過對1972-1995年24年間的一些代表性的文獻(xiàn)特征(作者共引數(shù)目)歸納總結(jié)情報(bào)學(xué)領(lǐng)域的結(jié)構(gòu)特征和24年來的發(fā)展情況,并做出情報(bào)學(xué)科的知識(shí)圖譜[47]。1999年Chaomei Chen把尋徑網(wǎng)絡(luò)(Pathfinder Network,簡稱PFNET)技術(shù)引入作者同被引分析,并生成了有關(guān)超文本研究的同被引圖譜[48]。后來他還用該方式生成的新的知識(shí)圖譜,是一種三維空間彩色圖,用不同的色彩、動(dòng)畫展示其中的突出點(diǎn)[49]。2003年他還用同被引分析對物理學(xué)的前沿及發(fā)展趨勢進(jìn)行了深入研究,繪制出一系列的知識(shí)圖譜[50]。2005年Loet Leydesdorff等人運(yùn)用新型知識(shí)圖譜分析軟件Pajek和傳統(tǒng)的多元統(tǒng)計(jì)分析方法相結(jié)合,將同被引研究延伸到網(wǎng)絡(luò)領(lǐng)域,為同被引分析開辟了一片新天地[51],近些年他還致力于研究期刊間的引用關(guān)系,通過對期刊間引用頻次的可視化分析,圖示它們的網(wǎng)絡(luò)關(guān)系,他利用從SCI和SSCI套錄的數(shù)據(jù),通過計(jì)算2000年7349種期刊的引用和被引用頻次,利用VxInsight作為知識(shí)圖譜軟件,構(gòu)造了期刊引用和同被引關(guān)系的知識(shí)圖譜[52]。西班牙的FelixMoya Anegon搜集西班牙在2000年被SCI和SSCI以及A&HCI收錄的文獻(xiàn),根據(jù)發(fā)表這些文獻(xiàn)的期刊在ISI-JCR中所屬的類別,對應(yīng)到西班牙分類法的25個(gè)大類中去,從而得到西班牙大科學(xué)結(jié)構(gòu)分析的知識(shí)圖譜[53]。國內(nèi)同被引分析研究的也不少,武漢大學(xué)、大連理工、中科院圖書館等都有不少成果。具有代表性的有:中國醫(yī)科大學(xué)的崔雷利用SCI數(shù)據(jù),對丙型肝炎這一專題文獻(xiàn)4年間的高被引論文進(jìn)行連續(xù)的同被引聚類分析,反映了該專題研究的結(jié)構(gòu)及這些結(jié)構(gòu)的發(fā)展過程[54]。
5.3 知識(shí)圖譜研究的最新進(jìn)展
5.3.1 與信息檢索可視化結(jié)合
HistCite、Citespace II、VxInsight都是面向知識(shí)域分析開發(fā)的,可視化分析能力強(qiáng),形式豐富,但卻沒有將可視化技術(shù)運(yùn)用到信息檢索領(lǐng)域。美國Drexel大學(xué)的White帶領(lǐng)研究小組開展了實(shí)時(shí)環(huán)境下ACA繪圖及主題檢索研究,利用Dialog和SCI的數(shù)據(jù),開發(fā)出了AuthorLink檢索系統(tǒng),成為用實(shí)時(shí)共引映射圖譜實(shí)現(xiàn)檢索重要數(shù)據(jù)庫的開創(chuàng)者。利用AuthorLink檢索時(shí),用戶從該系統(tǒng)得到的不僅是一個(gè)作者的信息,而是與該作者高頻共引的24位作者,以及基于共引強(qiáng)度以圖的形式展示的作者間的相互關(guān)系。后來他們又相繼開發(fā)了基于共引分析理論的PNASLink和基于共詞的ConceptLink系統(tǒng),都是運(yùn)用PFNET、SOM等多種可視化映射算法實(shí)現(xiàn)的。ConceptLink主要特征是利用基于不同算法的可視化圖形揭示概念之間的關(guān)系,系統(tǒng)目前與PubMed搜索引擎連接提供文獻(xiàn)檢索,根據(jù)與查詢匹配的前200篇文獻(xiàn)的同現(xiàn)頻率列出所有這些文獻(xiàn)的MeSH詞。用戶可以選擇任何一個(gè)MeSH詞來構(gòu)建概念圖,通過區(qū)域、鏈接和距離近似等概念圖來可視化醫(yī)學(xué)概念之間的復(fù)雜關(guān)系。PNASLink除了包括兩個(gè)系統(tǒng)的所有特征外,還能映射作者、關(guān)鍵詞及期刊間的關(guān)系,同時(shí)還提供許多檢索功能,可以通過專門設(shè)計(jì)的列表如“熱點(diǎn)主題”,“NAS成員”或“引用最多的作者”進(jìn)行瀏覽[55]。
5.3.2 知識(shí)圖譜研究向網(wǎng)絡(luò)結(jié)構(gòu)的延伸和移植
網(wǎng)絡(luò)站點(diǎn)的鏈接關(guān)系類似于文獻(xiàn)的引用關(guān)系,因而文獻(xiàn)的共引分析可以移植到網(wǎng)絡(luò)站點(diǎn)。用共鏈分析反映網(wǎng)絡(luò)本身的結(jié)構(gòu),并揭示發(fā)掘網(wǎng)絡(luò)中蘊(yùn)涵的知識(shí)結(jié)構(gòu)[56]。
5.3.3 知識(shí)圖譜應(yīng)用于識(shí)別學(xué)科研究前沿
研究前沿的可視化能提供重要的學(xué)科發(fā)展趨勢,使研究人員能更好地融入主流研究領(lǐng)域。研究前沿可視化的應(yīng)用范例是ISI的科學(xué)前沿分析。ISI利用共引分析進(jìn)行科學(xué)前沿可視化分析,定期以熱點(diǎn)問題、研究前沿等形式對分析結(jié)果進(jìn)行跟蹤報(bào)道。分析過程是通過識(shí)別5年內(nèi)多學(xué)科中引用率最高的文獻(xiàn),用共引強(qiáng)度來確定研究前沿需要處理的共引文獻(xiàn)集,將關(guān)系緊密的文獻(xiàn)聚類。然后從符合臨界值的一個(gè)共引對開始,進(jìn)行單連結(jié)聚類,以此構(gòu)建研究前沿的知識(shí)圖譜,進(jìn)行學(xué)科跟蹤、趨勢預(yù)測。例如,在2006年《自然》最后一期中刊登了一幅由80萬篇ISI公司提供的科學(xué)文獻(xiàn)分析產(chǎn)生的科學(xué)地圖。將這樣大規(guī)模的文獻(xiàn)通過聚類分析,產(chǎn)生700多個(gè)聚類,以此為節(jié)點(diǎn),文獻(xiàn)之間引用關(guān)系作為邊,同時(shí)將聚類文獻(xiàn)關(guān)鍵詞作為描述,繪出了各學(xué)科及子學(xué)科的關(guān)聯(lián)分布圖和國家和地區(qū)維度的科學(xué)地圖,通過對比分析就可清晰得到各國家和地區(qū)的科學(xué)研究戰(zhàn)略重點(diǎn)及優(yōu)勢領(lǐng)域[57]。
5.3. 4 知識(shí)圖譜應(yīng)用于技術(shù)跟蹤的可視化
通過可視化技術(shù),將共引關(guān)系、共現(xiàn)關(guān)系、網(wǎng)絡(luò)關(guān)系等各種關(guān)聯(lián)規(guī)則轉(zhuǎn)化成可視化形式,獲得該技術(shù)領(lǐng)域的發(fā)展圖譜,以識(shí)別重要技術(shù),挖掘重點(diǎn)研究領(lǐng)域,觀測技術(shù)轉(zhuǎn)移,對比國家間、機(jī)構(gòu)問的研發(fā)實(shí)力和創(chuàng)新能力、技術(shù)優(yōu)勢和劣勢[58]。
5.3.5 知識(shí)圖譜應(yīng)用于技術(shù)創(chuàng)新的可視化
由于專利數(shù)據(jù)具有易得、完整、準(zhǔn)確、時(shí)間序列長的特點(diǎn),故常用專利數(shù)據(jù)測度一定時(shí)期內(nèi)的技術(shù)創(chuàng)新狀況,通過專利共引、共現(xiàn)分析,將與專利相關(guān)的大量數(shù)據(jù)轉(zhuǎn)化成成某一領(lǐng)域的技術(shù)創(chuàng)新可視化圖譜,較好的識(shí)別和把握當(dāng)今技術(shù)前沿潛在的技術(shù)創(chuàng)新機(jī)會(huì)[59]。
6 國內(nèi)外知識(shí)圖譜研究的不足
大量的文獻(xiàn)調(diào)研表明:國外的知識(shí)圖譜研究存在的突出問題是:雖然很多先進(jìn)的算法和優(yōu)秀的軟件都不斷涌現(xiàn),但在學(xué)界和社會(huì)上都沒有廣泛推廣應(yīng)用,也沒有建立起評判這些工具和軟件功能優(yōu)劣的有效方法和標(biāo)準(zhǔn),影響了進(jìn)一步的集成、大規(guī)模的研究。而國內(nèi)知識(shí)圖譜的研究與國外相比有極大的差距,主要問題有以下幾個(gè)方面;
6.1 研究手段和方法的嚴(yán)重滯后
國內(nèi)近幾年有關(guān)知識(shí)圖譜的研究也有一些,如大連理工大學(xué)的劉則淵教授帶領(lǐng)的團(tuán)隊(duì)進(jìn)行了科學(xué)計(jì)量學(xué)、管理學(xué)人機(jī)工程學(xué)學(xué)科以及國內(nèi)所有工程領(lǐng)域研究前沿的知識(shí)圖譜構(gòu)建[60][61][62][63][64];武漢大學(xué)的馬費(fèi)成、劉青林、社科院的蔣穎等也對國內(nèi)外知識(shí)管理、數(shù)字資源管理、戰(zhàn)略管理、文獻(xiàn)計(jì)量學(xué)等領(lǐng)域進(jìn)行了共詞圖譜的繪制[65][66][67][68][69];南京大學(xué)的鄧三鴻、浙江大學(xué)的潘有能等初步建立了圖書情報(bào)學(xué)科的學(xué)科知識(shí)地圖[70][71];金瑩以CSSCI的數(shù)據(jù)粗略構(gòu)建了我國社會(huì)科學(xué)的學(xué)科知識(shí)地圖[72];中科院、中信所的研究人員也進(jìn)行了研究。但幾乎所有的研究都是采用最傳統(tǒng)的多元統(tǒng)計(jì)分析方法(因子分析、多維尺度分析和聚類分析),最先進(jìn)的就是使用了Pajek軟件。截止2008年5月,國內(nèi)文獻(xiàn)分別僅有一篇使用了PFNET算法[73],另一篇運(yùn)用了最新的商用軟件Thomson Data Analyzer對人類基因組領(lǐng)域進(jìn)行共詞圖譜繪制的實(shí)例[74]。
6.2 研究層次低
對一些比較先進(jìn)的技術(shù)(算法、軟件)更多的都是理論上的探討和介紹,國內(nèi)對HistCite、CitespaceⅡ、PFNET、SOM、潛在語義分析和最小生成樹算法都有零星的介紹,但很少進(jìn)行實(shí)際的試驗(yàn)研究。這可能與相關(guān)軟件獲取比較困難、有些是商用軟件,研究經(jīng)費(fèi)缺乏等有關(guān)。
6.3 研究對象范圍過窄
目前國內(nèi)知識(shí)圖譜構(gòu)建研究的領(lǐng)域都是范圍很窄的某一學(xué)科方向的國際化研究,數(shù)據(jù)來源一般都選自SCI、SSCI等大型英文引文數(shù)據(jù)庫,很少一部分選自中國的引文數(shù)據(jù),而文獻(xiàn)報(bào)道國內(nèi)開發(fā)成功的兩個(gè)共現(xiàn)系統(tǒng)[75][76]卻沒有任何實(shí)證研究的報(bào)道,這些都阻礙了知識(shí)圖譜這一先進(jìn)方法在國內(nèi)的發(fā)展。這一現(xiàn)象產(chǎn)生的原因是中國目前已有的引文數(shù)據(jù)庫系統(tǒng)提供的檢索入口和數(shù)據(jù)套錄功能很有限,用戶很難獲取大量的原始數(shù)據(jù),從而影響了研究的積極性。
7 幾點(diǎn)建議和對策
7.1 組織力量,聯(lián)合攻關(guān),促進(jìn)知識(shí)圖譜在國內(nèi)的進(jìn)一步研究
知識(shí)圖譜的研究需要人力、物力和財(cái)力的支撐。圖書情報(bào)界應(yīng)該利用選聘學(xué)科館員、專業(yè)館員的契機(jī),在研究院所、大學(xué)圖書館中開展此項(xiàng)研究,同時(shí)和重點(diǎn)學(xué)科知識(shí)服務(wù)、學(xué)科導(dǎo)航、學(xué)科專業(yè)咨詢等工作結(jié)合開展。同時(shí)要取得相關(guān)專業(yè)人員的支持和配合,最好能協(xié)同攻關(guān),因?yàn)橹R(shí)圖譜的構(gòu)建專業(yè)性很強(qiáng),不僅僅需要圖書情報(bào)人員就可以把此項(xiàng)研究作好,中科院圖書館的經(jīng)驗(yàn)就很值得借鑒。如果形成了良性循環(huán),這項(xiàng)工作可以大大提高圖書情報(bào)界知識(shí)服務(wù)的質(zhì)量和效益。
7.2 應(yīng)加強(qiáng)與國內(nèi)大型數(shù)據(jù)庫商的合作
應(yīng)加強(qiáng)宣傳,在數(shù)據(jù)庫商中宣傳國外數(shù)據(jù)庫商的最新技術(shù)成果,使國內(nèi)數(shù)據(jù)庫商提高技術(shù)和服務(wù)水平,促進(jìn)數(shù)據(jù)資源共享,方便用戶獲取原始數(shù)據(jù),改進(jìn)引文數(shù)據(jù)庫的數(shù)據(jù)套錄等功能,力爭取得用戶和數(shù)據(jù)庫商的雙贏。
|
聯(lián)系客服