信息爆炸的時(shí)代,大數(shù)據(jù)思維能夠幫助我們順利解決全局?jǐn)?shù)據(jù)的分析,從而得出準(zhǔn)確的經(jīng)驗(yàn)和規(guī)律。科學(xué)研究同樣如此,只有對(duì)已有文獻(xiàn)的研究進(jìn)行科學(xué)全局的歸納總結(jié),才能得出有價(jià)值的選題,明確研究方向!
在科研工作中,我們常常需要對(duì)海量文獻(xiàn)進(jìn)行挖掘分析,找出關(guān)鍵文獻(xiàn)進(jìn)行細(xì)讀與研究,并鎖定研究熱點(diǎn),探尋學(xué)科前沿。今天給大家介紹一下文獻(xiàn)綜述界的”大案牘術(shù)“——CiteSpace工具!作為一款功能強(qiáng)大的文獻(xiàn)計(jì)量學(xué)軟件,能夠幫助我們對(duì)文獻(xiàn)進(jìn)行可視化分析。
你也許在很多大佬的PPT 、文獻(xiàn)綜述里看到過(guò)如此酷炫的分析圖,可以清晰地幫助我們找到相關(guān)領(lǐng)域內(nèi)已有研究地關(guān)鍵詞、發(fā)表國(guó)家、時(shí)間演變等特征。不僅有助于我們選題,而且也能夠提升讀者的閱讀體驗(yàn),瞬間提升文獻(xiàn)綜述的科學(xué)性!
趕快關(guān)注下方公眾號(hào)
回復(fù)【citespace】(字母小寫(xiě))
按提示完成操作
即可免費(fèi)領(lǐng)取【Citespace資料包】!
今天,小科就和大家分享一下如何使用CiteSpace吧!
NO.1 基
CiteSpace(引文空間)是一款著眼于分析科學(xué)分析中蘊(yùn)含的潛在知識(shí),是在科學(xué)計(jì)量學(xué)、數(shù)據(jù)可視化背景下逐漸發(fā)展起來(lái)的一款引文可視化分析軟件。由于是通過(guò)可視化的手段來(lái)呈現(xiàn)科學(xué)知識(shí)的結(jié)構(gòu)、規(guī)律和分布情況,因此也將通過(guò)此類方法分析得到的可視化圖形稱為“科學(xué)知識(shí)圖譜”。
NO.2 開(kāi)發(fā)者
CiteSpace是由美國(guó)雷德塞爾大學(xué)信息科學(xué)與技術(shù)學(xué)院的陳超美博士,以及大連理工大學(xué)的WISE實(shí)驗(yàn)室共同研發(fā)的。
NO.3 數(shù)據(jù)來(lái)源
CiteSpace的文獻(xiàn)數(shù)據(jù)來(lái)源主要有以下幾種。但我們需要注意的是,不同來(lái)源的數(shù)據(jù)所使用的格式是有特定要求的。
1.Web of Science
格式要求:全記錄與引用的參考文獻(xiàn)純文本。
2.CSSCI
格式要求:默認(rèn)格式utf-8編碼。
3.CNKI
格式要求:Refworks
4.NSF(NationalScience Foundation)
格式要求:
nsf.gov:XML格式&research.gov:xlsx格式
5.Derwent(德溫特專利數(shù)據(jù)庫(kù))
格式要求:默認(rèn)格式。
6.Scopus
格式要求:RIS(.ris)/CSV
NO.4 研究前沿
CiteSpace的研究前沿所針對(duì)的是施引文獻(xiàn)聚類,主要包括施引文獻(xiàn)群組本身的內(nèi)容,以及施引文獻(xiàn)群組引用的參考文獻(xiàn)。
NO.5 知識(shí)基礎(chǔ)
CiteSpace的知識(shí)基礎(chǔ)是某個(gè)學(xué)科領(lǐng)域中相對(duì)于研究前沿文獻(xiàn)集的所有前期文獻(xiàn)集合,也可以簡(jiǎn)單地理解為文獻(xiàn)共被引聚類。
NO.6 理論基礎(chǔ)
引文分析(CitationAnalysis)。這是一種利用數(shù)學(xué)及統(tǒng)計(jì)學(xué)的方法和比較、歸納、抽象、概括等邏輯方法,對(duì)科學(xué)期刊、論文、著者等各種分析對(duì)象的引證與被引證現(xiàn)象進(jìn)行分析,進(jìn)而揭示其中的數(shù)量特征和內(nèi)在規(guī)律的一種文獻(xiàn)計(jì)量分析方法。
NO.7 技術(shù)基礎(chǔ)
信息可視化(Informationvisualization)。這是一個(gè)跨學(xué)科領(lǐng)域,旨在研究大規(guī)模非數(shù)值型信息資源的視覺(jué)呈現(xiàn)(如軟件系統(tǒng)之中眾多的文件或者一行行的程序代碼)。
NO.1 菜單欄
1.Text(文本)
2.File(文件)
3.Project(項(xiàng)目)
4.Data(數(shù)據(jù))
5.Visualization(可視化)
6.Geographical(地理化)
7.Network(網(wǎng)絡(luò))
8.Analytical(文獻(xiàn)網(wǎng)絡(luò)分析)
9.Overlay Maps(疊加分析)
10.Preference(偏好設(shè)置)
11.Help(幫助)
NO.2 項(xiàng)目(工程)區(qū)
1.項(xiàng)目新建及編輯
點(diǎn)擊“New”選項(xiàng)及“MoreActions”選項(xiàng)操作。
2.修改所建項(xiàng)目參數(shù)
可供修改的參數(shù)主要包括Title、ProjectHome、DataDirectory、DataSource。
一般情況下,其他參數(shù)選擇默認(rèn)即可,不需另作改動(dòng)。
NO.3 功能選擇區(qū)
1.Time slicing
該功能即用來(lái)切分文獻(xiàn)數(shù)據(jù)的時(shí)間年代。我們需要注意,時(shí)區(qū)分割設(shè)置應(yīng)該與文獻(xiàn)數(shù)據(jù)的時(shí)間范圍相符。
2.Text Processing
首先是Termsource,我們需要選擇聚類詞來(lái)源,通常使用系統(tǒng)默認(rèn)的“全選”選項(xiàng)。
其次是TermType,我們一般選擇術(shù)語(yǔ)形式為“NounPhrases(名詞短語(yǔ))”。
3.Node Type
在此模塊內(nèi),我們需要選擇節(jié)點(diǎn)的類型。而不同類型的節(jié)點(diǎn)則對(duì)應(yīng)著不同類型的圖譜。
首先,針對(duì)施引文獻(xiàn)的節(jié)點(diǎn)類型主要有以下幾種:
→Author~作者共現(xiàn)圖譜
→Institution~機(jī)構(gòu)共現(xiàn)圖譜
→Country~國(guó)家共現(xiàn)圖譜
→Keyword~關(guān)鍵詞共現(xiàn)圖譜
→Term~術(shù)語(yǔ)共現(xiàn)圖譜
→Category~學(xué)科共現(xiàn)圖譜
→Paper~文獻(xiàn)耦合圖譜
針對(duì)被引文獻(xiàn)的節(jié)點(diǎn)類型有以下幾種:
→CitedAuthor~作者共被引圖譜
→CitedJournal~期刊共被引圖譜
→CitedReference~文獻(xiàn)共被引圖譜
4.Links
在CiteSpace的該模塊中,我們可以計(jì)算節(jié)點(diǎn)之間連線的連接強(qiáng)度。
首先,在Strength選項(xiàng)中,我們可以分析對(duì)象數(shù)據(jù)之間的連接強(qiáng)度,具體包括Cosine、PMI、Dice、Jaccard等算法模式。
其次,在Scope選項(xiàng)中,我們可以分析連線連接的范圍廣度。
5.Select Criteria
在此模塊中,我們可以設(shè)定閾值選擇準(zhǔn)則,或節(jié)點(diǎn)提取的依據(jù)。
CiteSpace會(huì)按照用戶設(shè)定的閾值提取出滿足各個(gè)時(shí)間切片的文獻(xiàn)數(shù)據(jù),最后將其合并到網(wǎng)絡(luò)中。
6.Pruning
我們可以在這一區(qū)域選擇網(wǎng)絡(luò)的剪枝方式,對(duì)初步形成的網(wǎng)絡(luò)進(jìn)行修剪和優(yōu)化,去除不重要的節(jié)點(diǎn)和連線,將關(guān)鍵性節(jié)點(diǎn)和連線更顯著地呈現(xiàn)出來(lái),從而使圖譜更加清晰,可讀性更強(qiáng)。
7.Visualization
即設(shè)置網(wǎng)絡(luò)圖譜的可視化模式。
8.運(yùn)行進(jìn)度區(qū)
通過(guò)這一模塊,我們可以看到軟件計(jì)算和運(yùn)行的機(jī)制與過(guò)程,主要包括處理過(guò)程和處理報(bào)告(SpaceStatus&Process Reports)兩個(gè)區(qū)域。
NO.1 數(shù)據(jù)采集(獲?。?/strong>
1.我們需要從數(shù)據(jù)源獲取ADs、arXiv格式的數(shù)據(jù),根據(jù)對(duì)圖譜類型的具體要求獲取不同文件數(shù)據(jù)。獲取方式主要包括以下幾種:
→詞檢索(主題詞檢索、關(guān)鍵詞檢索)
→期刊檢索
→學(xué)科檢索
→作者檢索
→機(jī)構(gòu)檢索
2.在選定并保存文獻(xiàn)數(shù)據(jù)后,我們可以點(diǎn)擊“Data-Import/Export”,選擇文獻(xiàn)數(shù)據(jù)來(lái)源進(jìn)行添加。
NO.2 數(shù)據(jù)轉(zhuǎn)換
1.首先需要在存有文獻(xiàn)數(shù)據(jù)的文件(sentimentanalysis)中創(chuàng)建“Data”、“Input"和“Output”三個(gè)文件夾,并將獲取的文獻(xiàn)數(shù)據(jù)放置于“Input”文件夾。
2.點(diǎn)擊CiteSpace界面的“FormatConversion”選項(xiàng),將數(shù)據(jù)轉(zhuǎn)換至“Output”文件夾。
NO.3 數(shù)據(jù)處理
CiteSpace具備文件合并、文獻(xiàn)去重、分隔符格式轉(zhuǎn)換等數(shù)據(jù)處理功能。在轉(zhuǎn)換過(guò)文獻(xiàn)數(shù)據(jù)后,我們需要對(duì)其進(jìn)行下一階段的處理,具體可以劃分為以下幾個(gè)步驟:
1.將文獻(xiàn)數(shù)據(jù)的文件名改為系統(tǒng)所要求的“download.txt”格式。
2.將“Output”中的文獻(xiàn)數(shù)據(jù)粘貼至“Data”文件夾中。
3. 在CiteSpace中點(diǎn)擊“New”選項(xiàng)創(chuàng)建新項(xiàng)目,并點(diǎn)擊“MoreActions”設(shè)定項(xiàng)目參數(shù)。
4.參數(shù)設(shè)置完成后點(diǎn)擊“GO!”選項(xiàng)進(jìn)行創(chuàng)建。
NO.4 軟件啟動(dòng)
1.閾值的選擇(Threshold)
關(guān)于閾值的設(shè)置,我們可以主要采取三種較為通用的模式:
→第一種為“c,cc,ccv(默認(rèn)0.2)”
→第二種為“TopN(前N個(gè))”
→第三種為“TopN%(前N%個(gè))”
2.時(shí)區(qū)的選擇
3.疊加分析
4.文本挖掘
5.剪枝方式的選擇
首先,我們可以根據(jù)文獻(xiàn)數(shù)據(jù)量和圖譜效果來(lái)選擇不同的剪枝算法,具體包括以下兩種:
→Pathfinder(尋徑)
這一算法可以生成唯一解,呈現(xiàn)節(jié)點(diǎn)之間的顯著性關(guān)系,但有時(shí)會(huì)丟失相對(duì)重要的節(jié)點(diǎn),在處理量大的文獻(xiàn)數(shù)據(jù)時(shí)更為便捷。
→MST(MinimumSpanning Tree)(最小樹(shù))
這一算法運(yùn)算簡(jiǎn)捷,但并非生成唯一解,更適于處理量小的文獻(xiàn)數(shù)據(jù)(萬(wàn)以內(nèi))。
其次,我們可以根據(jù)時(shí)段來(lái)選擇不同剪枝策略:
→Pruningslice network
這是針對(duì)每一時(shí)間段的網(wǎng)絡(luò)進(jìn)行剪枝的,可以反復(fù)選擇,分析更為細(xì)致,網(wǎng)絡(luò)圖譜更為清晰準(zhǔn)確。
→Pruningthe merged networks
這是針對(duì)針對(duì)整體網(wǎng)絡(luò)圖譜進(jìn)行剪枝的,操作較為便捷高效,但細(xì)節(jié)處理的效果不如Pruningslice network。
NO.5 功能選擇
1.合作(主要包括作者、機(jī)構(gòu)、國(guó)家)
2.共現(xiàn)(主要包括特征詞、關(guān)鍵詞、來(lái)源、領(lǐng)域)
3.共引(主要包括文獻(xiàn)、作者、期刊)
4.耦合(主要包括文獻(xiàn)、基金)
NO.6 可視化圖譜生成
1.圖譜類型
→聚類圖譜
聚類圖譜側(cè)重于不同研究領(lǐng)域形成的知識(shí)聚類、聚類之間的聯(lián)系及其隨時(shí)間的演變特征。包括“默認(rèn)圖譜”與“自動(dòng)聚類標(biāo)簽圖譜”兩種。
→時(shí)間線圖譜
時(shí)間線圖譜側(cè)重于勾畫(huà)聚類之間的關(guān)系和某個(gè)聚類中文獻(xiàn)的歷史跨度。
→時(shí)區(qū)圖譜
時(shí)區(qū)圖譜側(cè)重于各研究主題隨時(shí)間的演變、更新趨勢(shì)和相互影響。
2.圖譜效果
關(guān)于圖譜效果,我們需要關(guān)注圖譜的輪廓值、密度、剪影值以及模塊化值。
NO.7 聚類標(biāo)簽提取
1.聚類標(biāo)簽來(lái)源
主要來(lái)源包括特定聚類的標(biāo)題、特定聚類的關(guān)鍵詞以及特定聚類的摘要。
2.聚類標(biāo)簽形式
一般情況下我們選擇“NounPhrases(名詞短語(yǔ))”形式。
3.算法
主要包括“TF*IDF加權(quán)算法”、“對(duì)數(shù)似然率算法”以及“交互信息算法”。
NO.8 圖譜調(diào)整
我們可以通過(guò)“Display”選項(xiàng)調(diào)整圖譜的呈現(xiàn)模式。
1.背景顏色的調(diào)整
→BlackBackground
→WhiteBackground
→ColormapPalate
2.節(jié)點(diǎn)的調(diào)整
→NodeRendering Type
→NodeShape
→NodeSize
→NodeFill Color
→NodeOutline color
3.標(biāo)簽的調(diào)整
→LabelAligment
→LabelColor
→LabelFont Size
→LabelPosition
4.連線的調(diào)整
→LineShape
→DashedLines
→SolidLines
5.聚類的調(diào)整
→ClusterLabel(聚類標(biāo)簽)
→ClusterID(聚類ID)
→ConvexHull(聚類區(qū))
→Circle(聚類圈)
NO.9 圖譜解讀
1.針對(duì)不同類型的圖譜,我們解讀的方式也有所不同:
→聚類圖譜
節(jié)點(diǎn)及連線的顏色及厚薄程度表示文獻(xiàn)數(shù)據(jù)在不同時(shí)間段內(nèi)出現(xiàn)(或被引用)的頻次:
連線表示文獻(xiàn)數(shù)據(jù)之間的共現(xiàn)(共引)關(guān)系。
連線的粗細(xì)表示各數(shù)據(jù)節(jié)點(diǎn)之間的共現(xiàn)(共引)強(qiáng)度。
節(jié)點(diǎn)顏色表示文獻(xiàn)數(shù)據(jù)第一次共現(xiàn)(共引)的時(shí)間。
節(jié)點(diǎn)或連線的顏色一般由冷色調(diào)(早期)趨向暖色調(diào)(近期)。
→時(shí)間線圖譜
哪些年份該聚類開(kāi)始出現(xiàn)。
哪些年份該聚類的熱度升高,相關(guān)學(xué)術(shù)成果開(kāi)始增多。
哪些年代該聚類的熱度和關(guān)注度開(kāi)始降低。
→時(shí)區(qū)圖譜
通過(guò)各時(shí)間段節(jié)點(diǎn)的連線關(guān)系,我們可以看出不同時(shí)間段之間文獻(xiàn)數(shù)據(jù)的傳承關(guān)系。
2.特殊點(diǎn)
我們需要關(guān)注一些特殊節(jié)點(diǎn)的顯著特征。
首先需要關(guān)注節(jié)點(diǎn)的“中介中心性(centrality)”,即一個(gè)節(jié)點(diǎn)擔(dān)任其他兩個(gè)節(jié)點(diǎn)之間最短路橋梁的次數(shù),這是測(cè)度節(jié)點(diǎn)在網(wǎng)絡(luò)中重要性的指標(biāo)之一。出現(xiàn)紫圈的節(jié)點(diǎn)的中介中心性>=0.1,這些節(jié)點(diǎn)是我們關(guān)注的重點(diǎn)。
其次,我們也需要關(guān)注一些具有高頻性的節(jié)點(diǎn)。具有“高頻性”的節(jié)點(diǎn)實(shí)際上代表著高被引文獻(xiàn),是某個(gè)領(lǐng)域或多個(gè)領(lǐng)域的重要知識(shí)基礎(chǔ),需要我們將其作為整個(gè)網(wǎng)絡(luò)圖譜分析的重要參照。具有強(qiáng)中介中心性和高頻性的節(jié)點(diǎn)實(shí)際上就可以視為該時(shí)期研究的熱點(diǎn)主題。
再者,突現(xiàn)性(burstdetection),即某一時(shí)段內(nèi)引用量有較大變化的情況。我們需要關(guān)注這些變化幅度大的時(shí)段,思考其中重要節(jié)點(diǎn)的影響及作用。
最后,我們還需要關(guān)注圖譜Sigma值以及特殊點(diǎn)間連線的具體特征。
NO.10 結(jié)果分析與撰寫(xiě)
在解讀過(guò)圖譜后,我們需要通過(guò)專家調(diào)查法等方法來(lái)反復(fù)檢驗(yàn)CiteSpace得到的結(jié)果是否與實(shí)際情況一致,以保證學(xué)術(shù)的嚴(yán)謹(jǐn)性、科學(xué)性和客觀性。
NO.1 文件格式要規(guī)范
如軟件系統(tǒng)中所提示,“inputfilenames must start with'download'”,輸入文獻(xiàn)數(shù)據(jù)時(shí)必須將文件名改成特定格式,并注意區(qū)分字母的大小寫(xiě)。
NO.2 具備進(jìn)一步操作的空間
CiteSpace可以將可視化圖譜中的節(jié)點(diǎn)和連線儲(chǔ)存為“.net”格式的文件,從而可以進(jìn)一步利用Pajek或UNCINET進(jìn)行知識(shí)網(wǎng)絡(luò)的繪制。
NO.3 注意圖譜的清晰度和美觀度
根據(jù)數(shù)據(jù)分析與運(yùn)算得到相應(yīng)的網(wǎng)絡(luò)圖譜后,我們不要直接截圖,這樣的圖片清晰度低,不適合放在學(xué)術(shù)論文中,且不美觀。我們要將圖片下載、保存在電腦上,并可借助Gephi等其他軟件將其進(jìn)一步美化,并與論文文本結(jié)合起來(lái)。
參考文獻(xiàn):
[1]邱均平,王曰芬.文獻(xiàn)計(jì)量?jī)?nèi)容分析法[M].國(guó)家圖書(shū)館出版社,2008.
[2]李杰,陳超美.CiteSpace: 科技文本挖掘及可視化[M].首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2016.
[3]陳悅,陳超美.引文空間分析原理與應(yīng)用[M].科學(xué)出版社,2020.
聯(lián)系客服