怎樣的論文更容易被引用,每個(gè)導(dǎo)師都有自己的看法,但有可能通過量化的方式描述它們的特征嗎?一位研究員用機(jī)器學(xué)習(xí)技術(shù)分析了 400 篇高被引論文,發(fā)現(xiàn)了一些有趣的規(guī)律。
圖片來源:Pixabay
來源 University Affairs
撰文 Mohamed Elgendi,英屬哥倫比亞大學(xué)博士后研究員
翻譯 劉奇
審校 戚譯引
如何有效地提高我的學(xué)術(shù)論著影響力,這是我在多年的學(xué)術(shù)生涯中一直認(rèn)真考慮的問題。獲得博士學(xué)位后,我開始更詳細(xì)地研究這個(gè)問題。文獻(xiàn)讀得越多,我就越意識(shí)到這些建議有些不完整,有時(shí)甚至相互矛盾。鑒于我在機(jī)器學(xué)習(xí)(ML)領(lǐng)域有一定經(jīng)驗(yàn),我決定下載一個(gè)數(shù)據(jù)集,看看能不能應(yīng)用 ML 技術(shù)從中挖掘一些信息,并回答一些相關(guān)問題。
Q:一篇研究文章的標(biāo)題應(yīng)該多長?
A:10 ± 3 個(gè)詞。
在我們看來,標(biāo)題能夠強(qiáng)調(diào)論文的整體目的和研究意義,它發(fā)揮著至關(guān)重要的作用。先前關(guān)于這個(gè)問題的研究論文一致同意標(biāo)題長度的重要性,以及標(biāo)題對(duì)讀者或引用率的影響。然而,過去的研究并沒有明確指出標(biāo)題應(yīng)該使用多少詞。
在瀏覽各種類型的 Nature 文章時(shí),我們會(huì)很快發(fā)現(xiàn)這些文章標(biāo)題都很短,而且切中要害。接下來,我分析了以下四個(gè)數(shù)據(jù)集:
2014 年 Nature 上被引率最高的 100 篇論文(根據(jù) Google Scholar 統(tǒng)計(jì));
2014 年 Web of Science 中被引率最高的 100 篇論文;
2018 年 AltMetric 發(fā)布的全球最受關(guān)注的 100 篇論文;
Multidisciplinary Digital Publishing Institute 網(wǎng)站 2017 年發(fā)表的論文中被引率最高的 100 篇。
數(shù)據(jù)分析表明,有吸引力的標(biāo)題具有相對(duì)一致的模式,高影響力論文的標(biāo)題通常較短。具體來說,有吸引力的標(biāo)題的總長度是 10 個(gè)詞加減 3 個(gè)。在假設(shè)“有影響力的標(biāo)題”常伴隨著高引用率的前提下,我通過已發(fā)表的數(shù)百萬篇文章中的 400 篇高引文章(如前文描述)算出了這一范圍。有趣的是,有吸引力的標(biāo)題不一定包含句點(diǎn)或斜線,但是常常使用冒號(hào)。
可能吸引讀者的標(biāo)題關(guān)鍵詞 也被識(shí)別出來,它們是:回顧,癌癥,監(jiān)測(cè),近期,治療,方法,理論,分析,應(yīng)用,學(xué)習(xí),蛋白質(zhì),DNA,多重,新的,聯(lián)系,健康,研究(review, cancer, monitoring, recent, therapeutic, method, theory, analysis, applications, learning, protein, DNA, multiple, new, association, health, and study)。
Q:一篇文章應(yīng)該有多少位作者?
A:6 個(gè)或更多。
我發(fā)現(xiàn)被引數(shù)和作者數(shù)量之間存在相關(guān)性,因?yàn)?strong>高被引論文和低被引論文(的作者數(shù)量)之間存在顯著差異。與只有一位作者署名的論文相比,多個(gè)作者署名的論文似乎從他們的機(jī)構(gòu)、實(shí)驗(yàn)室、研究人員和學(xué)生那里獲得了更多的關(guān)注。換言之,每個(gè)作者都有自己的圈子,把所有作者的圈子聚集在一起,有相同研究方向的讀者數(shù)量會(huì)增加,進(jìn)而增加文章被引用的可能性。
此外,多位作者署名的論文也可以從自引中獲益。直覺上人們也可能會(huì)認(rèn)為,當(dāng)各種力量聯(lián)合起來,并且不止一個(gè)人對(duì)這項(xiàng)工作作出貢獻(xiàn)時(shí),研究方法的質(zhì)量、實(shí)驗(yàn)操作的質(zhì)量、研究經(jīng)費(fèi)和論文的質(zhì)量也會(huì)相應(yīng)提高。
Q:文章多少字符合適呢?
A:至少 35000 個(gè)(不包含空格)。
我還發(fā)現(xiàn),高被引論文和低被引論文之間,文章字符數(shù)(不包含空格)有顯著差異。此外,高被引文章的字符需要超過 33600 個(gè)(包括參考文獻(xiàn)在內(nèi)),大約共計(jì) 5600 詞。這一數(shù)字與最具影響力的期刊之一 Nature 接受的詞數(shù)一致。根據(jù) Nature 最新格式要求,包括參考文獻(xiàn)在內(nèi),文獻(xiàn)字?jǐn)?shù)最多為 6500 字。請(qǐng)注意,Google 指數(shù)(H5 指數(shù)和 H5 中位數(shù)指數(shù))將 Nature 評(píng)為 2018 年全球最具影響力的期刊。
Q:文章應(yīng)該放多少插圖?
A:至少 6 張圖。
據(jù)我所知,目前的文獻(xiàn)還沒有對(duì)插圖的數(shù)量進(jìn)行過調(diào)查。根據(jù)我的分析結(jié)果,高被引論文和低被引論文的圖片數(shù)量略有不同。分析結(jié)果表明,一篇文章中的圖越多,被引用的可能性就越大。這可能是因?yàn)閳D表能夠快速傳遞更多的信息,從而幫助讀者更快地理解研究結(jié)果。開放獲取雜志對(duì)圖的數(shù)量不作限制,但是一些其他雜志明確規(guī)定了插圖數(shù)量(這種情況下,可以將多張圖合并為一張)。
我的分析結(jié)果顯示,至少需要 6 張圖來反映論文的關(guān)聯(lián)程度和影響力,這與 Nature 接受的圖的數(shù)量相符合。根據(jù) Nature 最新格式要求,展示項(xiàng)(圖或表格)的最大數(shù)目為 6。
Q:幾張表格合適?
A:至少 2 張表格。
和上上個(gè)問題一樣,據(jù)我所知,目前的文獻(xiàn)還沒有對(duì)表格的數(shù)量進(jìn)行過調(diào)查。我發(fā)現(xiàn)高被引論文和低被引論文之間的表格數(shù)量有很大的不同。具體來說,至少需要兩張表格來展示研究結(jié)果。請(qǐng)注意,這里研究的表格數(shù)量與插圖數(shù)量無關(guān)。
Q:使用多少方程式合適? A:該用多少就用多少。
和上面研究問題相似,據(jù)我所知,目前的文獻(xiàn)中還沒有研究過方程的數(shù)目。我發(fā)現(xiàn)高被引論文和低被引論文的方程數(shù)量沒有顯著差異。也許這與綜述通常比包含方程式的文章更常被引用有關(guān)。因此,我們可以根據(jù)需要使用方程。
過去關(guān)于高閱讀量和高引用論文的組成部分的研究解決了一些問題,但并非全部。有時(shí),作者的同行、導(dǎo)師也會(huì)給出主觀的答案。我的分析研究試圖通過客觀評(píng)估提出建議,這在更徹底全面地研究這一問題邁出了不錯(cuò)的第一步。當(dāng)然,請(qǐng)注意我在這里提供的建議并不能保證提高被引率。事實(shí)上,還有一些更重要的特征可以提高被引用率和整體影響力,比如期刊的聲譽(yù)、作者的名聲、研究工作的原創(chuàng)性、研究主題的重要性、期刊雜志的可獲取性(即公開出版還是非公開出版)、文獻(xiàn)類型(如文章、綜述、通訊等),以及編輯和審稿人的反饋意見質(zhì)量。
聯(lián)系客服