中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
ACL 2020投稿破 3 千,到底有多少人在做 NLP 研究?

科學(xué)出版的世界是一片雨林:思想爭(zhēng)奪陽(yáng)光/注意力;有些人勝出并變得更高,而其他人則被遺忘。

作者 | Camel

編輯 | 唐里


在昨天ACL 2020公布了最新的投稿數(shù)量:3429篇。這也是所有ACL旗下會(huì)議首次接收論文數(shù)量破 3000篇。
這引起了筆者的好奇,歷屆 ACL 都接收了多少文章呢?當(dāng)前做NLP的研究人員數(shù)量在什么量級(jí)呢?目前最熱的研究領(lǐng)域是什么呢?
筆者在搜索相關(guān)資料的時(shí)候,無(wú)意間發(fā)現(xiàn)就在前不久已經(jīng)有人做了更為詳細(xì)的調(diào)查和分析,
這是位匿名者。
研究?jī)?nèi)容發(fā)表在medium上,賬戶也是新注冊(cè)的。筆者順藤摸瓜,找到了他的調(diào)查研究論文《The State of NLP Literature: A Diachronic Analysis of the ACL Anthology》,論文內(nèi)容豐富多樣,調(diào)查了ACL Anthology(AA)相關(guān)的所有論文,范圍從1965年到2018年。
在論文首頁(yè)底部他也寫了,匿名是因?yàn)檫@項(xiàng)工作目前還沒有正式發(fā)表。
且先不追究這位作者是誰(shuí),筆者從報(bào)告及他的博客中擷取部分內(nèi)容,來(lái)了解 NLP 領(lǐng)域 50多年來(lái)的發(fā)展態(tài)勢(shì)。共有八問——

1、NLP領(lǐng)域每年發(fā)多少論文?

2、有多少人在做 NLP 研究?

3、哪個(gè)會(huì)議/期刊的論文最多?

4、NLP領(lǐng)域,女性喜歡做什么研究?

5、NLP領(lǐng)域,年輕人真的越來(lái)越多了嗎?

6、對(duì)哪種語(yǔ)言的研究最多?

7、哪個(gè)領(lǐng)域最熱?

8、誰(shuí)的影響力最大?

 

1、NLP領(lǐng)域每年發(fā)多少論文?

(手機(jī)橫屏來(lái)看更方便)

截至2019年6月,AA擁有約50,000個(gè)條目,但其中包括一些并非真正的研究出版物的條目(例如,前言、序言、目錄等),將這些舍棄后,還剩44,896篇文章。上圖中顯示了從1965年到2018年期間,每年發(fā)表的論文數(shù)量。
從圖中可以看出:
1)1990年之后,NLP的研究開始突飛猛進(jìn),特別是在2000年之后,AA文章數(shù)量開始破千;
2)隔年出版的影響在圖中可以清晰看到,特別是1998年以來(lái),類似LREC(據(jù)說(shuō)錄用率超60%)、COLING這樣的會(huì)議。
 

2、有多少人在做 NLP 研究?

(手機(jī)橫屏來(lái)看更方便)
除了隔年出版的會(huì)議影響外,我們可以看出一個(gè)明顯的趨勢(shì),即從事NLP研究的人數(shù)在不斷增長(zhǎng)。
一個(gè)進(jìn)一步的有趣的問題是,最近到底有多少人活躍在 NLP 第一線呢?這很難確切回答,但我們可以將一段時(shí)間里發(fā)表論文的人數(shù)累加起來(lái)看,例如:
在2017年和2018年(至少2年)發(fā)表了至少一篇論文的人大約為12k(精確來(lái)講是11957);
在2015年至2018年(至少4年)發(fā)表了至少一篇論文的人大約是17.5k(精確為17457)。

3、哪個(gè)會(huì)議/期刊的論文最多?

當(dāng)然是各種 workshop 了!
這張圖展示的是不同會(huì)議或期刊的收錄論文情況。 
從中可以看出,除了各種workshop論文外,LREC已經(jīng)成為NLP會(huì)議論文的最大單一來(lái)源(盡管LREC是一個(gè)相對(duì)較新的會(huì)議,每?jī)赡暾匍_一次,但它的接受率往往很高,約60%)。其次則是主會(huì)ACL/4839,COLING/3142,NAACL/1479……
 

4、NLP領(lǐng)域,女性喜歡做什么研究?

NLP領(lǐng)域和其他領(lǐng)域一樣,并不會(huì)記錄作者的個(gè)人信息,例如性別、年齡、語(yǔ)言等。但這并不代表我們沒有辦法研究性別分布——作者的名字往往會(huì)蘊(yùn)含著性別信息。根據(jù)這個(gè)信息,這位匿名作者利用美國(guó)社會(huì)保障局發(fā)布的新生兒姓名和性別數(shù)據(jù)庫(kù)進(jìn)行匹配識(shí)別。
(作者注:由于中文名字的拼音與性別識(shí)別的關(guān)聯(lián)較小,因此中文作者的性別較難識(shí)別。)
1)女性發(fā)表的論文占多大比例? 
下面這幅圖是女性作為第一作者在歷年論文中所占比例:
經(jīng)過(guò)統(tǒng)計(jì),女性作為第一作者發(fā)表論文數(shù)量約26637篇,大約占總論文數(shù)量的30.3%。從時(shí)間線上來(lái)看,從1980年至今,女性第一作者論文比例總體來(lái)說(shuō)變化不大,但近年來(lái)卻有稍微的下降趨勢(shì)。
盡管30%的比例,相較于計(jì)算機(jī)科學(xué)的其他子領(lǐng)域已經(jīng)比較高了,但離男女勢(shì)均力敵還比較遙遠(yuǎn)。 
2)女性喜歡做什么研究?
(手機(jī)橫屏來(lái)看更方便)
作者還做了一個(gè)有意思的統(tǒng)計(jì),依據(jù)關(guān)鍵詞來(lái)看女性第一作者的分布。從圖中可以看出,女性的工作在discourse、annotation、study、corpus等領(lǐng)域所占比例較多,而例如parsing、dependency、model等則相對(duì)較少。
 

5、NLP領(lǐng)域,年輕人真的越來(lái)越多了嗎?

如果能去調(diào)查NLP研究人員的實(shí)際年齡分布,當(dāng)然是一件有趣的事情。但很遺憾,目前沒有這樣的信息。于是這位匿名作者另辟蹊徑,提出了:NLP學(xué)術(shù)年齡。如果一位研究人員是第一年在AA上發(fā)表,那么這個(gè)研究人員的NLP學(xué)術(shù)年齡是 1 ;如果是在2001年發(fā)表第一篇AA論文,并且在2018年發(fā)表了最新的AA論文,那么他的學(xué)術(shù)年齡是18。
首先來(lái)看NLP研究人員的在每一年的平均學(xué)術(shù)年齡分布——
 (手機(jī)橫屏來(lái)看更方便)
從上圖看出:
1)2018年的平均學(xué)術(shù)年齡為5.41年;
2)NLP研究也在逐漸走向“老齡化”;
3)直到 2016、2017年,研究人員的平均學(xué)術(shù)年齡在不斷增長(zhǎng),但隨后卻開始下降了,這個(gè)可以從下圖中看得更加清楚一點(diǎn)——
 (手機(jī)橫屏來(lái)看更方便)
作者統(tǒng)計(jì)了每年學(xué)術(shù)年齡的中位數(shù),1965年至1990年大部分時(shí)間的平均年齡為1歲,1991年至2006年大部分時(shí)間的平均年齡為2歲,2007年至2015年大部分時(shí)間的平均年齡為3歲,此后又回到2歲。這大概是 NLP 領(lǐng)域的“返老還童”吧!
我們還可以從另一個(gè)角度來(lái)看,作者統(tǒng)計(jì)了每年首次發(fā)表論文的作者比例,
(手機(jī)橫屏來(lái)看更方便)
在1965年-1985年期間,這個(gè)比例逐漸下降;隨后到2005年基本穩(wěn)定在40%-50%之間;然后2005年到2015年則下降到40%上下。這也說(shuō)明了從1985年之后,NLP社區(qū)已經(jīng)趨于成熟穩(wěn)定。不過(guò)我們有趣的是,從2016年之后,這個(gè)比例又開始逐漸上升了。(注:這個(gè)比例明顯會(huì)受到奇偶年的影響) 
再詳細(xì)一點(diǎn),我們來(lái)看 2011 - 2018年,不同學(xué)術(shù)年齡之間的比例:
其中2018年首次發(fā)表論文的作者占到44.93%,而學(xué)術(shù)年齡不到5年的作者比例占到65%。事實(shí)上,該數(shù)字自1965年以來(lái)一直在穩(wěn)步下降,在1990年代為60%至70%,2000年代初上升到70%至72%,然后再次下降,直到2010年達(dá)到最低值(約60%),并再次穩(wěn)定上升,直到2018年(65%)。
因此,如果不是去回顧歷史的話,我們常常會(huì)感覺最近的會(huì)議上有大量新人涌入,雖然這是事實(shí),但也是錯(cuò)覺。事實(shí)是,現(xiàn)在(2018年),NLP領(lǐng)域的平均學(xué)術(shù)年齡要比歷史上許多時(shí)候都要高,年齡大的(因此也是經(jīng)驗(yàn)豐富的)人所占的比例要更多。
 

6、對(duì)哪種語(yǔ)言的研究最多?

正如維特根斯坦所說(shuō):“我的語(yǔ)言將限制我的世界”,對(duì)于一個(gè)語(yǔ)言群體也是如此。能否將其所使用的自然語(yǔ)言融入到自動(dòng)系統(tǒng)(例如計(jì)算機(jī))中,以及融入程度如何,是決定使用該語(yǔ)言的人群在網(wǎng)絡(luò)世界中影響力的關(guān)鍵因素。 
我們知道,當(dāng)前的NLP研究主要是針對(duì)英語(yǔ)/英語(yǔ)數(shù)據(jù)集。原因很多,這里不再贅述;這種現(xiàn)象就會(huì)造成一個(gè)現(xiàn)象,即當(dāng)研究課題是非英文語(yǔ)言時(shí),往往會(huì)在文章標(biāo)題中顯示出語(yǔ)言的名字。
作者據(jù)此觀察,統(tǒng)計(jì)了如下的表格,共有122種語(yǔ)言:
(手機(jī)橫屏來(lái)看更方便) 
圖中字體較小,但大致是顏色越深,標(biāo)題中出現(xiàn)的頻率越高。從中可以看出中文的研究是所有非英語(yǔ)中頻率最高的,且遠(yuǎn)遠(yuǎn)高于其他語(yǔ)言(例如法語(yǔ)、日語(yǔ)等)。 

注意,這里英語(yǔ)的頻率并不是第一,原因是大多針對(duì)英語(yǔ)的研究并不會(huì)在標(biāo)題中表示?,F(xiàn)在社區(qū)中有越來(lái)越多的人意識(shí)到這是不正確的,這對(duì)其他語(yǔ)言是不公平的,因此有人建議應(yīng)當(dāng)在所有研究的標(biāo)題和數(shù)據(jù)集名稱中注明所研究的語(yǔ)言。

參考 AI 科技評(píng)論此前文章:

自然語(yǔ)言不等于英語(yǔ),為什么NLPer應(yīng)當(dāng)認(rèn)識(shí)到這個(gè)問題,以及該怎么做?


7、哪個(gè)領(lǐng)域最熱?

從1965年至今,NLP領(lǐng)域的研究熱點(diǎn)是怎么變化的呢?這是一個(gè)有意思的問題。
由于AA文章往往不要求作者提交關(guān)鍵詞,因此要想統(tǒng)計(jì)文章的研究方向,最便捷的一種方式就是——從標(biāo)題中提取關(guān)鍵詞。
這里作者做了假設(shè),認(rèn)為標(biāo)題內(nèi)容是和文章研究主題一致的。
Sneha Kulkarni曾表示:“一個(gè)好的研究論文標(biāo)題,應(yīng)當(dāng)滿足三點(diǎn),1)用盡可能少的詞概括論文的內(nèi)容;2)吸引到讀者的注意力;3)將論文與同一領(lǐng)域的其他論文區(qū)分開?!?nbsp;
如果按照這個(gè)理想規(guī)則,那么使用標(biāo)題來(lái)提取關(guān)鍵詞應(yīng)該會(huì)具有一定的代表性。(當(dāng)然實(shí)際上還會(huì)有許多要考慮的因素,這里不再贅述)。
因此,作者的假設(shè),再具體一點(diǎn)就是:隨著時(shí)間的流逝,與該領(lǐng)域相關(guān)的標(biāo)題詞的出現(xiàn)頻率,將在某種程度上反映出對(duì)某個(gè)研究領(lǐng)域的廣泛興趣。
那么,在過(guò)去這些年里,哪些才是熱門呢?
作者統(tǒng)計(jì)了從1980年到2019年的論文,如下圖:
從術(shù)語(yǔ)分布來(lái)看,NLP論文標(biāo)題中最常用的術(shù)語(yǔ)是 language,其次是 translation。如果考慮 Bigram 的話,如下圖: 
最常出現(xiàn)的術(shù)語(yǔ)是 machine translation,毫無(wú)疑問,機(jī)器翻譯是NLP領(lǐng)域最受關(guān)注的研究領(lǐng)域之一。 
我們?cè)賮?lái)看不同的研究領(lǐng)域隨著時(shí)間線的變化:
 (手機(jī)橫屏來(lái)看更方便)
(注:圖中有個(gè)小錯(cuò)誤,parsing對(duì)應(yīng)于淺綠線)
從這張圖中可以看到一個(gè)非常有意思的現(xiàn)象,即,在1980年-2008年之間近三十年的時(shí)間里,language、translation、parsing在80年代炙手可熱,而現(xiàn)在已經(jīng)遠(yuǎn)不如當(dāng)年受歡迎了;而另一方面,neural在80年代經(jīng)歷了一段高潮之后,迅速下降,但近年來(lái)卻又突破重圍,再次超越而出。
我們可以把 parsing 的時(shí)間線單拎出來(lái): 
真的是不復(fù)當(dāng)年!
另一個(gè)有意思的是,可以對(duì)比statistical machine, neural machine 和 machine translation 在近40年里的變化趨勢(shì): 
統(tǒng)計(jì)機(jī)器經(jīng)歷過(guò)一段高潮之后,現(xiàn)在已經(jīng)基本銷聲匿跡了;而神經(jīng)機(jī)器則隨之崛起。正所謂“沉舟側(cè)畔千帆過(guò),病樹前頭萬(wàn)木春”!

8、誰(shuí)的影響力最大?
引用率并不一定能反映一篇文章的質(zhì)量或重要性,但卻是一個(gè)重要的參考。作者指出:
“對(duì)于為什么有些論文會(huì)被大量引用,而有些不會(huì),很難說(shuō)清,論文被高引,可能是引起了該領(lǐng)域的想象力,也有可能是它們極具創(chuàng)造力,或者開辟了一個(gè)新的研究領(lǐng)域,在很大程度上推動(dòng)了技術(shù)發(fā)展,檢驗(yàn)了令人信服的假設(shè),或者產(chǎn)生了對(duì)多數(shù)人有用的數(shù)據(jù)集等等。”
作者從Google Scholar上對(duì)4萬(wàn)多篇論文的引用率進(jìn)行提取,獲得了33,051篇論文的引用信息。
下面兩張圖,是同一個(gè)信息,但按照不同的順序排列的——
第一張,按照相關(guān)所有論文的引用總數(shù)排列,可以看做機(jī)器翻譯是總引用率最高的,其次是統(tǒng)計(jì)機(jī)器、情感分析。
但是這種方式有其弊端,即不同領(lǐng)域,發(fā)表的論文數(shù)量也不相同,于是作者又按照平均引用率進(jìn)行排列,這就給我們展示了另外一種視角:
 從中可以看出,自動(dòng)評(píng)估才是引用率的王者,語(yǔ)料庫(kù)和詞匯資源才是廣受歡迎的寵兒。所以,要想高引,還是要做資源建設(shè)呀。
作者別具一格地結(jié)合了學(xué)術(shù)年齡,來(lái)分析學(xué)術(shù)年齡對(duì)引用率的影響。
 從中可以看出,在論文數(shù)量和總引用率上,學(xué)術(shù)年齡為1年和(10-14)年的是NLP的主力軍。 
在平均引用上,7年的學(xué)術(shù)年齡是最好的。倒U形的分布也很好理解,人們普遍會(huì)引用年限不是很久遠(yuǎn)、但也不是剛剛出爐的論文。對(duì)于那些學(xué)術(shù)年齡在35-50之間的,平均引用率則普遍低到可怕。
針對(duì)引用率,作者也做了性別分析:
 
顯然,無(wú)論是總引用率、總論文數(shù),還是平均引用、中位數(shù)引用,男性都要比女性高。(其中的unknown是考慮到有大量來(lái)自中國(guó)的論文作者,該研究作者不知道如何區(qū)分他們的性別)
作者也做了性別相關(guān)引用在時(shí)間跨度上的分析——
請(qǐng)注意,女性第一作者在ACL的歷史上一直是少數(shù)派;但是平均而言,她們?cè)谠缙冢?965年至1989年)的論文被引用的次數(shù)明顯多于同期的男性第一作者。從圖中可以看出,這種情況在1990年代有所改變,男性第一作者的論文平均獲得了明顯更多的引用。引用差距在2000年代大大減少,2010-2016年期間引用差距進(jìn)一步縮小。 
有趣的是,在2000年之后,性別未知的作者幾乎彌合了與男性作者之間的差距。作為中國(guó)人,笑而不語(yǔ)啊!
 

9、補(bǔ)充一點(diǎn)

這里僅擷取該研究的部分結(jié)論,在作者的論文原文以及博客中有大量更充實(shí)的分析內(nèi)容。感興趣的讀者可以:
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
ACL 2023最佳論文出爐!CMU西交大等摘桂冠,杰出論文獎(jiǎng)華人學(xué)者占半壁江山
有人把NLP領(lǐng)域分類、發(fā)展趨勢(shì)可視化了!德國(guó)慕尼黑工業(yè)大學(xué)構(gòu)建NLP 360度全景圖
如何查閱自然語(yǔ)言處理領(lǐng)域?qū)W術(shù)資料
頂會(huì)ACL這十年:百度披荊斬棘,中國(guó)NLP乘風(fēng)破浪
AACL成立王海峰出任創(chuàng)始主席!中國(guó)AI產(chǎn)業(yè)又一重大事件
百度AI人才圖鑒
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服