作者簡介
野菜團(tuán)子,R語言中文社區(qū)專欄作者
博客:https://ask.hellobi.com/blog/esperanca
stringr包,顧名思義,處理字符串專用包,本篇筆記對它進(jìn)行簡單介紹。提到字符串處理,有一個(gè)繞不過去的主題,它是字符串處理的利器,也是字符串處理的問題制造機(jī),它就是——正則表達(dá)式。本篇筆記順帶介紹一下正則表達(dá)在R語言中的應(yīng)用。
在base包中,字符串的連接主要用paste和paste0兩個(gè)函數(shù),在stringr包中,它們的替代品是str_c()函數(shù)。舉個(gè)簡單的例子:
str_c('x', 'y','z')str_c('x', 'y', sep =', ')
str_c()繼承R語言函數(shù)的矢量化運(yùn)算風(fēng)格,會(huì)對參數(shù)進(jìn)行循環(huán)計(jì)算,直到更長的那個(gè)參數(shù)的完結(jié):
str_c('', c('a','b', 'c'), '-suffix')
要截取字符串中的一段,使用str_sub()函數(shù)。str_sub()函數(shù)接受兩個(gè)數(shù)字參數(shù)作為截取字段起止的位置。不同于Python等其他語言的索引從0開始,R語言從1開始計(jì)數(shù),并且包含截止的位置。舉個(gè)例子:
x <- c('apple','banana',="">->
str_sub(x, 1, 3)str_sub(x, -3, -1)
負(fù)數(shù)表示從字符串的右邊開始進(jìn)行截取。
好了,開始我最喜歡也最頭疼的正則表達(dá)部分。先說通配符“.”,它能夠匹配除了新行外的所有字符,那么如果想要匹配它本身,就需要對它進(jìn)行轉(zhuǎn)義。在其他諸如stata中,我們在之前加上反斜杠“\”表示轉(zhuǎn)義,但是,在R語言中,我們使用字符串的形式來表示匹配模式,而在字符串中“\”本身是有特殊用法的字符,需要對它進(jìn)行轉(zhuǎn)義來表示轉(zhuǎn)義,就需要加兩個(gè)反斜杠。比如下面這個(gè)例子,我們用str_view函數(shù)來顯示匹配結(jié)果:
str_view(c('abc', 'a.c','bef'), 'a\\.c')
如上圖,雙反斜線轉(zhuǎn)義后才能匹配字符串中的“.”。
那么對于反斜線“\”本身呢?我們要怎么匹配它?
大家可能會(huì)覺得,轉(zhuǎn)義要兩個(gè)反斜杠,再加上本身一個(gè),要三個(gè)反斜杠。
真這么簡單我何必特意問出來。
答案是要4個(gè)。
大家在R語言中設(shè)置當(dāng)前路徑的時(shí)候,如果在路徑中使用了反斜杠,就需要寫兩個(gè)“\”,前一個(gè)表示轉(zhuǎn)義,因?yàn)榉葱备鼙旧碓谧址杏刑厥獾暮x,所以轉(zhuǎn)義是必須的。同理,在R語言中,文本中要表示“\”,需要兩個(gè)反斜杠“\\”來表示。而要構(gòu)建一個(gè)正則模式來匹配文本中的這兩個(gè)反斜杠“\\”,首先是這兩個(gè)反斜杠得有,就是兩個(gè),再注意一下,匹配模式本身也是文本,在文本中要表達(dá)一個(gè)反斜杠,就要在之前多加一個(gè),所以在原有的兩個(gè)反斜杠前各加一個(gè)反斜杠,就一共有四個(gè)。就像這樣:
x <- 'a\\b'str_view(x,="">->
好啦,除了這一點(diǎn)需要特別點(diǎn)出來,R語言中的正則就和其他Perl啊、Python啊啥的語言一樣,大致沒什么特別的了。接下來介紹相關(guān)的函數(shù)。
str_detect函數(shù)用來探測是否在字符串中匹配到給定的模式,返回布爾值來表示結(jié)果。用words這個(gè)數(shù)據(jù)集,我們來匹配一下以“ac”開頭的單詞:
head(words)head(str_detect(words, '^ac'))
“^”表示只匹配行開頭的部分,與之相對的是“$”,表示只匹配行的結(jié)尾部分。
計(jì)算一下words中以元音字母結(jié)尾的單詞的比例:
mean(str_detect(words, '[aeiou]$'))
中括號“[]”表示匹配其中的任意元素,“[^]”則表示匹配除了中括號里的元素外的所有元素。比如上代碼還可以表示為1減去以輔音字母結(jié)尾的單詞比例:
1 - mean(str_detect(words, '[^aeiou]$'))
str_count函數(shù)用來計(jì)數(shù)給定的模式被匹配上了多少次。比如計(jì)算words中每個(gè)單詞中有多少個(gè)元音字母:
head(words)head(str_count(words, '[aeiou]'))
有時(shí)候我們不僅想要知道匹配了多少次,還想知道具體匹配到了什么,這時(shí)候就可以用str_extract函數(shù)。以sentences數(shù)據(jù)為例,我們想要知道含有顏色的句子有哪些,都含有哪些顏色:
color_match <- str_c('red','orange',="" 'yellow',="" 'green',="" 'blue','purple',="" sep='|' )has_color="">-><- str_subset(sentences,color_match)matches="">-><->->
str_extract函數(shù)只提取第一個(gè)匹配值,如果要匹配所有,就用str_extract_all函數(shù)。
more <- sentences[str_count(sentences,color_match)=""> 1]str_extract_all(more, color_match)->
返回的結(jié)果是一個(gè)列表,可以用tidyr包的unnest函數(shù)修整成tibble格式的數(shù)據(jù),也可以設(shè)置simplify = TRUE來返回一個(gè)矩陣:str_extract_all(more, color_match, simplify= TRUE)
str_match函數(shù)在需要提取多個(gè)匹配值時(shí)非常趁手。比如想要匹配sentences中的名詞,我們假定名詞前都有冠詞the/a/an中的一個(gè),其后跟一個(gè)空格,再跟一個(gè)非空格的元素組,那么我們給出如下的匹配模式:
noun <- '(the|a|an)="" ([^="">->
()表示匹配模式組別,“+”表示前一個(gè)匹配值出現(xiàn)超過一次。我們需要提取的有兩個(gè)匹配值,一個(gè)是第一個(gè)括號里的冠詞,一個(gè)是第二個(gè)括號里的名詞。
has_noun <- sentences="" %="">% str_subset(noun)%>% head(10)has_noun %>% str_extract(noun)has_noun %>% str_match(noun)->
對比str_extract函數(shù)把兩個(gè)匹配值提取成一個(gè)字符串,str_match把我們要的冠詞和名詞分別列出。str_match也只匹配第一個(gè),如果要提取所有的名詞和冠詞,可以用str_match_all函數(shù)。
str_replace函數(shù)替換匹配到的第一個(gè)模式,str_replace_all則可以替換所有。比如:
x <- c('1="" house',="" '2="" cars',="" '3="" people')str_replace_all(x,="" c('1'='one' ,="" '2'='two' ,="" '3'='three'>->
str_split函數(shù)將字符串向量進(jìn)行拆分,以sentences數(shù)據(jù)為例,按空格進(jìn)行拆分:
sentences %>% head(5) %>% str_split('', simplify = T)
同樣可以進(jìn)行字符串拆分并且可以使用正則表達(dá)式的還有之前講到的tidyr包的separate函數(shù)。
在R語言中,使用一個(gè)字符串格式的模式時(shí),是自動(dòng)調(diào)用正則表達(dá)式的。如果想要匹配的內(nèi)容不需要調(diào)用正則就能解決,就可以使用fixed函數(shù),來避免煩人的轉(zhuǎn)義,而且也更省時(shí)。比如,如果要匹配文本中的反斜杠,配合fixed函數(shù)只用兩個(gè)反斜杠就行了:
a <- 'hello\\wor\\ld'writelines(a)str_extract_all(a,="">->
而如果要匹配的內(nèi)容非常繁瑣,則可以選擇設(shè)置comments = TRUE,這樣可以在正則模式中添加注釋,比如Hadley的例子:
phone <- regex('\\(?="" #="" optional="" opening="" parens(\\d{3})="" #="" area="" code[)-="" ]?="" #="" optional="" closingparens,="" dash,="" or="" space(\\d{3})="" #="" another="" threenumbers[="" -]?="" #="" optional="" space="" or="" dash(\\d{3})="" #="" three="" more="" numbers',="" comments="">->
一個(gè)小tip,fixed和regex函數(shù)都有ignore _case選項(xiàng),設(shè)置為TRUE后可以無視大小寫進(jìn)行匹配。
最后,附上stringr包的cheatsheet下載地址,想要了解更多的盆友們可以看看:
https://github.com/rstudio/cheatsheets/raw/master/strings.pdf
聯(lián)系客服