stringr
sunqi
2020/8/13
概述
字符串处理比较优秀的包
代码
代码语言:javascript复制library(stringr)
library(tidyverse)
rm(list=ls())
#获取字符串长度
iris %>% mutate(len=str_length(Species)) %>% head()
代码语言:javascript复制## Sepal.Length Sepal.Width Petal.Length Petal.Width Species len
## 1 5.1 3.5 1.4 0.2 setosa 6
## 2 4.9 3.0 1.4 0.2 setosa 6
## 3 4.7 3.2 1.3 0.2 setosa 6
## 4 4.6 3.1 1.5 0.2 setosa 6
## 5 5.0 3.6 1.4 0.2 setosa 6
## 6 5.4 3.9 1.7 0.4 setosa 6
代码语言:javascript复制# 字符串拼接
iris %>% mutate(z=str_c(Sepal.Length,Sepal.Width,sep="_")) %>% head()
代码语言:javascript复制## Sepal.Length Sepal.Width Petal.Length Petal.Width Species z
## 1 5.1 3.5 1.4 0.2 setosa 5.1_3.5
## 2 4.9 3.0 1.4 0.2 setosa 4.9_3
## 3 4.7 3.2 1.3 0.2 setosa 4.7_3.2
## 4 4.6 3.1 1.5 0.2 setosa 4.6_3.1
## 5 5.0 3.6 1.4 0.2 setosa 5_3.6
## 6 5.4 3.9 1.7 0.4 setosa 5.4_3.9
代码语言:javascript复制# 字符串取子集
x <- c("Apple", "Banana", "Pear")
# 第一个参数为字符串
# 第二个参数为起始位置
# 第三个参数为长度
str_sub(x, 1, 3)
代码语言:javascript复制## [1] "App" "Ban" "Pea"
代码语言:javascript复制# str_sub支持赋值操作
str_sub(x, 1, 1) <- "Q"
x
代码语言:javascript复制## [1] "Qpple" "Qanana" "Qear"
代码语言:javascript复制# 对字符串进行匹配
# str_view()
x<-c("job","sex","hello")
# pattern 支持正则表达式
# str_view用于可视化观察
# 对于大数据没什么用,玩玩可以
str_view(string = x, pattern = "o")
- job
- sex
- hello
c("s.d") %>%
str_view("\.")# 双反斜杠用于转义字符
- s.d
# 开始匹配和末尾匹配
str_view(x, "^j")
- job
- sex
- hello
str_view(x, "x$")
- job
- sex
- hello
x <- c("apple pie", "apple", "apple cake")
str_view(x, "^apple$")
- apple pie
- apple
- apple cake
# 任意匹配
# d:匹配任何数字。
# s:匹配任何空格(如空格、制表符、换行符)。
# [abc]:匹配a, b或c。
# [^abc]除a、b、c之外,可以匹配任何字符。
str_view(c("sunqi", "suoqi"), "su[on]qi")
- sunqi
- suoqi
# 重复的问题
# 如果中间有100个任意字符,那么就需要有100个中括号
# 这是不合理的
# ? 匹配0或者1此
# 1此或者无数次
# * 0次或者无数此
c("ssssddddswdsdsdsdsdss") %>% str_view("s?")
- ssssddddswdsdsdsdsdss
c("ssssddddswdsdsdsdsdss") %>% str_view("s ")
- ssssddddswdsdsdsdsdss
c("ssssddddswdsdsdsdsdss") %>% str_view("s*")
- ssssddddswdsdsdsdsdss
#也支持正则中的{}
c("ssssddddswdsdsdsdsdss") %>% str_view("s{2}")
- ssssddddswdsdsdsdsdss
c("ssssddddswdsdsdsdsdss") %>% str_view("s{2,3}")
- ssssddddswdsdsdsdsdss
# 回溯引用
fruit1 <- fruit %>% head(10)
# 提取有相邻重复字符的字符
# (.)匹配任意字符
# \1 再次匹配
str_view(fruit1, "(.)\1", match = TRUE)
- apple
- bell pepper
- bilberry
- blackberry
- blackcurrant
- blood orange
- blueberry
# 匹配abab, wcwc
# 两个点表示两个字符
str_view(fruit1, "(..)\1", match = TRUE)
- banana
# 匹配abba, wccw
# 1和2表示位置
str_view(fruit1, "(.)(.)\2\1", match = TRUE)
- bell pepper
# 匹配anan
str_view(fruit1, "(.)(.)\1\2", match = TRUE)
- banana
结束语
stringr的字符匹配需要一定的正则表达式知识,除非做文本挖掘,其实也不需要深究。
love&peace