require(Rwordseg)分析案例展示（未去冠词以及无意义的词）

2019-02-14 14:26:46 浏览数 (3)

看网络上很多朋友都在用“Rwordseg”程序包进行分词练习。我也忍不住进行了一次实验。首先，肯定是装程序包了，个人感觉是废话，纯凑字数。如下是我进行的联系，在网上找了一篇关于范爷的专访，看看能看出来什么吧。 =========================================================================== #第一步，文本分词 require(Rwordseg) test<- readLines("E:\FBB1.txt",encoding='UTF-8') #读取数据 res = test[test != " "] #读取test，且剔除test=“ ” words = unlist(lapply(X = res,FUN = segmentCN)) #分词，并调整表结构，将有相同词频的词归类 word = lapply(X = words,FUN = strsplit," ") #给每个词根据顺序赋个顺序指 v = table(unlist(word)) #重建表 v = sort(v,deceasing=T) #降序排列 v[1:100] head(v) #给每列字段赋标题 d = data.frame(word = names(v),freq = v) #更改标题 write.csv(d,"E:\学习.csv",header = T) #导出数据，为下一步做准备 #第二部，做文本云图 require(wordcloud) dd = tail(d,150) #取数据框的最后150行数据 op = par(bg = "lightyellow") #背景为亮黄色 #rainbowLevels = rainbow((dd$freq)/(max(dd$freq) - 10)) #不知道什么意义，删除后图形无太大变化 wordcloud(dd$word, dd$freq, col = rainbow(length(d$freq))) par(op) ===================================================================================== 成图

=========================================================================== 因为没有提出冠词等无意义的词语，所以可能也看不出来什么有意义的地方。大家权当一看。日后会有更深入的分析的。分享：

csv header lapply require word

0 人点赞