万众瞩目的二十大正在如火如荼的召开,哪些方面是国家建设的重点是每个人都非常关心的话题。
本文在R语言中通过Rwordseg包将二十大报告内容进行分词,然后用wordcloud2包对关键词进行词云展示。 二十大报告全文在网上一搜就能找到,下载存为txt格式。
代码语言:javascript复制library(Rwordseg)
library(wordcloud2)
#读入文件
report <- readLines("二十大报告.txt",encoding = 'UTF-8')
head(report,20)
读进来的格式如下,一段是一个字符:
代码语言:javascript复制#通过Rwordseg包的segmentCN函数分词
words <- segmentCN(strwords = report,analyzer = "hmm",returnType = "vector")
#将列表转化为向量
words <- unlist(words)
分完词的结果如下,还是非常智能的:
结果中会存在一些空字符和一个字的字符,把这部分去掉:
代码语言:javascript复制#去掉空的字符和一个字的字符
words <- words[nchar(words)>1]
#得到出现次数最高的200个词。个数可以自己定。
key <- sort(table(words),decreasing = TRUE)[1:200]
key
#wordcloud2包进行词云展示:
wordcloud2(key,shape = "star",size=.7,
color = rep_len(c("#d80000","#be0000","#a50000","#8b0000","#720000"),
length(key)))
从词云中可以看出,中国、人民、社会、发展、坚持、主义等等词出现频率很高。