R语言之文本挖掘
其实,现在的互联网数据大多数是非结构化的,比如谷歌,雅虎,搜狐等网站的文本数据已经泛滥成灾。文本挖掘有很多的用处,比如了解患者对罕见癌症的关注度,统计政府演讲报告词频高低,情感分析,作家常用词等等,接下来了解一下喜欢的作者列夫·托尔斯泰的代表作品中的常用词有哪些?
01
下载Graf Leo Tolstoy作品
#下载Graf Leo Tolstoy(伯爵列夫·托尔斯泰)的代表作
《War and Peace》战争与和平
《Anna Karenina》安娜·卡列尼娜
《The Awakening》复活
《Best Russian Short Stories》俄国短篇小说
进入官网http://www.gutenberg.org查找相应书籍的ebooks的编号。利用gutenberg_download()函数下载。
代码语言:javascript复制>tolstoy<gutenberg_download(c(2600,1399,17352,13437))
>tolstoy
02
分词
代码语言:javascript复制> library(tidytext)
> tidy_tolstoy<-tolstoy%>%unnest_tokens(word,text)
> tidy_tolstoy
3
删除停用词
#首先查看一下停用词
代码语言:javascript复制> data(stop_words)
> View(stop_words)
#删除停用词
代码语言:javascript复制>tidy_tolstoy_stop<-tidy_tolstoy%>%anti_join(stop_words)
04
统计词个数并降序
代码语言:javascript复制> tidy_tolstoy_stop%>%count(word,sort=TRUE)
#可以对比一下删除停用词前后的结果
代码语言:javascript复制>tidy_tolstoy%>%count(word,sort=TRUE)
前
后
05
#绘图
#把word出现次数n>1000的进行绘图
代码语言:javascript复制>library(ggplot2)
> tidy_tolstoy_stop%>%count(word,sort=TRUE)%>%filter(n>1000)
%>%mutate(word=reorder(word,n))%>%ggplot(aes(word,n))
geom_col(color="grey20",fill="#336A97") ylab("Number")
labs(title="Leo Tolstoy's masterpiece",caption="Origin:http://www.gutenberg.ory
Desigener:LXL") coord_flip() theme(plot.title = element_text(face = "bold",
hjust = 0.5,size=20,color = "black"),plot.caption = element_text(face = "bold",size = 10),
panel.grid=element_blank(),panel.background=element_rect(fill='grey90'),
axis.text.x=element_blank())
小结
通过比较,可知列夫·托尔斯泰的代表作品《War and Peace》战争与和平、《Anna Karenina》安娜·卡列尼娜、《The Awakening》复活、《Best Russian Short Stories》俄国短篇小说中出现频率最高的是prince,其次是time.....此外,利用文本挖掘工具,我们还可以了解历年英语考研真题/专业考研题目中出现频率最高的有哪些?为考研顺利上岸设计有针对性的复习重点。