文本分析很有用,数说君自己也玩过,炒鸡有意思,从论坛、网页上爬取网友的舆情数据,然后整理、统计、画图,就可以知道舆论的风暴是什么,可以知道网友最热议的话题、最想去的旅游景点、最喜欢的饮料等等,也可以从这些舆情数据中挖掘出两个话题之间的关联性等等。
统计领域比较流行的软件主要就是SPSS、R、SAS等,因为用它们来做统计模型/数据分析,实在太方便了,但是一旦遇到了文本形式的数据,就常常不知道该怎么办。比如下面这列杂乱无章的文本数据:
(01)1872-8756 Body shop P1 Book B13 (05)9212-0098 PD(05)9206-4571 Shushuo phone (12) 6753-5513 None here PD(12)6434-4532 P&D Washing PC Pro4321S: (09) 1352-3154
如果我们只想保留数字部分,即红色字体部分该怎么办呢?又或者是,我们想把淘宝上面关于某手机的参数信息给爬取下来,比如品牌、内存:
又该如何精准定位呢?
正则表达式就可以很容易的帮我们解决这些问题。其实无论是爬数据,还是整理数据,牵扯到文本的内容,正则表达式就非常好用。一旦你弄懂它们,你就能把数小时辛苦而且易错的文本处理工作压缩在几分钟甚至几秒钟完成!
然而对于一个经过正规统计学训练的统计师或者数据分析师来说,这方面可能并不那么擅长。因此我们如果能以SAS为工具,来学习正则表达式、学会做一些简单的文本数据处理,不仅学习起来变得非常容易,此后再用Python等其他编程工具去处理文本,都会变得简单了。