小数据分析:微博前端大战

2018-04-23 16:53:43 浏览数 (1)

最近前端针对某些问题展开了非常激烈的讨论,作为一名围观了全过程的前端新手表示,从中学习到了很多东西。

围观之余,想尝试理性地通过数据分析进行舆论统计,从机器的角度对几位核心人物的发言进行观察。

处理流程

首先,通过爬虫获取某条微博的全部转发,进行以下预处理:

  • 截取 『//』 前面的部分,微博中 // 后面的为转发原文
  • 去除其中『转发微博』、『轉發微博』、『Repost』的部分
  • 去除作者本人的转发
  • 去除其中『回复@某人:』这样的无意义字段
  • 去除全文只有『@xxxx』这样的无效字段(比如@我的印象笔记)
  • 去除正文长度小于5的字段

预处理过后,通过文智的语义分析接口进行情感分析,中立为 0.5 ,大于 0.5 为正面,小于 0.5 为负面。

具体案例

真阿当

『一切不接地气的性价比不高的伪高端,都会消停的。』

sass和less最近是不是被提起得少了?backbone呢?响应式设计呢?今天说得起劲的angular和rect,是不是半年后也逐渐消停了呢?一切不接地气的性价比不高的伪高端,都会消停的。我相信jquery还能坚挺5年,不相信rect和angular能热过两年。踩jquery的一直不会停,新时髦也不会停。话放在这儿,两年后咱看看。

这条微博是整个争论的起点。截至到统计时,共有 377 条真实转发。处理过后,共有 224 次有效转发,统计结果如下:

  • 正面:78
  • 负面:69
  • 中立:33
  • 正面平均值:0.70
  • 负面平均值:0.32

可以看到,对于真阿当这次比较偏激的言论,整体舆论基本持平,没有想象中那种『批判一番』的一边倒,甚至正面评价还偏多。

不过需要注意一点,所谓的正面评价,是言语本身的正面,而不是对这个原文观点是否支持。比如原文是『这样做不好』,转发内容是『是啊这样太不好了』,在解析情感的时候会解析成负面评价,但是其实是支持原文观点的。

不过大致浏览一下,基本还是一致的:

代码语言:javascript复制
{
  text: '这些新思想还是要了解下,基础和学习能力在那,转起来也快。jQuery起码还能再战5年是毫无疑问的,国内哪有这么多公司有需要rect和angular的业务场景哦。',
  positive: 0.58633154630661
}, {
  text: 'jQuery都半截入土了也就你国还在用因为都看百度对不对',
  positive: 0.010991100221872
},
『当我说前端基础的时候,其实我在说什么?』

当我说前端基础的时候,其实我在说什么?我在说的是css和js library。(后面省略,长文转发)

这一篇是真阿当的一篇长文,阐述自己所说的『前端基础到底是什么』。截至到统计时,共有 288 条真实转发。处理过后,共有 149 次有效转发,统计结果如下:

  • 正面:63
  • 负面:55
  • 中立:31
  • 正面平均值:0.69
  • 负面平均值:0.32

从数据上来看似乎和上一条消息差不多。不过再看数据的时候发现很多语义分析都是错误的:

代码语言:javascript复制
{
  text: '人家不在一号店了貌似,轰错地儿',
  positive: 0.17558500170708
}, {
  text: '如果没有记错的话,楼主曾经写了一本书,其中大肆推广 css “原子类”,直到现在还有不少新人受到毒害……一本烂书对前端圈的影响才是深远的,影响根基。',
  positive: 0.64318019151688
}

一条是调侃右边微博的,结果解析成了负面评价,一条是调侃作者的书的,结果被判断成了正面评价。语义分析不是想象中那么容易=。=

不过也有语义判断正确的:

代码语言:javascript复制
{
  text: '你转我的微博说这干啥…',
  positive: 0.5
},
{
  text: '上一条说的是新手学习路线的选择,但是对于文中另一种观念我觉得就有问题了,就好像现在貌似不在少数的一直学古典乐作曲的,突然发现有一群玩爵士的,然后就说这是异类,这不是玩音乐,我玩的才是正统…这种思想才真的是固步自封的源头。',
  positive: 0.37926262617111
}
『为这几天前端方向所撕的逼做个大总结』

这几天回顾一下,从微博到知乎,新人老人,js流派,css流派,双流派,意图跨界抢地盘的各路其他门派友人,从站队和言语,性情如何一目了然。特别有意思的是老人如何选择在新旧几代人更新换代时行为和态度上的策略。还有吵架套路也各有特色,非常有意思。(以下内容省略,长微博)

这是最新的一条长文,总结了前段时间持续了一个多月的撕逼大战。截至到统计时,共有 143 条真实转发。处理过后,共有 52 次有效转发,有效转发率偏低,猜测是因为干货文章,很多人只转发没有评论自己的观点。统计结果如下:

  • 正面:23
  • 负面:20
  • 中立:9
  • 正面平均值:0.72
  • 负面平均值:0.28

这条微博的转发评论似乎比前面几篇更加激进,选几个例子:

代码语言:javascript复制
{
  text: '用找一辈子的事业的态度去找工作,这句话不要太赞!',
  positive: 0.99259257316589
}, {
  text: '“汇编和c”来类比”css和bootstrap”,这真是汇编和C被黑的最严重的一次。。。。。。',
  positive: 0.021673392504454
}

寒冬winter

『我眼中的前端框架jQuery,Angular,React,Vue』

阿当讲我那个视频ppt看不清,又太长,所以写文总结一下。jQuery的意义在我看来和他自己说的主要是两点:一是更好的API,二是兼容。这两点JQ做到了极致,在上一个时代,这两点恰好是前端最痛的两个点,所以它成功了。(后面省略,长微博)

寒冬老师通过长微博阐述了自己眼中的前端框架。截至到统计时,共有 253 条真实转发。处理过后,共有 59 次有效转发,统计结果如下:

  • 正面:30
  • 负面:15
  • 中立:14
  • 正面平均值:0.72
  • 负面平均值:0.30

近200转发失效。。说明很多人是当干货,纯转发不说话。在有效的转发里,正面评价占的比例明显比真阿当微博的比例高很多。本以为不会有太多负面评价,仔细看下有不少误伤:

代码语言:javascript复制
{ 
text: '虽然看不懂,还是前排占座。。。', positive: 0.022098489105701 
}

转发的意思是看不懂原文的内容,理论上评价应该是中立,结果确实极度负面。猜测原因是机器将这句话理解成了评价,也就是说理解成了『这条转发评价:原作者虽然看不懂但是还要占座』,导致了乌龙。

尤小右

『谈谈前端技术』

最近有位(大家都知道是谁)的『前辈』在微博上天天叫唤,相信很多人都看烦了。我跟他也算是吵了一架,污染了大家的时间线,先说声抱歉。但是我觉得让这么一个撒泼的人误人子弟,实在看不下去,所以咱上点干货以正视听。(下文省略,长微博)

这是尤小右同学最新的一篇长微博。截至到统计时,共有 236 条真实转发。处理过后,共有 68 次有效转发,统计结果如下:

  • 正面:34
  • 负面:23
  • 中立:10
  • 正面平均值:0.70
  • 负面平均值:0.34

和 winter 那篇基本相似,由于是长文偏干货,所以很多人是『转发微博』没有评价。然后实际情况,正面占比远比这个结果要高,语义识别情绪的时候还是有很多错误:

代码语言:javascript复制
{
  text: '必须是我用table我骄傲的态度',
  positive: 0.28277599811554
}, {
  text: '他就是个前端老炮儿,一直沉醉于自己过去的前端江湖,觉得现在的年轻人不懂规矩,时不时来一句“这是规矩,懂吗?”',
  positive: 0.15737210214138
},

中文博大精深,各种反讽调侃机器还是没办法正确识别。

小结

花了一天时间折腾这个玩票,本来是想看看舆论对双方的支持程度如何,但是因为精力有限,评论区的内容没有一起整合进来。另外就是腾讯提供的语义识别接口还是有很多问题,有些高级技巧比如『他可厉害了』在脱离上下文的情况下我自己都不知道这是捧还是讽,只能说,真是难为机器们了。

对于这个事情本身,我没什么资格评价。自己作为一个前端新手,双方的论战都让我受益匪浅。感谢一直奋斗在前线的同志们,也感谢一直泼冷水的前辈们。

来源:汪海的实验室

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

本公众号专注大数据和数据科学领域,分享领域知识和相关技术文章,探索大数据商业价值,培养和挖掘大数据专业人才,欢迎大家关注!

0 人点赞