代码语言:javascript复制
CREATE DATABASE IF NOT EXISTS test;
use test;
创建数据库
代码语言:javascript复制create external table MBGAnalyse (dm_time STRING,send_date STRING,send_month STRING,send_time STRING,text STRING,user_id STRING) row format delimited fields terminated by ',';
load data inpath '/user/hive/warehouse/ababaaba/biliMBG.csv' into table MBGAnalyse;
创建表导入关于马老师的B站弹幕数据
代码语言:javascript复制SELECT word ,count(1) as count FROM
(SELECT explode(split(regexp_replace(ma.text,'[^A-Za-z0-9\u4e00-\u9fa5]',''),' '))as word FROM mbganalyse ma) W
GROUP BY word
ORDER BY word desc ;
正则匹配马老师的中文弹幕, 最后对筛选的数据做词频统计
词频第一竟然不是脱口而出的"不讲武德" 而是"鳎目说"
第二,第三的分别是鳎蟆说,鸪鹧
关于鸪鹧是什么,笔者特意搜狗了一下
原来如此,学费了学费了