用Hue分析马老师的B站视频弹幕----我发现了一个新词

2021-04-09 14:29:40 浏览数 (1)

代码语言:javascript复制
CREATE DATABASE IF NOT EXISTS test;

use  test;

创建数据库

代码语言:javascript复制
create external table MBGAnalyse (dm_time STRING,send_date STRING,send_month STRING,send_time STRING,text STRING,user_id STRING) row format delimited fields terminated by ',';

load data inpath '/user/hive/warehouse/ababaaba/biliMBG.csv' into table MBGAnalyse;

创建表导入关于马老师的B站弹幕数据

代码语言:javascript复制
SELECT word ,count(1) as count FROM 
(SELECT explode(split(regexp_replace(ma.text,'[^A-Za-z0-9\u4e00-\u9fa5]',''),' '))as word  FROM mbganalyse ma) W
GROUP BY word
ORDER BY word desc ;

正则匹配马老师的中文弹幕, 最后对筛选的数据做词频统计

词频第一竟然不是脱口而出的"不讲武德" 而是"鳎目说"

第二,第三的分别是鳎蟆说,鸪鹧

关于鸪鹧是什么,笔者特意搜狗了一下

原来如此,学费了学费了

0 人点赞