最新 最热

每天一道大厂SQL题【Day10】电商分组TopK实战

大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。...

2023-02-16
1

27万名患者信息泄露,美国路易斯安那州医院遭勒索攻击

据BleepingComputer 12月28日消息,位于美国路易斯安那州的查尔斯湖纪念医院 (LCMHS) 发出通告称,该院近期发生了一起网络勒索攻击事件,近27万名患者信息遭到泄露。...

2023-02-10
1

基于InLong采集Mysql数据

目前用户常用的两款大数据架构包括EMR(数据建模和建仓场景,支持hive、spark、presto等引擎)和DLC(数据湖分析场景,引擎支持spark、presto引擎),其中EMR场景存储为HDFS(支持本地盘和对象存储cos),数据格式支持Iceberg、orc、parq...

2023-02-03
1

金三银四V2.0之大数据面试常见的10个问题

面试官你好,我是面试咱们公司大数据开发实习岗位的xxx,曾就读于xx学校数据科学与大数据专业,2022年毕业。

2023-02-01
1

HBase查询一张表的数据条数的方法

可以看到「使用count查询表的数据条数」这个操作可能需要消耗过长时间(运行'$HADOOP_HOME/bin/hadoop jar hbase.jar rowcount' 来运行计数 mapReduce 作业)。...

2023-01-31
1

Hive命令使用记录

命令查询的结果,但不同的是Hadoop dfs 每次运行的时候都会单独启用一个JVM, 而

2023-01-31
1

执行Hive查询时出现OOM

使用的是缺省参数每个task分配200M内存「mapred.child.java.opts」

2023-01-31
1

DataGrip连接Hive执行DDL操作报错

DataGrip连接Hive执行DDL操作报错:「FAILED: ParseException line 1:5 cannot recognize input near ‘show‘ ‘indexeson` in ddl statement」❝本文首发于「CSDN」❞

2023-01-31
1

2022年算法工作总结

分析用户特征和留存的关系时,使用了 dtale 这个包来手动分析,这个包可视化还挺好的,但是我面对的是很多种组合分析,手动点鼠标要累死我啊

2023-01-13
1

Hive和Hbase集成及互相操作

Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive本身不存储数据,它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的SQL查询功能,并将SQL语句最终转换为MapReduce任务...

2023-01-11
1