最新 最热

大数据面试题百日更新_Hadoop专题(Day09)

Map的输出到内存 Map将数据传入环形缓冲区,默认100MB 可修改,环形缓冲区中的数据到达一定的阈值时,默认0.8 可修改,进行溢写生成好多临时文件,多个临时文件到达10个(可以调整)merge合并成一个大文件。 Reduce数据读取 reduce...

2021-04-09
0

Hbase快速入门(安装部署)

文章目录安装包已上传在我的资源配置Hbase环境变量启动ZK启动hadoop启动hbase启动hbase shell客户端输入status安装包已上传在我的资源集群搭建 2.1 安装 2.1.1 上传解压HBase安装包tar -xvzf hbase-2.1.0.tar.gz -C ...

2021-04-09
1

原来Python函数只是个对象

写Python越多,写函数越多,于是乎有人觉得Python是函数式语言,其实不然,Python只是从函数式语言中借鉴了一些好的想法而已。

2021-04-09
0

知行教育项目_Hive参数优化

我们知道传统的OLTP数据库一般都具有索引和表分区的功能,通过表分区能够在特定的区域检索数据,减少扫描成本,在一定程度上提高查询效率,我们还可以通过建立索引进一步提升查询效率。在Hive数仓中也有索引和分区的概念。...

2021-04-09
0

MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法

计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日志信息传输到map 或reduce 任务, 更好的方法通常是看能否用一个计数器值来记录某一特定事件的发生。对于...

2021-04-09
0

常见的数组基本用法

ES5方法:pop push shift unshift reverse sort splice

2021-04-09
0

hadoop学习随笔-入门阶段

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-22uhcfxh-1617677655640)(D:Code_Study博客笔记Hadoop学习笔记.assets1604300154815.png)]

2021-04-09
0

Eat pyspark 2nd day | 1小时看懂Spark的基本原理

不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍。...

2021-04-08
1

Java8 新特性 —— Stream 流式编程

集合优化了对象的存储,大多数情况下,我们将对象存储在集合是为了处理他们。使用流可以帮助我们处理对象,无需迭代集合中的元素,即可直接提取和操作元素,并添加了很多便利的操作,例如查找、过滤、分组、排序等一系列操作。...

2021-04-07
0

数仓面试高频考点--解决hive小文件过多问题

hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式

2021-04-07
0