最新 最热

(三)HDFS配置多目录与支持LZO压缩

3)增加磁盘后,保证每个目录数据均衡 开启数据均衡命令: bin/start-balancer.sh –threshold 10 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。 停止数据均衡命令: bin/stop-ba...

2020-09-21
0

(七)Hive总结

Hive 和数据库除了拥有类似的查询语言,再无类似之处。 1)数据存储位置 Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。 2)数据更新 Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修...

2020-09-20
0

大数据简介,技术体系分类整理

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术则主要用来解决海量...

2020-09-19
1

Hadoop框架:单服务下伪分布式集群搭建

以下配置文件所在路径:/opt/hadoop2.7/etc/hadoop,这里是Linux环境,脚本配置sh格式。

2020-09-18
1

Hadoop之MapReduce开发总结

(1)默认使用的实现类是:TextInputFormat (2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。 (3)KeyValueTextInputFormat每一行均为一条记录,被分隔符分割为key,value。默认分...

2020-09-18
0

MapReduce案例之寻找共同好友

以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) 求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?...

2020-09-18
0

MapperReduce常见错误及解决方案

1)导包容易出错。尤其Text和CombineTextInputFormat。 2)Mapper中第一个输入的参数必须是LongWritable或者NullWritable,不可以是IntWritable. 报的错误是类型转换异常。 3)java.lang.Exception: java.io.IOExcepti......

2020-09-18
0

python六十一课——高阶函数之reduce

2).reduce(fn,lsd):参数一:fn --> 函数对象参数二:lsd --> 序列对象功能:先将lsd中的第一和第二个元素去除传入到fn中参与运算,运算后得到结果,再和第三个元素传入到fn中参与运算,以此类推...【注意】:reduce函数属于functool...

2020-09-16
0

【Java基础-1】 Java8新特性Stream详解

Java8的API中添加了一个新的特性: 流,即stream。stream是将数组或者集合的元素视为流,流在管道中流动过程中,对数据进行筛选、排序和其他操作。

2020-09-16
0

干货 | 日均TB级数据,携程支付统一日志框架

英明,携程数据研发专家,负责支付离线数据仓库建设及BI业务需求,对并行计算、大数据处理及建模等有浓厚兴趣。

2020-09-15
0