最新 最热

The BigData,Hadoop组成及生态

随着科技的发展,我们在网上留下的数据越来越多,大到网上购物、商品交易,小到浏览网页、微信聊天、手机自动记录日常行程等,可以说,在如今的生活里,只要你还在,你就会每时每刻产生数据,但是这些数据能称为大数据么?不,这些还不能...

2021-05-21
0

Hadoop 分布式集群安装

Hadoop 从 2.x 开始,逐渐演变成:HDFS,YARN,MapReduce 三大应用模块,这三个应用模块分别的能力和作用是:

2021-05-18
1

Hive个人笔记总结

①保证环境变量中有JAVA_HOME ②基于HADOOP工作,保证环境变量中有HADOOP_HOME ③在环境变量中配置HIVE_HOME,默认hive在启动时,会读取HIVE_HOME/conf中的配置文件...

2021-05-14
0

MapReduce词频统计【自定义复杂类型、自定义Partitioner、NullWritable使用介绍】

InputFormat读数据,通过Split将数据切片成InputSplit,通过RecordReader读取记录,再交给map处理,处理后输出一个临时的<k,v>键值对,再将结果交给shuffle处理,最终在reduce中将最后处理后的<k,v>键值对结果通过OutputFormat重...

2021-05-14
0

Yarn框架深入理解【Yarn集群配置】

我们都知道Hadoop诞生的目标是为了支持十几台机器的搜索服务,但是随着数据的增加,数据的可用性也是一个待解决的问题。但是Hadoop框架的自身问题限制了集群的发展。...

2021-05-14
1

Java 分布式任务调度平台:PowerJob 快速开始+配置详解

PowerJob 的设计目标为企业级的分布式任务调度平台,即成为公司内部的调度中间件。整个公司统一部署调度中心 powerjob-server,旗下所有业务线应用只需要依赖 &#x27;powerjob-worker&#x27; 即可接入获取任务调度与分布式...

2021-05-14
1

PowerJob 的故事开篇:“玩够了,才有激情做开源啊!”

HelloGitHub 推出的《讲解开源项目》[1]系列。经过几番的努力和沟通,终于邀请到分布式任务调度与计算框架:PowerJob 的作者 Salieri,加入 HG 的开源讲解系列,开启了他的 P...

2021-05-14
1

PowerJob 应对庞大任务的锦囊妙计:MapReduce

HelloGitHub 推出的《讲解开源项目》系列。讲解 PowerJob 系列即将接近尾声,本系列的干货你还喜欢吗?欢迎留言说下你的感受和后面想看的内容。

2021-05-14
1

看技术的角度

每次面试,我都是幸运的,就像校招的时候,被问到了一个曾经研究过的脑力题一样。这回,也没有像一部分同仁那样,来回的跑,专场,半天完事,剩下的就是等流程,虽然现在还是没有完全的尘埃落定,但起码我做了我能做的,行不行的看上帝心情...

2021-05-14
0

热传导算法 从入门到放弃

热传导和物质传播其实也是基于random walk 理论设计的,和之前提到的基于图的随机游走算法如出一辙。

2021-05-14
0