最新 最热

Hadoop 的 Secondary Sorting

这几天项目中使用 Hadoop 遇到一个问题,对于这样 key-value 的数据集合:id-biz object,对 id 进行 partition(比如根据某特定的 hash 算法 P),分为 a 份;使用数量为 b 的 reducer,在 reducer 里面要使用第三方组件进行批量上...

2022-07-18
0

Hadoop 的 Map-side join 和 Reduce-side join

Hadoop 中连接(join)操作很常见,Hadoop“连接” 的概念本身,和 SQL 的 “连接” 是一致的。SQL 的连接,在维基百科中已经说得非常清楚。比如 dataset A 是关于用户个人信息的,key 是用户 id,value 是用户姓名等等个人信息;dat...

2022-07-18
1

给我一把榔头,满世界都是钉子

一篇文章存成一个巨大的文件,总共大约有一亿个单词,要找出里面重复次数最多的。怎么做?

2022-07-18
1

不适合 Hadoop 解决的问题

因为项目的需要,学习使用了 Hadoop,和所有过热的技术一样,“大数据”、“海量” 这类词语在互联网上满天乱飞。Hadoop 是一个非常优秀的分布式编程框架,设计精巧而且目前没有同级别同重量的替代品。另外也接触到一个内部...

2022-07-15
0

Notes: Hadoop-based open source projects

Here's my notes about introduction and some hints for Hadoop-based open source projects. Hope it's useful to you.

2022-07-15
1

Hadoop完全分布式环境搭建(三节点)

本篇引用文章地址: https://blog.csdn.net/u014454538/article/details/81103986

2022-07-15
1

Hadoop3.0基础平台搭建(三节点),以及案例运行并使用python生成词云

软件包下载地址: 链接: https://pan.baidu.com/s/1dvf4o8i9J02fmUu3SMRyDw 提取码: 3dk3

2022-07-15
0

Hadoop3.0基础平台搭建(三节点),以及案例运行并使用python生成词云

链接: https://pan.baidu.com/s/1dvf4o8i9J02fmUu3SMRyDw 提取码: 3dk3

2022-07-14
0

Spark编程基础(Python版)

https://spark.apache.org/docs/1.1.1/quick-start.html

2022-07-14
1

使用HDFS dfs命令对文件进行增删改查操作

例如我现在位于/usr/local/source路径下面,我想把当前路径下的Hadoop-2.7.3.tar.gz上传到hdfs上面,hadoop-2.7.3.tar.gz这个文件大概是200M左右,那么它将会被分成2块,因为hdfs默认的块大小是128M....

2022-07-14
0