最新 最热

ChunJun框架在数据还原上的探索和实践 | Hadoop Meetup精彩回顾

Hadoop是Apache基金会旗下最知名的基础架构开源项目之一。自2006年诞生以来,逐步发展成为海量数据存储、处理最为重要的基础组件,形成了非常丰富的技术生态。...

2022-10-28
1

原来Unix设计实现正是这种思想应用的典范!

分治(Divid and Conquer)思想,是一种古老的、非常有效的思想。传说,罗马帝国的凯撒大帝就是采用这一思想策略征服了高卢人。

2022-10-28
1

Centos7安装hadoop

VMWare下centos7,通过官网下载hadoop的linux版本并解压配置环境后运行hadoop version显示bash:hadoop:未找到命令,在确定安装和环境配置上没问题后开始逐渐查找问题...

2022-10-28
1

Hadoop代做编程辅导:CA675 TF-IDF

大数据作业,利用Hadoop去跑数据集,先是几个基本的MapReduce简单问题,当然也可以用Hive,然后是去计算TF-IDF,当然,数据集得自己下,Hadoop平台也得自己去搭。...

2022-10-27
1

Hadoop伪分布式搭建

1.关闭防火墙2. 安装JDK3.修改主机名,在Hadoop中,要求主机名中不能出现_和-cd /etc/sysconfigvim network修改HOSTNAME,主机名最好是字母或者数字,但是不能全部是数字,数字最好不作为开头。例如:HOSTNAME=hadoop01保存退出,...

2022-10-27
1

Hbase的基本操作

要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,批量访问和流式访问都...

2022-10-27
1

Hadoop分布式文件系统HDFS

HDFS中的三种角色:namenode(核心节点),datanode(数据节点),客户端

2022-10-27
1

HDFS原理概念扫盲

hdfs文件系统主要设计为了存储大文件的文件系统;如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候,一个文件只能存储在个服务器上,可想而知,单个服务器根本就存储不了这么大的文件;退而求其次,就算一个服务...

2022-10-27
1

HDFS-集群扩容及缩容

白名单:在白名单的主机IP地址可以访问集群,对集群进行数据的存储。不在白名单的主机可以访问集群,但是不会在主机上存储数据企业中:配置白名单,可以尽量防止黑客恶意访问攻击。...

2022-10-27
1

Uber 是如何提高 HDFS I/O 利用率的

以较低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。为了适应 Uber 数据存储和分析计算的指数级增长,数据基础设施团队通过结合硬件重新设计软件层,以扩展 Apache Hadoop® HDFS :...

2022-10-27
0