最新 最热

《快学BigData》--Hadoop总结(A)(34)

Hadoop 是一个性能、可靠性、可扩展性、可管理性的软件,为以后的分布式打下了基础,接下来咱们好好的深刨一下这个有意思的框架。

2023-03-06
1

数仓变局:探析Teradata退出中国市场原因及影响

对Teradata大中华区员工来说,公司退出中国早在预料之中,因为,早在2019年就已初现端倪,撑了3年多已属不易。

2023-03-02
0

2.X版本的一个通病问题

对于配置了HA模式的RM或者NN,客户端如果向standby的节点发送请求,会因为不可连接或standby拒绝提供服务导致请求失败,转而向Active的节点发送请求,这个转换是hadoop客户端内部自动完成的,无须上层业务感知(本质上是向其中一...

2023-02-28
0

hive etl 通过 ETL engine 读取 Hive 中的数据

etl-engine支持None和Kerberos认证方式,适合测试环境及企业应用中的认证场景。

2023-02-28
1

ERROR [master/hq555:16000:becomeActiveMaster] master.HMaster: Failed to become active master

由于 hadoop 此时是 standby 状态,所以不能从 hadoop 上去读取 hbase.rootdir 中的文件,导致异常的发生。 解决问题:

2023-02-25
1

JSON综合性复杂案例

查询成绩为80分以上的学生的基本信息与成绩信息 Student.json {"name":"Leo", "score":85} {"name":"Marry", "score":99} {"name":"Jack", "score":74}...

2023-02-25
1

自动分区推断

表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录名推断...

2023-02-25
1

Spark整体架构

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享...

2023-02-25
0

Spark的特点

·速度快:Spark基于内存进行计算(当然也有部分计算基于磁盘,比如shuffle)。

2023-02-25
1

sqoop简介及安装配置

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。

2023-02-25
1