基于EMR离线数据分析

2022-03-09 14:10:37 浏览数 (1)

场景体验目标

数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

本场景将通过开通登录EMR Hadoop集群,简单进行hive操作,使用hive对数据进行加载,计算等操作。展示了如何构建弹性低成本的离线大数据分析。

体验此场景后,可以掌握的知识有:

1.EMR集群的基本操作,对EMR产品有初步的了解

2.EMR集群的数据传输和hive的简单操作,对如何进行离大数据分析有初步的掌握

产品优势

开源生态:提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件,客户可根据场景灵活搭配使用

引擎优化:多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS OSS,保证数据可靠性基础上,性能大幅提升

弹性资源:可以灵活调整集群资源,在数分钟内创建出基于云服务器 ECS、容器 ACK的集群,快速响应业务需求

安全可靠:通过 和安全组设置集群网络安全策略,支持Kerberos身份认证和数据加密,使用Ranger数据访问控制。支持数据加密,保证数据安全

登陆集群

上传数据到HDFS

1.创建HDFS目录。

代码语言:javascript复制
hdfs dfs -mkdir -p /data/student

2.上传文件到hadoop文件系统。 a. 使用以下命令下载示例数据文件到服务器内:

代码语言:javascript复制
wget https://labfileapp.oss-cn-hangzhou.aliyuncs.com/公共文件/u.txt

b. 上传文件到hadoop文件系统。

代码语言:javascript复制
hdfs dfs -put u.txt /data/student

3.查看文件

代码语言:javascript复制
hdfs dfs -ls /data/student
emr

0 人点赞