基于EMR离线数据分析

数据量爆发式增长的今天，数字化转型成为IT行业的热点，数据需要更深度的价值挖掘，应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境，例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

本场景将通过开通登录EMR Hadoop集群，简单进行hive操作，使用hive对数据进行加载，计算等操作。展示了如何构建弹性低成本的离线大数据分析。

体验此场景后，可以掌握的知识有：

1.EMR集群的基本操作，对EMR产品有初步的了解

2.EMR集群的数据传输和hive的简单操作，对如何进行离大数据分析有初步的掌握

开源生态：提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件，客户可根据场景灵活搭配使用

引擎优化：多引擎性能优化，如Spark SQL较开源版本提升6倍。采用JindoFS OSS，保证数据可靠性基础上，性能大幅提升

弹性资源：可以灵活调整集群资源，在数分钟内创建出基于云服务器 ECS、容器 ACK的集群，快速响应业务需求

安全可靠：通过和安全组设置集群网络安全策略，支持Kerberos身份认证和数据加密，使用Ranger数据访问控制。支持数据加密，保证数据安全

1.创建HDFS目录。

代码语言：javascript复制

hdfs dfs -mkdir -p /data/student

2.上传文件到hadoop文件系统。 a. 使用以下命令下载示例数据文件到服务器内：

代码语言：javascript复制

wget https://labfileapp.oss-cn-hangzhou.aliyuncs.com/公共文件/u.txt

b. 上传文件到hadoop文件系统。

代码语言：javascript复制

hdfs dfs -put u.txt /data/student

3.查看文件

代码语言：javascript复制

hdfs dfs -ls /data/student

0 人点赞