场景体验目标
数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。
本场景将通过开通登录EMR Hadoop集群,简单进行hive操作,使用hive对数据进行加载,计算等操作。展示了如何构建弹性低成本的离线大数据分析。
体验此场景后,可以掌握的知识有:
1.EMR集群的基本操作,对EMR产品有初步的了解
2.EMR集群的数据传输和hive的简单操作,对如何进行离大数据分析有初步的掌握
产品优势
开源生态:提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件,客户可根据场景灵活搭配使用
引擎优化:多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS OSS,保证数据可靠性基础上,性能大幅提升
弹性资源:可以灵活调整集群资源,在数分钟内创建出基于云服务器 ECS、容器 ACK的集群,快速响应业务需求
安全可靠:通过 和安全组设置集群网络安全策略,支持Kerberos身份认证和数据加密,使用Ranger数据访问控制。支持数据加密,保证数据安全
登陆集群
上传数据到HDFS
1.创建HDFS目录。
代码语言:javascript复制hdfs dfs -mkdir -p /data/student
2.上传文件到hadoop文件系统。 a. 使用以下命令下载示例数据文件到服务器内:
代码语言:javascript复制wget https://labfileapp.oss-cn-hangzhou.aliyuncs.com/公共文件/u.txt
b. 上传文件到hadoop文件系统。
代码语言:javascript复制hdfs dfs -put u.txt /data/student
3.查看文件
代码语言:javascript复制hdfs dfs -ls /data/student