EMR(弹性MapReduce)入门之初识EMR(一)

2020-01-17 10:48:28 浏览数 (1)

一、前言


现在混迹技术圈的各位大佬,谁还没有听说过“大数据”呢?提起“大数据”不得不说就是Google的“三架马车”:GFS,MapReduce,Bigtable,分别代表着分布式文件系统、分布式计算、结构化存储系统。可以说这“三架马车”是大数据的基础。

二、EMR系统架构


弹性 MapReduce 的软件完全源于开源社区中的 Hadoop 软件,您可以将现有的大数据集群无缝平滑迁移至腾讯云上。弹性 MapReduce 产品中集成了社区中常见的热门组件,包括但不限于 Hive、Hbase、Spark、Presto、Sqoop、Hue 等,可以满足您对大数据的离线处理、流式计算等全方位需求。接着跟着我的讲述去认识一下EMR吧!!!下面的图便是EMR的系统架构图:

EMR架构EMR架构

经过上图我们可以看出:EMR部署在腾讯云平台(CVM)上,配合消息中间件、CDB等产品为企业提供了一套较为完善的大数据处理方案。

底层的存储系统:对象存储(Cloud Object Storage,COS)和HDFS;

资源管理器:Yarn;

计算引擎:Spark、Tez、MapReduce;

流式处理:Flink、Storm;

数据库及数据库工具:HBase、Phoenix、Kylin、Presto、Impala、Hive;

工具和应用:Hue、Ranger、Oozie、Sqoop、Flume、Ganglia、Alluxio

三、EMR节点类型


EMR 提供了5种节点类型, 注意: 高可用集群节点最小节点数为8个,包含2个 Master 节点,3个 Common 节点,最少3个 Core 节点。非高可 用集群存储为单副本,可作为测试使用,不建议作为生产环境,最小节点数为3个,包含1个 Master 节点, 最少2个 Core 节点。

EMR节点类型EMR节点类型
  • Master 节点为管理节点,保证集群的调度正常进行。
  • Core 节点为计算及存储节点,在 HDFS 中的数据全部存储于 Core 节点中,因此为了保证数据安全,扩容 Core 节点后不允许缩容。
  • Task 节点为纯计算节点,不存储数据,被计算的数据来自 Core 节点及 COS 中,因此 Task 节点往往被作为弹性节点,可随时扩容和缩容。
  • Common 节点为 HA(高可用) 集群 Master 节点提供数据共享同步以及高可用容错服务。
  • Router 节点用以分担 Master 节点的负载或者作为集群的任务提交机,可以随时扩容和缩容。

四、EMR集群产品优势


与自建 Hadoop 相比,弹性 MapReduce 能提供更方便、更安全、更可靠的云端 Hadoop 服务。

灵活

只需几分钟即可获得一个安全可靠的 Hadoop 集群,以运行 Hive、Spark、Presto 等主流开源大数据计算框架。可对一个已有的弹性 MapReduce 集群进行快速的弹性伸缩,以在变动的业务部门数据分析需求与高昂 IT 硬件成本之间快速获得平衡点。

可靠

Master 节点容灾设计,备节点秒级拉起,保障大数据服务可用性。

完善的监控体系建设,您可以通过短信渠道秒级感知集群组件及任务的运行异常状况。

支持将 Hive 元数据存放于 TencentDB,元数据可靠性达99.9996%。

支持分析存放于 COS 的高存储耐久性的 PB 级数据。

集群默认开启回收站功能。

安全

可通过便捷的 VPC 网络安全隔离手段规划托管 Hadoop 集群网络策略,支持网络 ACL 和安全组,可从子网和主机维度筛选流量,全方位满足网络安全需求。腾讯云品质的安全加固服务为 EMR 集群提供一体化的安全服务,涵盖网络防护、入侵检测、漏洞防护等。

易用

可以响应业务需求创建不同版本的集群分析 COS 上的同一份数据。可以借助开箱即用的 Hue、Oozie 等社区组件随心分析位于数据节点或 COS 上的 PB 级数据,无需担心产生任何知识迁移成本。

节约成本

通过 EMR 服务,可以按业务曲线随心伸缩托管 Hadoop 集群,缩减高昂的硬件成本。丰富的运维工具支持,大幅提升运维工作效率,让工程师更专注于业务本身的商业价值,摆脱重复搭建监控、安全、运维工具等基础设施。

五、EMR集群产品功能


弹性伸缩

分钟级集群创建:通过控制台数分钟就可创建一个安全、稳定的云端托管 Hadoop 集群。

分钟级集群扩缩容:仅需数分钟即可对现有 EMR 集群进行平滑扩缩容,以适应互联网业务需求的快速变化。

API 支持:支持通过 API 方式便捷的在程序中创建、扩缩容、销毁 EMR 集群。

存储计算分离

集群内存储计算分离:集群内支持按照存储节点、计算节点的模式来规划云端 Hadoop 集群,以支持客户对计算节点的随意伸缩来降低硬件成本。

基于 COS 的存储计算分离:支持把待分析海量数据存放于 COS,在通过 COS 规模化效应降低存储成本的同时,您还可以创建不同 EMR 版本分析同一份数据,这将为您带来极度的架构灵活性。

运维支撑

监控与多渠道告警:提供完善的监控运维体系,对包含 Spark、Hive、Presto 等在内的组件异常和任务异常的秒级感知,以保障大数据集群的稳健运行。

技术服务支持:在提供完善技术文档之外,还支持包含邮件、QQ、微信等渠道在内的技术服务体系,为客户提供完备的技术支持。

安全

EMR 创建的 CVM 子机同时会创建安全组来限制外网访问。各组件 Web UI 均通过其中一台有外网 IP 的子机进行访问,并且通过用户名和密码进行验证,有外网 IP 的子机安全组只开放 SSH 端口和代理访问端口。

注意:CVM 子机如果更换项目会导致 CVM 安全组丢失

0 人点赞