前言
上一节我们已经了解了一下EMR,这次就跟着我一起去创建集群吧。超级简单的!!!
一、集群搭建的准备工作
1:首先拥有腾讯云账号
2:确定需求、确定地域、私有网络(需要和EMR的地域同步)、安全组
确定地域:EMR集群搭建的地理位置,由于集群是通过公网访问,一般建议选择接近企业所在位置,网络传输效率会更快。
安全组:安全组在云端提供类似虚拟防火墙功能,实现对网络端口的访问控制,是一种重要的安全隔离手段。安全组是集群的访问策略,即出入站规则。一般来说需要开放22、80等端口。
3:EMR计费方式:
a:按量计费。即集群所有节点的设备全部是按量计费的模式,该模式的好处是随时释放集群。
b:包年包月。集群所有节点采用包年包月的计费模式。
二、各个EMR版本包含的组件和组件版本
三、集群搭建步骤
1、创建安全组。
安全组是针对CVM的,先要找到云主机。
安全组放行的IP相当于白名单
腾讯云主页-----》控制台----》云产品----》云服务器----》安全组。步骤如下图:
2、搭建EMR集群
腾讯云主页-----》控制台----》云产品----》弹性MapReduce----》创建集群。
腾讯云弹性 MapReduce 由一系列大数据生态的开源应用程序组成。每个弹性 MapReduce 的版本,包含了一组特定版本的开源程序。创建集群的时候,可以选择对应的 EMR 版本。
注意:
- EMR 版本会定期升级,类似 EMR-V1.3.1、EMR-V2.0.1、EMR-V2.1.0。
- 每一个版本上捆绑的组件和组件的版本都是固定的。目前还不支持组件的多个不同版本的选择,也不支持用户自行更改组件的版本。例如在 EMR-V2.0.1 中内置的是 Hadoop 2.7.3、Spark 2.2.1 等。
- 一旦选择了 EMR 某个版本创建集群,该集群使用的 EMR 版本和组件版本不会自动升级,例如选 EMRV2.0.1 版本,那么 Hadoop 就一直保持在2.7.3,Spark 就一直保持在2.2.1。后续如果版本升级到了EMR-V2.1.0,Hadoop 到了2.8.4,Spark 到了2.3.2也不会影响到已经创建出来的集群。只有新的集群才会使用新的镜像。
- 当您通过数据迁移的方式升级集群版本的时候,例如从 EMR-V2.0.1 升级到 EMR-V2.1.0,为防止一些升级不兼容,环境变化等,请务必测试需要迁移的任务,保证在新的软件环境中能正常运行。
3、其他配置
1、所属项目
该集群所在的项目
2、集群名称
用于区分集群,创建后可以修改
3、远程登录
开启后,可以选择使用xshell等远程工具登录。
4、对象存储
开启后,EMR集群可以读取分析COS上的数据
4、用户名密码
用户名默认名称root,可以修改。
EMR 密码分两个密码:"机器登录密码" 和 "EMR-UI快捷入口密码"
机器登录密码:如果不使用密钥登录,EMR集群中的机器节点,将采用密码方式登录。反之将需要密钥登录机器,密码对机器的登录将失效。
EMR-UI快捷入口密码:EMR提供了集群UI快捷入口,帮助用户查看集群各种状态。快捷入口将采用该密码进行合法验证。
完成这几项操作就可以,等待十几分钟,您想要的集群就会创建好。即可在EMR控制台中找到刚刚创建的集群(集群生产需要一定的时间)。
四、集群销毁
操作步骤
- 登录 EMR控制台,在左侧栏选择【集群列表】。
- 在实例列表的【管理】列,选择【更多】>【销毁】进入销毁页,勾选已阅读同意销毁说明,点击下一步。
3.点击开始销毁,即可销毁集群。