集群搭建成功之后,为了方便自我监控。集群自带有监控和告警。一起来看看吧!
监控系统
监控入口
登录【控制台】,选择【弹性MapReduce】进入左侧的【集群监控】,可以看到监控分为服务监控与主机监控
想看集群监控时,一定要选择属于自己集群的所在地区和集群名称。
在这里可以看到NN的数据量、连接数等信息。也可以根据自己的时间进行查看。
告警系统
告警入口
登录【控制台】,通过点击【云产品】找到【云监控】进入:打开之后如下图界面
告警的概述
在某些产品状态改变时,可以创建告警来及时通知您采取措施。告警在一定周期内监控某些特定指标,并根据给定的阈值,每隔若干个时间段发送告警。
告警包含以下几个组成部分:
告警触发条件(什么条件下发送告警)
告警对象(哪个对象发出告警)
告警接收组(谁接到告警)
告警接收方式(怎么接收告警)
创建告警策略
- 登录 云监控控制台。
- 单击【告警配置】>【告警策略】,进入告警策略配置页面。
- 单击【新增】,配置告警策略。
- 配置基础选项,配置说明如下:
- 策略名称:填写策略名称。
- 备注:填写策略备注。
- 策略类型:选择监控项。
- 所属项目:根据需求选择项目。
5. 配置告警对象。
- 选中全部对象,则该告警策略绑定当前账号的全部实例。
- 选中选择部分对象,则该告警策略绑定用户选中的实例。
- 选中选择实例组,则该告警策略绑定用户选中的实例分组。
6. 设置告警触发条件。有两种方式,触发条件模板和配置触发条件,您可选择其中一种触发条件。
- 触发条件模板 开启触发条件模板,并在下拉列表选择已配置的模板。若新建的模板没有显示,则单击右侧的【刷新】,即可刷新触发告警模版选择列表。
配置触发条件
开启配置触发条件,触发条件分为指标告警和事件告警。
告警触发条件是指标、比较关系、阈值、统计周期和持续周期组成的一个有语义的条件。例如指标为CPU利用率、比较关系为>、阈值为80%、统计周期为5 分钟、持续周期为2 个周期表示:每 5 分钟收集一次CPU利用率数据,若某台云服务器的 CPU 利用率连续两次大于80%则触发告警。
可以为每一条告警规则设置重复通知策略。即当告警产生时,可以定义告警以特定的频率重复通知。
可选:不重复、5分钟、10分钟、周期指数递增...等重复频率。
周期指数递增的含义是当该告警第1次、第2次、第4次、第8次...第2的N次方次被触发时,向您发送告警信息。意义是告警信息发送时长间隔将越来越长,一定程度上避免重复告警对您的骚扰。
7. 配置告警渠道。
根据需求,配置告警接收组、有效时段、接收渠道(邮件、对象、微信)。
注意:
云服务器告警需要云服务器实例安装监控控件上报监控指标数据后才能正常发送。在云产品监控页面可以查看未安装监控 agent 的云服务器,并下载 IP 列表。
8. 您可以将已有的策略设为默认告警策略,新购买的云服务器会自动关联默认策略。
注意:
- 每种策略类型每个项目仅有一个默认策略。
- 设置为默认的告警策略不可删除。
- 为方便用户操作,云监控会自动创建默认云服务器策略(告警触发条件为磁盘只读、ping 不可达)和默认云数据库策略(磁盘占用空间 > 90MB或磁盘使用率 >80% 持续5分钟)