7 月 28 日,在袋鼠云 2022 产品发布会上,袋鼠云技术负责人思枢正式宣布旗下产品「大数据基础平台 EasyMR」发布。
EasyMR 是袋鼠云自研的大数据基础平台,提供 Hadoop、Hive、Spark、Trino、HBase、Kafka 等组件,完全兼容 Apache 开源生态;支持企业级安全管控,一键开启 LDAP Kerberos Ranger 认证权限体系;提供一站式运维管理平台,帮助企业快速构建大数据平台,降低运维成本。
结合袋鼠云在数字化领域多年的寸积铢累,此次全新发布的大数据基础平台 EasyMR 紧跟开源生态的先进技术,不仅可以帮助客户轻松应对海量数据的采集、存储、计算、分析挖掘和数据安全等应用场景,并且对于智能运维的部署、升级、扩缩容、监控等进行全方位支持,真正做到成为企业便捷、智能、高效的 “数据底座”。
六大特性打造国产大数据基础平台
不同于十年前的新奇,现在大家已经完全习惯自己身处于 “大数据时代” 这件事情,所有人都能够深切地感受到大数据对于生活带来的各种改变和便利,数据爆发的时代推动着每个个人、企业、行业,甚至是国家往前走。
当前国际形势风云变幻,中美双边关系的割裂,国家对于信创国产化的大力支持,给国内的大数据行业带来巨大冲击的同时,也带来了全新机遇。
数据基础平台作为一切的基础和底座,自然成为国产替代的重中之重。只有真正拥有了自主可控的平台建设能力,才能逐步建立基于自己的 IT 底层架构和标准,形成自有开放生态。
EasyMR 就是这样一款自主研发、完全可控的,致力于助力企业信息化智慧转型的 “企业数据底座”。
下面通过描述 EasyMR 的主要特性,来具体说说,EasyMR 是如何帮助企业实现智能的?
● 界面化集群运维
Hadoop 集群、大数据平台在日常运维中涉及到的节点扩容缩容、组件停止启动、服务滚动重启、服务参数修改、版本升级与回滚等多种运维操作,通过逻辑化、流程化的产品界面展现,方便运维人员操作和监控,提高运维效率。
● 自动化部署
EasyMR 通过规范化的步骤和参数约定制作出产品安装包,发布包中的 Schema 文件中配置了安装包中所有的服务,包含各服务的配置参数、健康检查参数,服务之间的依赖关系等。产品部署时可根据 Schema 中的相关配置实现一键全自动化部署。
● 仪表盘集群监控
通过集成开源的 Promethus 和 Grafana,实现对集群、服务、节点的核心参数监控,并通过灵活形象的仪表盘进行数据展现。包含 CPU 占用率,RAM 使用率、磁盘空间、IO 读写速率等核心参数进行监控,实时掌握集群、服务、节点的运行状态,降低运维故障率。同时,支持用户自建仪表盘及监控项,实现自定义监控项。
● 实时告警
支持实时监控集群中各组件服务的运行指标,如 CPU、内存、磁盘、读写 IO 等,并支持短信、钉钉、邮件告警通道配置,集成多种第三方消息插件。当集群服务出现异常时,可触发告警条件,系统将及时通知接收人。
● 强扩展性
通过自研的 Easyagent Server 抽象出七大 REST 接口,安装、启动、停止、更新、配置修改、卸载、执行等与上层应用进行交互,可使 agent 类别和功能可轻松无限扩展。
● 安全稳定
数据安全、产品安全是大数据产品需要重点考虑的问题。EasyMR 在产品设计中过滤掉 rm、drop 等命令行,防止对数据库的误操作,通过更加安全的方式执行相关命令。同时提供服务的滚动重启、产品的断电重启,解决运维时服务不停止运行的场景并节省运维时间。
丰富的大数据组件夯实数据基座
EasyMR 支持 Hadoop2.8.5、Hadoop3.2.1 大数据集群搭建,支持丰富的大数据组件,用户可以根据业务需要进行组件的选择。
那么,EasyMR 具体支持那些大数据组件呢?
● Yarn
版本支持:
・Yarn 支持 Hadoop 2.8.5、3.2.1
主要功能为 Hadoop 的资源调度器,负责管理整个 Hadoop 集群的资源(CPU 和内存)管理和调度。
● Hdfs
版本支持:
・Hdfs 支持 Hadoop 2.8.5、3.2.1
Hdfs 即 Hadoop 分布式文件系统,是 Hadoop 的三大基础组件之一,主要是处理大数据场景下数据的增、删、改、查、文件切片等功能。
● Flink
版本支持:
· Flink 1.12
面向数据流处理和批量数据处理的可分布式的开源计算框架。
● Spark
版本支持:
· Spark 2.4.8
基于内存的新一代分布式开源大数据框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理。
EasyMR 对开源组件的 SQL 的 DDL 能力进行了增强,支持 Add Column 语法。
● Hive
版本支持:
· Hive 2.3.8
· Hive 3.1.2
基于 Hadoop 的一套离线数据处理系统,在 HDFS 之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理。
● Trino
版本支持:
· Trino 0.359
分布式 SQL 查询引擎, 用来专门进行高速、实时的数据分析。
EasyMR 对 Trino 的 Connector 进行了增强,支持 Connector 的动态加载;对社区的 Connector 进行了扩展,支持星环 Inceptor 插件。
● Hbase
版本支持:
· Hbase 1.3.5
· Hbase 2.3.4
一款高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。
● Zookeeper
版本支持:
· Zookeeper 3.6.2
分布式应用程序协调服务,分布式应用程序可基于它实现同步服务,配置维护和命名服务等,为分布式集群提供一种可靠、可扩展、分布式、可配置的协调机制来统一系统的状态。
一起进行一次安装部署吧
其中,简洁、易上手也是 EasyMR 的一大优势。EasyMR 既希望帮助企业实现多源数据的高效集成,全量数据的高效分析,同时也希望能够降低平台的使用门槛,不会让上手难度成为影响企业数字化转型进程的一道壁垒。
所以,和我们一起进行一次大数据产品的安装部署吧!
创建集群
EasyMR 支持多集群的统一管理。
基于物理机 / 虚拟机进行主机集群创建。
「添加主机」,通过账号接入、命令行接入的方式进行主机节点的添加
上传组件安装包
选择平台已有的组件安装包进行安装部署,或者通过本地上传、网络上传的方式上传自己的组件安装包。
一键快速自动化部署
EasyMR 支持单个产品包的手动部署和多个产品包的自动部署两种部署方式。
自动部署通过上传产品线定义组件部署流程,平台解析筛选相关组件,根据定义的主机角色实现自动资源自动编排,平台根据依赖关系完成组件的顺序部署,大大节省了运维逐个部署、资源配置的时间。
产品安装过程中,我们可以实时看到服务部署进度、查看部署日志,服务部署情况一目了然。
7*24 小时实时监控告警
EasyMR 通过集成开源的 promethus 和 grafana,实现对集群、服务、节点的核心参数监控,并通过灵活形象的仪表盘进行数据展现。包含 CPU 占用率,RAM 使用率、磁盘空间、I/O 读写速率等核心参数进行监控,实时掌握集群、服务、节点的运行状态,降低运维故障率。同时,支持用户自建仪表盘及监控项,实现自定义监控项。
设置告警规则
平台提供 “短信通道、邮件通道、钉钉通道、企业微信通道、自定义通道” 5 种通道配置,用户根据需要选择合适通道并填写通道配置信息、消息模板、地址等完成通道配置。
写在最后
没错,EasyMR 就是这样一款好用、易用、高效的大数据基础工具,覆盖企业服务监控运维、组件的升级与回滚、离线数据分析、流式数据处理等多种应用场景。
未来 EasyMR 将坚持自主创新,不断进化,将积累的大数据实践经验复制到更多的企业。