腾讯云EMR智能洞察:让大数据应用分析更“Easy”

2024-08-11 16:05:51 浏览数 (1)

引言|当今大数据时代,随着企业数据量的日益增长和数据价值密度的降低,致使挖掘数据价值变得愈加困难。为帮助企业专注于业务数据挖掘,避免在计算过程优化逻辑、调优资源以及其他运维等事项上浪费更多时间,腾讯云大数据平台推出了 EMR 智能洞察功能,使大数据引擎分析过程更轻松,方便,高效。

背景

随着企业数据规模的不断增长,人工方式分析大数据平台的计算任务、存储和调度性能已经无法满足业务要求。面对每天数以万计的计算任务和海量的存储数据,传统人工分析不仅会浪费大量时间,同时也需要分析人员具备较高的专业知识,这为企业使用大数据分析带来巨大挑战。

腾讯云EMR智能洞察旨在帮助企业实现存储计算透明化、精准化以及资源使用高效,从而提高大数据计算分析的效率和资源使用率。我们致力于让企业能够更轻松地管理、分析、使用数据和资源,提早发现问题,可视化展现问题,并提供一站式解决问题的方案。

功能介绍

基于 EMR 的 Spark on YARN,Hive on YARN 和 Hive on Spark 的业务场景,腾讯云EMR智能洞察提供用户同源调度查询洞察结果建议,可结合结果信息实现业务闭环快速优化。

通过 EMR 智能洞察的智能计算优化技术,加速计算速度、提高效率及时发现问题并提供最优解决方案。提供一套完整的可视化分析工具,帮助用户快速发现用户使用大数据资源的趋势,并给出合理的资源使用规划。

价值

1. 降低计算与存储成本——EMR 智能洞察可识别异常查询执行不合理等问题,减少中间分析排查环节的时间开销和资源不合理消耗。

2. 提升资源利用率——EMR 智能洞察通过智能算法和策略,提供更准确的查询参数配置优化建议信息,帮助企业进一步明确优化导向。

3. 简化操作流程——EMR 智能洞察提供简单易用的界面和信息工具,让企业用户省去繁琐的分析步骤通过 API 能够轻松获取信息实现业务轻松闭环。

产品能力

● 简洁易用

EMR 智能洞察提供简单易用的界面和工具,让用户能够轻松上手,快速实现存 Spark、Hive 查询优化。

● 智能优化

EMR 智能洞察通过智能算法和模型,自动优化查询过程,提高数据分析的准确性,提升资源高效利用。

● 省去中间环节

EMR 智能洞察通过自动策略计算方式,省去传统查询中的繁琐中间环节提高效率。

功能策略

技术解析

腾讯云 EMR 智能洞察采用先进的大数据技术和算法,包括机器学习、数据挖掘和自动优化等,不仅实现应用查询洞察,后续也将支持存储、计算资源的智能优化。实现弹性 MapReduce 查询洞察技术方案主要包括数据集、查询语言、算法以及模型等。

1. 采集层——采集各组件、各SQL类型信息以及Metrics指标。

SQL 信息,类型包含SQL 语句,SQLProfile,SQL 执行后的Metrics 指标。

如:HiveSQL 执行计划,Spark任务/SparkSQL 指标信息,ImpalaSQL执行Profile,TrinoSQL执行信息,MR/Tez的Counters等信息。

2. 接入层——做数据预处理/ETL 等存入洞察数仓,入仓后发送分析事件给分析引擎。

SQL 等会做库表的解析,Profile解析,各个指标的结构化存储,并关联集群 id 等客户信息。

3. 洞察数仓——采集到的原始应用 metrics 指标信息、分析数据、元数据信息。

4. 分析引擎——进行采集到的原始 metrics 信息优化项分析,并给出可操作的专家建议。

收到分析消息后从洞察数仓中读取 SQL/Profile,执行机指标,以及历史执行信息等多维度的关联数据,加载对应的规则算法,按规则以及算法来执行分析,并生成客户可以理解的现场信息,分析过程,以及参数调整建议,处理方法,预估效果等。

能力实践

腾讯云EMR智能洞察已在多个企业实践中得到验证并取得显著成果。帮助水果生鲜电商头部客户及消费电子头部客户集群计算任务资源优化达 15% ,帮助在线教育客户识别超过 10W 分区的大表扫描 bad SQL 每月50 。下面提供了简单的功能示例,展示了 EMR 智能洞察在不同引擎场景中的应用效果。

Spark on Yarn 查询洞察

Spark 是一个处理大数据的开源分布式计算系统。它要求运维团队不仅高效管理资源,还需优化查询性能以确保系统高效运行。

Spark 查询洞察通过数据采集和多维度分析提供给用户重点指标分布情况,同时提供查询多属性分析排序、查询详情及洞察结果。

提供覆盖 Spark SQL 查询的输入输出、数据倾斜、资源开销等全生命周期多维指标洞察项,通过精密的策略和算法模型计算给出合理的配置参数调优建议。

例如:识别出 Spark 运行的调度延迟是因存在资源抢占引起的,可以通过调整并发数来优化调度延迟。

Hive on Yarn/Spark 智能洞察

Hive 是一个处理大数据的开源分布式计算系统。它要求运维团队不仅高效管理资源,还需优化查询性能以确保系统高效运行。

Hive 洞察总览帮助您快速发现查询异常分区情况、调整对比及业务调度执行 ID 维度的资源洞察聚合参数优化建议。

例如:洞察的 Hive SQL 执行存在 MR memory 内存浪费的占比,建议通过调整内存的配置参数节省 50% 的内存消耗。

洞察策略配置

洞察查策略配置是一个涉及深入分析和精确设置的过程,旨在保障查询清晰透明、任务资源开销精准。

洞察策略配置涉及到对未来潜在威胁的预测和预防,通过对业务的充分了解有效评估策略参数,以确保策略配置达到预期的效果,从而保障高效精细的运行环境。

总结

腾讯云 EMR 提供的应用洞察能力通过开启相关功能,可快速、便捷的获取重点查询洞察场景的异常信息,并通过异常信息的转存下载实现后期处理环节闭环。

腾讯云弹性 MapReduce 智能洞察是一款集数据日志采集,可视化规则配置,自动分析并给出解决方案的智能化运维能力,让应用查询分析变得简单便捷。简化的EMR智能洞察流程,提高企业查询效率,提升数据分析的资源性能。在未来还会进一步集成 AI 分析预测能力,帮助用户提早发现并解决问题。让我们一起开启智能数据洞察之旅,提升企业的数据分析能力为业务决策提供有力支持。

0 人点赞