大家好,又见面了,我是你们的朋友全栈君。
一. 大数据的概念
维基百科定义: 大数据是指利用常用软件工具捕获,管理和处理数据所耗时间超过可容忍时间的数据集。
二. 大数据4V特征
- Volume:体量巨大
- Velocity:处理速度快
- Variety:类型繁多(结构化,半结构化,非结构化)
- Value:价值密度低
三. 大数据主流技术
- 数据采集预处理
- flume可以进行流式日志数据的收集
- sqoop可以交互关系型数据库,进行导入导出数据
- 使用爬虫技术,可以在网上爬取海量网页数据
- 数据存储与管理 大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。
- 数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。
四. 大数据应用
五. 场景化解决方案:
1. 离线批处理
1.1 概念:
离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。 离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。
1.2 特点:
- 处理时间要求不高
- 处理数据量巨大
- 处理数据格式多样
- 占用计算存储资源多
1.3 流程图
2. 实时检索
2.1 概念:
实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果。强调的是实时低延迟。
2.2 核心诉求
- 检索性能要求高
- 高并发查询
- 数据量大
- 支持结构化和非结构化
- 高效的数据加载
- 支持图检索
2.3流程图
3. 实时流处理
3.1 概念:
实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming或者Flink任务实现。
3.2 诉求:
- 处理数据快
- 高吞吐量
- 抗震性强
- 可靠性高
- 水平扩展
- 多数据源支持
- 数据权限和资源隔离
- 第三方工具对接
3.3 流程图
4.融合数仓
4.1概念:
在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。 随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。
4.2诉求
- 数据统一存储
- 减少数据孤岛和冗余
- 一集成(旧业务和新业务可以无缝集成)
- 大集群
4.3流程图
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/135917.html原文链接:https://javaforall.cn