今日指数项目之需求调研【三】

2022-04-11 16:53:32 浏览数 (2)

文章目录
  • 性能指标
  • 数据存储规模
  • 技术选型
  • 需对技术组件做出选型:
    • 具体版本
  • 平台选择
  • 平台规划
  • 集群规划

性能指标

大数据平台作为底层的基础数据平台,集群规模、计算存储性能将决定流、批的性能指标上限。所以需要考虑整个大数据平台的吞吐量(网络、磁盘IO)、响应速率、计算能力、高并发性、高可用、维护性方便等,以满足多业务场景下,不同应用需求的建设任务,比如多维分析、实时计算、即席查询和数据统计分析等应用功能。 本项目大数据平台在建设过程中,将满足如下性能指标: 批处理部分指标: 支持批处理集群批量总写入速度2GB/秒,批量读取速度300MB/秒; 平台支持并发执行300个查询和200个加载任务; 应用查询时间对于数据库的简单数据读取将不超过1~2秒,三个月统计计算查询时间将不超过15秒,复杂查询时间将不超过1分钟; 复杂批处理任务,ETL的处理时间将不超过2个小时; 实时流处理指标: 平台支持接收峰值为每秒100万条 的流数据; 平台能够在峰值条件下,完成2秒内的实时预警,2秒内完成针对当日数据的查询; 平台每日实时处理模块能够累积处理144亿笔(按4小时交易日保持峰值流速计)订单流数据; 平台支持至少50个并发访问/查询当日数据。 应用响应指标: 数仓应用项目离线报表30秒内完成数据响应查询; 实时大屏数据展示5秒内完成数据响应查询; 应用平台支持并发执行500个用户查询请求;

*类型*

*业务场景*

*业务场景特征*

*并发度*

*耗时*

简单

秒级行情亿级数据查询

功能点查询

500

1s

中等

业务指标数据加工

亿级数据关联查询

50

10s

预警规则关联查询

复杂

大表关联大表

复杂历史数据查询

20

30s

实时报表

实时大屏报表生成

当日实时报表

50

2s

历史报表

历史报表生成

跨年历史报表生成

20

30s

实时行情

指标数据实时展示

页面实时查询

50

1s

数据存储规模

秒级行情(Hbase):存储5日内秒级行情,数据量为2.88亿条 分时行情(Druid):存储半年内分时行情数据,数据量为8.64亿条; 历史数据(Hive数仓):以沪深市场2万只证券,存储时间按1年统计: 秒级行情: 210亿条以上 分时行情: 20亿条以上 K线: 1500万条以上

日数据采集总量统计 : 20000(只)* 3600(秒)*4(小时)= 2.88(亿)≈ 85(GB)

技术选型

大数据平台作为基础数据平台,将负担起存储所有业务产生的数据信息,并在平台中按照业务应用进行模型标准化存储沉淀,平台的数据量将持续不断地增加,因此本期大数据平台的整体设计上将充分考虑使用分布式架构,对存储容量的规划将定位在PB级以上,同时保证将来存储容量在扩充时能够通过节点的增加,快速满足容量的扩展性需求。 存储容量设计方面,将满足以下方面: 1、大数据平台在存储容量扩展性方面,将满足随需快速扩展的功能,在存储容量达到PB级别以上时,仍能保证集群地正常运行,不影响数据的读写操作; 2、平台对于数据的存储能够按照最优存储和访问策略,自动在所有集群上对数据进行均衡存储; 3、平台所有节点及存储都运行在X86服务器上,保证集群扩展时在存储设备和节点采购使用的便利性;

需对技术组件做出选型:

数据采集:flume,socket,sqoop 数据存储:mysql,hdfs,hbase,redis,kafka,druid 数据计算:hive,spark sql,flink 数据分析:druid,kylin

具体版本

产品 版本 zookeeper 3.4.5 kafka 1.0.0 hbase 1.2.0 hadoop 2.6.0 flink 1.7.0 flume 1.6.0 mysql 5.6 Redis 3.0

平台选择

1.Apache开源社区版本 完全开源、社区活跃,文档资料详细。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,整合困难,运维麻烦。 2.大数据平台产品 (1) CDH(Cloudera Distribution Hadoop) 最成型的发行版本,拥有最多的部署案例。版本管理清晰,在兼容性、安全性、稳定性上比Apache Hadoop强。提供了强大的部署、管理和监控工具,简化了部署和运维。 注:课程教学以CDH版本为主 (2)HDP(Hortonworks Data Platform) 100%开源,稳定性相比CDH稍弱,国内使用较少。 (3)FusionInsight 华为-FusionInsight,基于Apache进行功能增强的企业级大数据存储、查询和分析的统一平台。 (4)Transwarp Data Cloud 星环-Transwarp Data Cloud,基于Hadoop生态系列的大数据平台公司。 3.云端大数据 阿里云:国内阿里云实力最强,做公有云、私有云、混合云,面向中小型企业。 华为云:定位运营商和大中型企业,数据安全。

平台规划

1)机器配置 假设公司采购机器: 单机: 内存: 128G CPU: 48C 磁盘: 10 * 1.2T

以消息队列日吞吐量计算需占用磁盘空间: 1.消息队列日数据吞吐量:2000万只证券1条/秒60604 = 2.88亿条 2.每条行情数据1kb左右,每天日志量: 2.88亿kb/1024/1024 ≈ 275G 3.一年磁盘存储量: 275G * 360天/1024 ≈ 97T 4.保存3个副本需占用磁盘总量 :97T * 3 = 291T 5.预留30%的磁盘空间 = 291T/70% ≈ 416T 6.机器数量: (1)机器一方案:416T/(1.2T * 10)≈ 35台 (2)机器二方案:416T/(1.2T * 15)≈ 23台 7.再加上元数据,主节点服务器,还需再加上一定数量的机器

集群规划

0 人点赞