自建大数据迁移到云大数据整体方案

2021-11-05 09:22:16 浏览数 (1)

一.背景

公司从自建大数据,服务器,网络,大数据技术组件经常出问题,基本每周异常达到2次,不能够很少的保障业务应用。同时因为投入人力在这块进行服务保障效果不好评估的情况下,我们考虑大数据上云的决策。主要是: 1.释放和大数据平台,技术组件开发运维的人力;

2.聚焦业务应用和赋能,大力发展数据业务和数据价值体现的数据应用能力建设;

3.降低数据存储成本,基于自建集群的方式,数据3副本的可靠存储,因为数据量的上涨,带来服务器购买和费用的增加。

二.方案调研

主要考虑降本提效,所以我们对比了购买cdh订阅版 云服务器搭建方案,海外:Google 云大数据全托管体系,AWS大数据体系;国内:al云大数据体系和hw云体系,基于成本,服务等进行调用和方案评审,简单说明如下: 1.评分表

评估维度

权重

apache hadoop

cdh订阅版

al云

hw云

AWS

Azure

Google

人力成本

20%

2

4

9

8

9

9

9

稳定性

25%

5

7

9

9

9

9

9

安全性

10%

3

6

9

8

9

9

9

生态工具

20%

5

5

8

7

6

5

5

服务响应速度

10%

7

7

8

7

5

5

5

迁移成本

10%

9

8

5

5

4

4

3

学习成本

5%

9

9

7

6

6

6

3

综合得分

100%

5

6.1

8.2

7.55

7.35

7.15

6.9

  • 各类型评分 【每个维度分值在1-10,分值越高表示越好】

2.未来3年费用对比

...

3.结论

  • 自建集群需要投入人力,服务器成本,同时对应系统不一定能够做到99.99%的稳定性,因为底层稳定性的拖垮业务使用得不偿失;
  • 长远来看,上云成本优势明显,省去技术组件运维人员,周边生态工具/系统开发人员和服务器托管费用;云上提供丰富的生态工具能够帮助业务快速落地。总的来讲能够达到降本提效的目的;
  • 目前云排名来看: 国内 al > hw > 腾讯;

海外 AWS > Azure > Google

  • 综合考虑目前是al云相对较好,但是缺点就是 云上议价能力, 和长期使用云的费用问题(存储固定收费,没有存储阶梯式收费,数据量越大存储越便宜),还有就是上云容易换云或者回迁至自建集群比较困难。

三.架构部署

     1. 考虑未来的发展,比如湖仓一体;

     2. 考虑当前费用和对应技术的先进性和应用丰富,运维等内容。

四.迁移实施

1.平行迁移

  • 基于以前的数据任务,先创建表和加工内容,进行空跑,逻辑验证,主要是发现语法兼容和调动问题,因为没有数据内容,所以验证效率高。
  • 逻辑验证通过后,进行数据迁移,由近及远的方式,同时关注冷数据存储到OSS外表方式,不使用本地存储方式,能够支持查询就可以了。

2.说明展示

0 人点赞