大数据适合场景及4V特性
大数据诞生背景中隐藏着它的使用时机
当传统数据存储与处理架构,在数据达到海量以后,产生了存储与性能瓶颈。这个时候大数据出现了,它帮忙解决了数据在海量规模情况下的的存储与计算问题。这是一个技术发展的必要途径,旧的技术无法适应新出现的场景,新技术就要诞生去进行解决。
在这个里面其实隐藏了一个信息,就是说当你的数据量是中小规模的时候,是不建议直接上大数据技术的。
因为中小规模的数据量,传统数据处理架构,其实就完全够用了。盲目上大数据以后,反而发现效率并没有之前高,甚至有所下降。这是为什么?是因为大数据它的重点,是针对海量数据规模而进行设计的一套架构,它的架构是比较有针对性的。
中小规模的数据上到大数据平台后,因为它的调度周期长,反而存储与计算效率会有所下降。
为大文件设计的大数据存储模式,要将文件拆分成小份,然后均匀放置在各个物理节点,并且为了保证容灾要进行多节点的备份;这样就可以让海量数据完成存储,即使单个文件有1TB、10TB,不管多大,都可以通过拆分进行存放。
大数据模式在计算时,会将任务分发到数据节点运算,运算得到部分结果后,再进行汇总。目的是减少海量数据的移动造成的开销。
如果数据量没有达到这样的规模,假设只有1GB,那么文件拆分存储、计算时的调度周期就很长,甚至要超过计算本身所用的时间。那么它的效率以一定远低于传统处理架构。
所以不要盲目去追求大数据,不是说公司为追求新的概念,为了逼格,盲目把大数据搞上去了。
搞上去以后才发现,实际没有多少数据量。带来效率提升没有?没有带来效率提升,反而效率打了一个对折。这都是很常见的情况。
什么情况下可以转型到大数据平台?
我们转型到大数据平台一定要是数据量,达到了一定规模。达到哪种规模?
就是说你之前用的,传统数据处理架构,比如单机Mysql、Oracle、NOSQL。在存储的时候,的确产生了一些压力。在分析计算时,性能与效率也达不到公司的要求了。
传统架构这一块,它达到了瓶颈,暴露出这些问题之后,再上大数据也不迟。
传统架构在海量数据规模下无法满足现有需求,这个时候大数据才能发挥出它的效率与价值。
所以一定要注意,不要盲目去追求大数据,一定要实现进行必要性评估。
什么是大数据?不要立即想到4V特性
大数据是有它的定义的,不需要看网上很复杂的一些概念,把自己绕晕了。我们只需要记住一句话,大数据是满足 数据达到海量规模以后,对这部分数据进行存储,包括计算的一种技术,或者说是一种技术生态。它是解决这些问题的。
大家很多同学,一被问到什么是大数据,就立马想到4V特性。这个其实是不太合适的。
什么是大数据的4V特性?这个是说大数据的场景,它有这4个特征。也就是数据量(Volume)、速度(Velocity)、多样性(Variety)、价值(Value)。
它能处理规模比较大的数据,在这个场景下数据的生成和处理速度也非常快,处理的数据多样性很丰富,处理的结果价值大但是密度低。
所以4V特性其实是在描述大数据的场景包含的特性,而不是在回答什么是大数据这个问题。