大象微分

2022-04-27 19:02:58 浏览数 (1)

日常工作中我们常常抱怨:“50万行的数据,Excel打不开了”,更别提在Excel上做过滤,筛选,排序及透视表了。

其实50万行数据在数据时代恰如“蜉蝣于天地,沧海之一粟”。

据英特尔预测,全球数据总量在2020年将达到44ZB(1ZB=10亿TB=1万亿GB),而单单中国产生的数据量将达到8ZB,大约占据全球总数据量的五分之一。

1ZB等于字节,等于1000EB,1000 000PB,等于大家更熟悉的10亿TB!那44ZB真的是岂止于大。

那么数据的石油如何才能被开采,被利用,被创造价值。

一个简单的问题:如何计算上图大象的阴影面积呢?在数学的课堂上,我们谙熟于心:三角形,正方形,矩形,圆形等图形面积的计算公式,大象形真的让人无从下手;

有公式可以解决的问题只是一种练习而已,真正的能力是解决没有常法的现实问题。

接触过微积分数学的同学,脱口而出:使用微积分,但对于计算机来说计算复杂度很高,这里我们用简单的“微分”,如下图将大象微分成若干个我们熟悉方形小网格。

这些微分的小网格,虽然渺小却可以度量一切。

同理关于海量数据的处理,微分的方法一样有魔力。面对大数据我们也不必绞尽脑汁的打造超级计算机,而应该聚沙成塔综合利用更多计算机的网格计算来解决问题。

2003年谷歌公司的GFS(分布式文件系统)及之后的MapReduce系统给我们在大数据处理带来诸多启发。基于此Hadoop成为离线大数据处理经典方案。

认识MapReduce:Map好比将大象分成若干方形网格,Reduce就是将若干网格的面积相加最后输出的面积之和=大象。

突然明白了“大事必作于细”,不管多大的事,都可以分解成细小的事,一件件做成。

- END -

0 人点赞