谈谈大数据的核心技术

2023-09-01 09:14:06 浏览数 (1)

这些都不是大数据的核心技术:Hive、Spark、Mahout、Storm、HBase。只是大数据核心技术的衍生技术。 我们知道大数据的发展经历了或者正在经历着:搜索引擎时代、数据仓库时代、数据挖掘时代、机器学习时代。

大数据的应用场景从点到面,从少数人到大多数人。 离不开计算机硬件技术的迭代和软件技术的发展。 大数据的核心计算不应该是表面的应用,应该是硬件的磁盘阵列,是mr的分布式计算框架,是集群管理的zookeeper,更有数学算法的研究发现。 RAID(磁盘阵列)技术: 以廉价的小磁盘排列 来平替过去昂贵的磁盘。虽然在技术的不断进步下,大磁盘也慢慢的廉价了,但是RDID在数据容错方面一直是一个很好的方案。其中RAID 5模式——容量、性能、安全兼顾。 RAID 5模式是将所有数据及校验值都会分布在所有硬盘上。RAID 5模式不对数据进行备份,而是把数据和与其相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储于不同的磁盘上。当RAID5的一个磁盘数据损坏后,利用剩下的数据和相应的奇偶校验信息去恢复被损坏的数据。磁盘阵列的总容量也为各个硬盘容量之和减去一块硬盘的容量。RAID 5模式以合理的价位提供了最佳的性能和数据安全性,因此目前它很受欢迎。 mr(map-reduce)的计算技术: 我们都知道计算需要使用cpu内,内存相对磁盘不仅空间有限而且也能昂贵,通过任务拆解 层层递进方式 来完成大数据量的计算。mr不能计算不可分任务(比如:斐波那契数列的计算,大数据量数据排序)。 zookeeper与paxos算法: ZooKeeper 是一个典型的基于packs 算法的分布式数据一致性解决方案,分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 实现了大规模集群的管理。 数学算法: 大数据的处理计算主要有数据分析,数据挖掘与机器学习 都是了从海量数据发现信息转化为有用的知识 消除不确定性提升决策的能力。大数据技术本身是框架,真正的软内核是数学算法,算法上的优化 比技术框架上的优化往往效果更明显。比如:求1,2到100的和,简单的累加计算需要99次,如果我们使用数学上的等差数列公式,一次计算就可以完成。这就是数学算法的魅力。 未来越来越多廉价的是硬件,越来越难得的是优秀的数据算法。

兄弟们,好好学数学,为我国做贡献吧!

0 人点赞