(1)spark运行流程、源码架构 https://blog.csdn.net/sghuu/article/details/103547937
最近有个同学问了我一个非常有意思的问题, 今天我根据这个问题来给大家好好分析一下。
互联网和移动互联网技术开启了大规模生产、分享和应用数据的大数据时代。面对如此庞大规模的数据,如何存储?如何计算?各大互联网巨头都进行了探索。Google的三篇论文 GFS(2003),MapReduce(2004),Bigtable(2006)为大数据技...
点击上方“芋道源码”,选择“设为星标”管她前浪,还是后浪?能浪的浪,才是好浪!每天 10:33 更新文章,每天掉亿点点头发...源码精品专栏原创 | Java 2021 超神之路,很肝~中文详细注释的开源项目RPC 框架 Dubbo 源码解析网络...
八月再见,九月你好,今天是九月一日,新学年开始,Cloudera正式发布CDP Base 7.1.8和Cloudera Manager 7.7.1。这个版本引入了诸多新功能,比如通过EC提升Ozone的存储效率,Cloudera Manager的HA,多NameNode支持,全面支持Impala4.0...
docker run -d --name zookeeper -p 2181:2181 -v /etc/localtime:/etc/localtime wurstmeister/zookeepe
简单明了,直接上步骤,首先,虚拟机环境,centos,docker都已搞定。略过,直接操作部署kafka.
Redis性能优化,单机增加CPU核数是否会提高性能 1、根据业务需要选择合适的数据类型,并为不同的应用场景设置相应的紧凑存储参数。 2、当业务场景不需要数据持久化时,关闭所有的持久化方式可以获得最佳的性能以及最大的内...
开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理,在spark1.3版本后,kafkaUtils里面提供了两种创建DStream的方法:
上一个十年,以 Hadoop 为代表的大数据技术发展如火如荼,各种数据平台、数据湖、数据中台等产品和解决方案层出不穷,这些方案最常用的场景包括统一汇聚企业数据,并对这些离线数据进行分析洞察,来达到辅助决策或者辅助营销的...