导语
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。 本期会给大家奉献上精彩的:Elasticsearch、Kafka、cassandra、MongoDB、spark、Hbase、OLAP。全是干货,希望大家喜欢!!!
1Elasticsearch
本文主结合作者近千万级开发实战经验,和大家一起深入探讨一下Elasticsearch 索引设计,历时两周 的时间完成此文,干货满满,避免大家掉坑。
https://mp.weixin.qq.com/s/KQQJfKCOuqadTujbLNu5aA
2Kafka
Kafka性能和吞吐都很高,通过sendfile和pagecache来实现zero copy机制,顺序读写的特性使得用普通磁盘就可以做到很大的吞吐,相对来说性价比比较高。
https://mp.weixin.qq.com/s/p9w0mA4XgPCF2_ytrdea5g
3cassandra
详解cassandra数据库
https://mp.weixin.qq.com/s/5q-aKUTSZvl3fFCuV1sUAQ
4MongoDB
本文讲述了使用Tapdata的数据同步工具将多个数据源实时抽取到MongoDB后,发现从源端mongo到目标端mongodb的数据迁移后不一致问题,并通过比对数据,检查数据同步日志,检查mongodb日志,发现了recvChunk和moveChunk日志,最后在各个分片节点上执行脚本解决不一致问题。
https://mp.weixin.qq.com/s/VTt3SQt2OvsL4sh_OmwKNA
5Elasticsearch
今天给大家分享"腾讯万亿级 Elasticsearch 技术解密"。
https://mp.weixin.qq.com/s/JOkfa9eQfxkINWqxTHug-Q
6大数据
hbase:meta表相关详细介绍
https://mp.weixin.qq.com/s/5WLiqpoGgv-TibW3xR4Btg
7Hbase
hbase同步elasticsearch
https://esdoc.bbossgroups.com/#/hbase-elasticsearch
8Kafka
本文从实例和源码的角度分析了 Kafka 生产者原理及使用?
https://mp.weixin.qq.com/s/iIEFLlwbrVNp8rD25yUQAQ
9OLAP
OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。
https://mp.weixin.qq.com/s/9OGd5OnVGFUymCC-f-DR-Q
10Pandas
Pandas 是基于 NumPy 的一种数据处理工具,该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法。这些练习着重DataFrame和Series对象的基本操作,包括数据的索引、分组、统计和清洗。
https://mp.weixin.qq.com/s/39yPBJ7DWSMs_aIxtlpXCw
11开心一刻
世界上最遥远的距离不是生与死,而是你亲手制造的BUG就在你眼前,你却怎么都找不到她。
致谢:
周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞