大数据与云计算技术周报(第140期)

2020-02-19 11:21:23 浏览数 (1)

导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。 本期会给大家奉献上精彩的:Elasticsearch、Kafka、cassandra、MongoDB、spark、Hbase、OLAP。全是干货,希望大家喜欢!!!

1Elasticsearch

本文主结合作者近千万级开发实战经验,和大家一起深入探讨一下Elasticsearch 索引设计,历时两周 的时间完成此文,干货满满,避免大家掉坑。

https://mp.weixin.qq.com/s/KQQJfKCOuqadTujbLNu5aA

2Kafka

Kafka性能和吞吐都很高,通过sendfile和pagecache来实现zero copy机制,顺序读写的特性使得用普通磁盘就可以做到很大的吞吐,相对来说性价比比较高。

https://mp.weixin.qq.com/s/p9w0mA4XgPCF2_ytrdea5g

3cassandra

详解cassandra数据库

https://mp.weixin.qq.com/s/5q-aKUTSZvl3fFCuV1sUAQ

4MongoDB

本文讲述了使用Tapdata的数据同步工具将多个数据源实时抽取到MongoDB后,发现从源端mongo到目标端mongodb的数据迁移后不一致问题,并通过比对数据,检查数据同步日志,检查mongodb日志,发现了recvChunk和moveChunk日志,最后在各个分片节点上执行脚本解决不一致问题。

https://mp.weixin.qq.com/s/VTt3SQt2OvsL4sh_OmwKNA

5Elasticsearch

今天给大家分享"腾讯万亿级 Elasticsearch 技术解密"。

https://mp.weixin.qq.com/s/JOkfa9eQfxkINWqxTHug-Q

6大数据

hbase:meta表相关详细介绍

https://mp.weixin.qq.com/s/5WLiqpoGgv-TibW3xR4Btg

7Hbase

hbase同步elasticsearch

https://esdoc.bbossgroups.com/#/hbase-elasticsearch

8Kafka

本文从实例和源码的角度分析了 Kafka 生产者原理及使用?

https://mp.weixin.qq.com/s/iIEFLlwbrVNp8rD25yUQAQ

9OLAP

OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。

https://mp.weixin.qq.com/s/9OGd5OnVGFUymCC-f-DR-Q

10Pandas

Pandas 是基于 NumPy 的一种数据处理工具,该工具为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法。这些练习着重DataFrame和Series对象的基本操作,包括数据的索引、分组、统计和清洗。

https://mp.weixin.qq.com/s/39yPBJ7DWSMs_aIxtlpXCw

11开心一刻

世界上最遥远的距离不是生与死,而是你亲手制造的BUG就在你眼前,你却怎么都找不到她。

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞

0 人点赞