导语
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。 本期会给大家奉献上精彩的:hiva、Flink、分布式数据库、MongoDB、spark、Druid、ES、ELK。全是干货,希望大家喜欢!!!
1Hive
影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。
https://mp.weixin.qq.com/s/3DtLiOkkfTGg2EZ625ol2g
2Flink
本文分享了趣头条基于Flink ClickHouse的实时数据分析平台,包括业务场景与现状分析、Flink to Hive 的小时级场景、Flink to ClickHouse 的秒级场景、未来规划。。
https://mp.weixin.qq.com/s/K6v45N3RDXuG3HVFvYv_jw
3分布式数据库
并不是每个系统都会用分布式数据库,分布式数据库适配的是那些大并发、高频次的业务系统,集中式数据库仍然有它的生存空间,而且从数量来说,它没准还是占相对大的一个比例,它适配的是传统业务系统,我们通过 RDS 的服务化部署能够提供数据库服务,国外商业产品、国内数据库、开源产品结合使用,最后达到一个比较均衡的比例。
https://mp.weixin.qq.com/s/ki5Bh8Pdnk3wKGkpr8jY3g
4MongoDB
本文讲述了MongoDB的WiredTiger存储引擎的Checkpoint具体结构信息、执行流程;并介绍使用WiredTiger的wt命令工具查看checkpoint信息及信息解读。
https://mp.weixin.qq.com/s/JT71BBWu3sPb7AvbqGwMGg
5ES
在使用ES时,我们常见的就是需要生成一个template来定义索引的设置,分词器,Mapping.本文将基于项目经验来总结一些常用的配置。
https://mp.weixin.qq.com/s/OfxiEY8L_QGclTfBisGPuA
6Linux
Linux 之父非常担忧未来没有开发者继续维护Linux内核,并于近日表示:“真的很难找到维护者!”
https://mp.weixin.qq.com/s/3Tm0pRGbWm1f68HypXBJUA
7ELK
随着 IT 业务系统的迅速发展,中国民生银行需要考虑实现一套完整并适用于民生银行的日志文件智能分析与处理的解决方案。本文详细介绍了中国民生银行大数据基础平台运维组团队通过改造 Apollo 和 ES 的源码,构建了自己的天眼实时智能日志管理分析平台。
https://mp.weixin.qq.com/s/ItMDj-qcmcW9puAsDwm-lQ
8Netty
一般的服务之间进行交互时都会使用自定义协议,常见的框架,诸如dubbo,kafka,zookeeper都实现了符合其自身业务需求的协议,本文主要讲解如何使用Netty实现一款自定义的协议。
https://mp.weixin.qq.com/s/Q8sA5V46I9tfhlHBZHZQiA
9Druid
Apache Druid是一款优秀的OLAP引擎,众所周知数据存储格式对一款存储系统来说是最核心的组件,Druid的数据格式是自定义的,以此保证了在海量数据下的亚秒级查询。本文深入分析Druid V1版本数据存储格式,包括索引结构和数据在磁盘中的存储方式。在阅读本文之前希望您对Druid和数据存储有简单了解。
https://mp.weixin.qq.com/s/XxSTsHluORTDwtiopAxQ0w
10Spark
Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。
https://mp.weixin.qq.com/s/5OBHLjRjOykuuaCqEthD4g
11开心一刻
Delphi象吉普车,什么路上都能开,却在啥路上也开不好;PB就象卡丁车,只能在固定线路上开,到室外就有些不稳;VC象跑车,你开得起却买不起,而且一旦发生故障,想修都找不到毛病在哪;Java象敞棚车,不管刮风下雨还是艳阳高照,都能照开不误;VB就是摩托车,骑的时间越长,你越痛恨它!
致谢:
周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞