大数据与云计算技术周报(第161期)

2020-09-29 11:02:38 浏览数 (1)

导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。 本期会给大家奉献上精彩的:MongoDB、Spark、数据库、OLAP、AI、监控、工业信息化。全是干货,希望大家喜欢!!!

1Spark

本文主要从以下四个方面介绍:Spark SQL 在字节跳动的应用;什么是分桶;Spark 分桶的限制;字节跳动在分桶方面的优化。

https://mp.weixin.qq.com/s/vaFT6gWf3YYfDJHufvy5Sw

2数据库

当数据库的数据量过大,大到一定的程度,我们就可以进行分库分表。那么基于什么原则,什么方法进行拆分,这就是本篇所要讲的。

https://mp.weixin.qq.com/s/c0y3nOwuMw4hVHo3Nc9fkQ

3OLAP

OLAP 系统广泛应用于 BI, Reporting, Ad-hoc, ETL 数仓分析等场景,本文主要从体系化的角度来分析 OLAP 系统的核心技术点,从业界已有的 OLAP 中萃取其共性。

https://mp.weixin.qq.com/s/ucb9AGQ-Kh1D5c8NgS0WXQ

4监控

本文对监控体系的基础知识、原理和主流架构做了详细梳理,希望有助于大家对监控系统的认识,以及在技术选型时做出更合适的选择。

https://mp.weixin.qq.com/s/Yip-zCD2On6kEi5mEs6O0g

5轨迹挖掘

每天滴滴都会为上千万人提供出行服务,在这一过程中积累了海量轨迹数据。这些轨迹数据来自于公共服务,本文介绍如何利用这些数据回馈大众,改善出行体验。

https://mp.weixin.qq.com/s/ppNL8sbnyxAO4eEEu9_ZXw

6MongoDB

本文讲述了在MongoDB分片集群中什么情况下需要手动拆分数据块,手动拆分数据块的方法和示例;

https://mp.weixin.qq.com/s/rKs0HUd5r7SjPfrZWkouRA

7Spark

当前 Spark 计算引擎能够利用一些统计信息选择合适的 Join 策略(关于 Spark 支持的 Join 策略可以参见每个 Spark 工程师都应该知道的五种 Join 策略),但是由于各种原因,比如统计信息缺失、统计信息不准确等原因,Spark 给我们选择的 Join 策略不是正确的,这时候我们就可以人为“干涉”,Spark 从 2.2.0 版本开始(参见SPARK-16475),支持在 SQL 中指定 Join Hints 来指定我们选择的 Join 策略

https://www.iteblog.com/archives/9874.html

8工业信息化

两化融合是指电子信息技术广泛应用到工业生产的各个环节,信息化成为工业企业经营管理的常规手段。信息化进程和工业化进程不再相互独立进行,不再是单方的带动和促进关系,而是两者在技术、产品、管理等各个层面相互交融,彼此不可分割,并催生工业电子、工业软件、工业信息服务业等新产业。两化融合是工业化和信息化发展到一定阶段的必然产物。

https://mp.weixin.qq.com/s/kSc2Bfd0jcyshziVn8bwjg

9AI

“模型”这个词可以分成两个字来理解:“模”是指规范、标准,“型”是样式的意思。将两种语言环境下的含义进行统一,“模型”就是“参照一定规范与标准而形成的样式”

https://mp.weixin.qq.com/s/qUspzjh2n3unvu4U72RFxQ

11开心一刻

正在码代码ing,医院回来的同事一脸的苦逼样子,问他怎么了?他回答:得了类风湿性关节炎了,我怕会遗传给下一代啊。我一脸的问号:谁说类风湿性关节炎能遗传的?丫一脸诧异:类不是继承的吗

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞

0 人点赞