最新 最热

大数据技术周报第 002 期

最近试了下在百度和 Google 搜索自己的id,结果真的差距不小。百度给 CSDN 的权重太高了。。(让人喷饭!)

2022-05-26
0

大数据技术周报第 001 期

1、TDengineTDengine是一个开源的专为物联网、车联网、工业互联网、IT运维等设计和优化的大数据平台。除核心的快10倍以上的时序数据库功能外,还提供缓存、数据订阅、流式计算等功能,最大程度减少研发和运维的工作量。...

2022-05-26
0

独家 | 一文揭开领英机器学习基础设施的面纱-领英机器学习架构和技术概览

作者:Jesus Rodriguez翻译:王闯(Chuck)校对:欧阳锦本文约1700字,建议阅读5分钟本文介绍了全球知名职业社交平台领英(LinkedIn)背后的大规模机器学习基础设施,从中我们得以一窥硅谷互联网大厂的机器学习架构和工程技术实践前沿...

2022-05-20
0

Hadoop3.x搭建详细教程 | 历史服务器的配置与日志聚合

Hadoop由Apache基金会开源,是一个分布式的储存与计算平台。目前Hadoop已经更新到了3.x以上的版本,相比于Hadoop2.x,Hadoop3增加了更多便于开发的新特性。

2022-05-19
0

Flink灵魂17问,最新面试题

spark streaming 的 checkpoint 仅仅是针对 driver 的故障恢复做了数据和元数据的 checkpoint。而 flink 的 checkpoint 机制 要复杂了很多,它采用的是轻量级的分布式快照,实现了每个算子的快照,及流动中的数据的快照。...

2022-05-17
1

Spark基础

1.Spark 使用DAG 调度器、查询优化器和物理执行引擎,能够在批处理和流数据获得很高的性能。2.spark把运算的中间数据(shuffle阶段产生的数据)存放在内存,迭代计算效率更高,mapreduce的中间结果需要落地,保存到磁盘;3.Spark...

2022-05-17
0

【万字长文】详解Flink作业提交流程

Flink 作业在开发完毕之后,需要提交到 Flink 集群执行。ClientFronted 是入口,触发用户开发的 Flink 应用 Jar 文件中的 main 方法,然后交给 PipelineExecutor(流水线执行器,在 FlinkClient 升成 JobGraph 之后,将作业提交...

2022-05-17
0

Flink 内核原理与实现-入门

无界数据是持续产生的数据,所以必须持续的处理无界数据流。因为输入是无限的,没有终止时间。处理无界数据通常要求以特定顺序获取,以便判断事件是否完整、有无遗漏。...

2022-05-17
0

Markdown 拓展-使用 vue.press 生成网站

VuePress V2 是一个以 Markdown 为中心的静态网站生成器。你可以使用 Markdown在新窗口打开 来书写内容(如文档、博客等),然后 VuePress 会帮助你生成一个静态网站来展示它们。...

2022-05-17
0

大数据开发面试之26个Spark高频考点

大家好,我是梦想家Alex ~ 今天为大家带来大数据开发面试中,关于 Spark 的 28 个高频考点 。

2022-05-14
0