最新 最热

Spark(5)——standalone模式

在spark中,也有自己的一套集群模式,启动方式如下: 到spark的sbin目录下完成启动:

2020-11-11
1

Spark(2)——小用RDD

sparkcontext相当于我们和spark集群出创建好了连接,可以通过sparkcontext这样的上下文环境来创建RDD,在shell命令行中,spark已经将上下文环境创建好了,当我们输入sc时:...

2020-11-11
1

TiDB x 中通科技 | 提效 300%,TiDB 联手中通让你的包裹“实时可见”

「我们已经用起来了」,是我们最喜欢听到的话,简简单单几个字的背后代表着沉甸甸的信任和托付。从今天开始,我们将通过「相信开放的力量」系列深度案例分享,从业务的角度,看看一个数据库为各行业用户带来的业务价值。 本篇...

2020-11-11
1

阿里大数据团队的年终总结模板,你的报告怎么让老板满意?

11月到了,大家都应该开始写年度总结了,这里笔者结合工作实践写了一个虚拟版的年度总结计划,希望于你有所启示。

2020-11-09
1

使用 Iceberg on Kubernetes 打造新一代云原生数据湖

作者徐蓓,腾讯云容器专家工程师,10年研发经验,7年云计算领域经验。负责腾讯云 TKE 大数据云原生、离在线混部、Serverless 架构与研发。 背景 大数据发展至今,按照 Google 2003年发布的《The Google File System》第一篇...

2020-11-09
1

云原生架构下复杂工作负载混合调度的思考与实践

10月25日,第一届中国云计算基础架构开发者大会在长沙召开,星环科技与众多国内外厂商共同就“云原生”、“安全与容错”和“管理与优化”等云计算领域话题进行了深入交流和探讨。星环科技容器云研发工程师关于"基于Kuber...

2020-11-09
1

PySpark|从Spark到PySpark

简单的说Apache Spark是一个开源的、强大的分布式查询和处理引擎,它提供MapReduce的灵活性和可扩展性,但速度明显要快上很多;拿数据存储在内存中的时候来说,它比Apache Hadoop 快100倍,访问磁盘时也要快上10倍。...

2020-11-06
1

零拷贝(Zero-copy)及其应用详解

零拷贝(Zero-copy)是一种高效的数据传输机制,在追求低延迟的传输场景中十分常用。本文先通过传统方案引出零拷贝机制,然后分析其细节,最后介绍它的部分应用。文中涉及到的操作系统理论知识都可以参考英文维基或者相关书籍,...

2020-11-06
1

Spark/Flink/CarbonData技术实践最佳案例解析

当前无论是传统企业还是互联网公司对大数据实时分析和处理的要求越来越高,数据越实时价值越大,面向毫秒~ 秒级的实时大数据计算场景,Spark 和 Flink 各有所长。CarbonData 是一种高性能大数据存储方案,已在 20+ 企业生产...

2020-11-06
1

深入浅出Spark:血统(DAG)

2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 Apache ......

2020-11-05
1