最新 最热

初识Spark

Spark是Apache的一个顶级项目,Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoo...

2020-09-23
1

Spark vs Dask Python生态下的计算引擎

对于 Python 环境下开发的数据科学团队,Dask 为分布式分析指出了非常明确的道路,但是事实上大家都选择了 Spark 来达成相同的目的。Dask 是一个纯 Python 框架,它允许在本地或集群上运行相同的 Pandas 或 Numpy 代码。而...

2020-09-23
0

Windows 安装配置 PySpark 开发环境(详细步骤+原理分析)

这个比较简单,安装原生的 Python 或者 Anaconda 都可以,至于步骤这里就不多说了。

2020-09-22
1

ERROR Shell:396 - Failed to locate the winutils binary in the hadoop binary path java.io.IOE...

ERROR Shell:396 - Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable nullbinwinutils.exe in the H...

2020-09-22
0

Spark Job-Stage-Task实例理解

基于一个word count的简单例子理解Job、Stage、Task的关系,以及各自产生的方式和对并行、分区等的联系;

2020-09-21
0

责任链设计模式:老哥用程序生孩子

责任链设计模式在日常工作中很常见,也很重要,很多开源框架都采用了责任链设计模式,比如;servlet中的Filter、Dubbo中的Filter、Mybatis中的Plugin、spring MVC的HandlerExecutionChain等等,都是采用了责任链设计模式。...

2020-09-21
0

分布式文件系统FastDfs

随着文件数据的越来越多,通过tomcat或nginx虚拟化的静态资源文件在单一的一个服务器节点内是存不下的,如果用多个节点来存储也可以,但是不利于管理和维护,所以我们需要一个系统来管理多台计算机节点上的文件数据,这就是分...

2020-09-21
0

ThreadLocal企业中真实应用

SimpleDateFormat(下面简称sdf)类内部有一个Calendar对象引用,它用来储存和这个sdf相关的日期信息,例如sdf.parse(dateStr), sdf.format(date) 诸如此类的方法参数传入的日期相关String、Date等等,都是交友Calendar引用...

2020-09-21
0

(六)Hive优化

小文件问题的影响 1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。...

2020-09-20
0

「大数据分析」寻找数据优势:Spark和Flink终极对决

当涉及到大数据时,流计算和它所带来的实时强大分析的重要性是不可避免的。此外,当涉及到流计算时,无法避免该领域最强大的两种数据处理引擎:Spark和Flink。...

2020-09-17
1