最新 最热

【他山之石】Tensorflow之TFRecord的原理和使用心得

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前...

2021-03-17
1

第2天:核心概念之SparkContext

SparkContext是所有Spark功能的入口。无论我们希望运行什么样的Spark应用,都需要初始化SparkContext来驱动程序执行,从而将任务分配至Spark的工作节点中执行。...

2021-03-16
0

第3天:核心概念之RDD

RDD代表Resilient Distributed Dataset(弹性分不输计算数据集),它们是可以在多个节点上运行和操作的数据,从而能够实现高效并行计算的效果。RDD是不可变数据,这意味着一旦创建了RDD,就无法直接对其进行修改。此外,RDD也具有...

2021-03-16
1

第4天:核心概念之广播与累加器

广播类型变量用于跨所有节点保存数据副本。此变量缓存在所有Spark节点的机器上,而不仅仅是在执行任务的节点上保存。以下示例代码是PySpark中广播类的结构:...

2021-03-16
0

第5天:核心概念之SparkConf

默认情况下,我们使用SparkConf()创建一个SparkConf对象时,它会加载spark.*名称的java文件中的变量作为配置文件信息。此外,我们可以设置一些参数来修改其行为。...

2021-03-16
0

第6天:核心概念之SparkFiles

在Apache Spark中,我们可以使用sc.addFile函数来上传文件。文件上传后,我们可以在Worker的工作节点中通过SparkFiles.get函数获取上次文件后的文件路径。

2021-03-16
0

大数据处理实践探索 ---- 大数据机器学习:spark mlib 【编程实践 预测收入】

文章大纲1. 数据导入 spark 环境加载基本处理2.进行主成分分析(PCA)3.训练分类模型并预测居民收入4.超参数调优----1. 数据导入#//导入需要的包from pyspark.ml.feature import PCA from pyspark.sql import Rowfro......

2021-03-15
0

大数据高速计算引擎Spark

从狭义的角度上看:Hadoop是一个分布式框架,由存储、资源调度、计算三部分组 成; Spark是一个分布式计算引擎,由 Scala 语言编写的计算框架,基于内存的快速、通 用、可扩展的大数据分析引擎; 从广义的角度上看,Spark是Hadoop...

2021-03-15
1

Apache四个大型开源数据和数据湖系统

管理大数据所需的许多功能是其中一些是事务,数据突变,数据校正,流媒体支持,架构演进,因为酸性事务能力Apache提供了四种,用于满足和管理大数据。...

2021-03-14
0

一个小巧而有特色的Python可视化库:pygal

pygal[1] 是一个基于SVG的动态可视化Python库,该库枚举了各种常用不常用的图表类型,满足基本的可视化需求,可以画简单的地图。其特点是接口易用,有很多简化的写法,方便地绘制出统计图表,可以生成迷你图,有基本交互,不需要额外...

2021-03-11
0