spark_字节宝

【他山之石】Tensorflow之TFRecord的原理和使用心得

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前...

文件存储 spark TensorFlow https 网络安全

2021-03-17

第2天：核心概念之SparkContext

SparkContext是所有Spark功能的入口。无论我们希望运行什么样的Spark应用，都需要初始化SparkContext来驱动程序执行，从而将任务分配至Spark的工作节点中执行。...

jvm windows shell spark Python

2021-03-16

第3天：核心概念之RDD

RDD代表Resilient Distributed Dataset（弹性分不输计算数据集），它们是可以在多个节点上运行和操作的数据，从而能够实现高效并行计算的效果。RDD是不可变数据，这意味着一旦创建了RDD，就无法直接对其进行修改。此外，RDD也具有...

JavaScript spark Python 缓存 mapreduce

2021-03-16

第4天：核心概念之广播与累加器

广播类型变量用于跨所有节点保存数据副本。此变量缓存在所有Spark节点的机器上，而不仅仅是在执行任务的节点上保存。以下示例代码是PySpark中广播类的结构：...

编程算法 spark apache

2021-03-16

第5天：核心概念之SparkConf

默认情况下，我们使用SparkConf()创建一个SparkConf对象时，它会加载spark.*名称的java文件中的变量作为配置文件信息。此外，我们可以设置一些参数来修改其行为。...

spark

2021-03-16

第6天：核心概念之SparkFiles

在Apache Spark中，我们可以使用sc.addFile函数来上传文件。文件上传后，我们可以在Worker的工作节点中通过SparkFiles.get函数获取上次文件后的文件路径。

spark apache HTTP

2021-03-16

大数据处理实践探索 ---- 大数据机器学习：spark mlib 【编程实践预测收入】

文章大纲1. 数据导入 spark 环境加载基本处理2.进行主成分分析（PCA）3.训练分类模型并预测居民收入4.超参数调优----1. 数据导入#//导入需要的包from pyspark.ml.feature import PCA from pyspark.sql import Rowfro......

spark 模型数据

2021-03-15