最新 最热

PySpark在windows下的安装及使用

官网下载http://spark.apache.org/downloads.html,遇到加载不了选项框的情况可以尝试用手机打开网址获取下载链接后下载

2023-05-08
1

pyspark(一)--核心概念和工作原理

本文我们主要介绍pyspark的核心概念和原理,后续有时间会持续介绍pyspark的使用。

2023-05-02
2

浅谈贝叶斯平滑在CTR上的实践

item得分的计算通常用于召回并且配合用户兴趣画像一同使用。item得分计算的方式可以归为三类:

2023-04-21
3

PySpark从hdfs获取词向量文件并进行word2vec

背景:需要在pyspark上例行化word2vec,但是加载预训练的词向量是一个大问题,因此需要先上传到HDFS,然后通过代码再获取。调研后发现pyspark虽然有自己的word2vec方法,但是好像无法加载预训练txt词向量。...

2023-04-20
6

Spark resampling

对时间序列的index进行resample是很常见的操作。比如,按日、周、月、季度统计用户新增、活跃、累计等,就需要对用户表进行resample操作。 pandas 的resample函数可以轻松地对时间序列数据进行重采样,并按照一定的频率聚...

2021-09-18
2

PySpark UD(A)F 的高效使用

Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的,并在Java虚拟机(JVM)中运行,但它附带了Python绑定,也称为PySpark,其API深受panda的影响。在功能方面,现代PySpark在典型的ETL和数据处理方面...

2021-09-10
2

在PySpark上使用XGBoost

我这里提供一个pyspark的版本,参考了大家公开的版本。同时因为官网没有查看特征重要性的方法,所以自己写了一个方法。本方法没有保存模型,相信大家应该会。...

2021-04-26
1