最新 最热

【Spark Streaming】Spark Day11:Spark Streaming 学习笔记

将每批次数据状态,按照Key与以前状态,使用定义函数【updateFunc】进行更新,示意图如下:

2021-12-06
1

【Spark Streaming】Spark Day10:Spark Streaming 学习笔记

首先,学习SparkStreaming流式计算模块,以批处理思想处理流式数据,进行实时分析。

2021-12-06
1

BAT大数据面试题及答案

一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一...

2021-12-06
1

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS

2021-12-06
1

《大数据+AI在大健康领域中最佳实践前瞻》---- 基于 pyspark + xgboost 算法的 欺诈检测 DEMO实践

银行需要面对数量不断上升的欺诈案件。随着新技术的出现,欺诈事件的实例将会成倍增加,银行很难检查每笔交易并手动识别欺诈模式。RPA使用“if-then”方法识别潜在的欺诈行为并将其标记给相关部门。例如,如果在短时间内进...

2021-12-06
1

autoML 前瞻与实践 ---- H2O Sparkling Water简介

Sparkling Water allows users to combine the fast, scalable machine learning algorithms of H2O with the capabilities of Spark. With Sparkling Water, users can dr...

2021-12-06
1

聚类算法 ---- 大数据聚类算法综述

随着数据量的迅速增加如何对大规模数据进行有效的聚类成为挑战性的研究课题,面向大数据的聚类算法对传统金融行业的股票投资分析、 互联网金融行业中的客户细分等金融应用领域具有重要价值, 本文对已有的大数据聚类算法...

2021-12-06
1

Spark ML 正则化 标准化 归一化 ---- 基本概念简介

正则化是为了防止过拟合, 正则化也可以叫做或者译成“规则项”,规则化就是说给需要训练的目标函数加上一些规则(限制),让他们不要自我膨胀。...

2021-12-06
1

Spark ML 正则化 标准化 归一化 ---- spark 中的正则化

Normalize a vector to have unit norm using the given p-norm. 使用给定的p-范数规范化向量,使其具有单位范数。

2021-12-06
1

Spark ML 正则化 标准化 归一化 ---- spark 中的 标准化

Standardizes features by removing the mean and scaling to unit variance using column summary statistics on the samples in the training set.

2021-12-06
1