mapreduce_字节宝

通过优化 S3 读取来提高效率和减少运行时间

本文将介绍一种提升 S3 读取吞吐量的新方法，我们使用这种方法提高了生产作业的效率。结果非常令人鼓舞。单独的基准测试显示，S3 读取吞吐量提高了 12 倍（从 21MB/s 提高到 269MB/s）。吞吐量提高可以缩短生产作业的运行时...

缓存 mapreduce 腾讯云测试服务

2021-11-19

使用 Stream API 高逼格优化 Java 代码！

Java8的新特性主要是Lambda表达式和流，当流和Lambda表达式结合起来一起使用时，因为流申明式处理数据集合的特点，可以让代码变得简洁易读

mapreduce api 编程算法

2021-11-16

Flink用户画像(二)推荐部分

当用户浏览该商品时就会留下浏览痕迹。此处是为了存储用户每小时点击过的品牌和点击次数。

mapreduce flink hbase 大数据 TDSQLMySQL版

2021-11-15

[源码解析] PyTorch 分布式(3) ----- DataParallel(下)

我们先回忆一下目前的前向图，replicate 调用了Broadcast.forward，同时往其context 存储了input_device和num_inputs。

C++pytorch 分布式 mapreduce

2021-11-15

Spark性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

spark mapreduce 数据库 SQL 文件存储

2021-11-15

Flink用户画像用户画像行为特征

我们要使用的几个组件为Hadoop 2.6，HBase 1.0.0，MySQL 8,zookeeper 3.4.5，kafka 2.1.0,Flink 1.13,Canal 1.1.5。为了方便，这里都使用伪集群和单机安装。

flink mapreduce hbase TDSQLMySQL版 Kafka

2021-11-10

深入理解函数式编程

这句话比较难理解，换句话来说：函数式编程是给自己的对象整容，有可能整的和原来差不多，也有可能整的看起来判若两人，但是只能处理这个对象，不会对函数外的其他数据产生影响。...

api Serverless mapreduce 大数据

2021-11-10

Spark面试八股文（上万字面试必备宝典）

rdd 分布式弹性数据集，简单的理解成一种数据结构，是 spark 框架上的通用货币。所有算子都是基于 rdd 来执行的，不同的场景会有不同的 rdd 实现类，但是都可以进行互相转换。rdd 执行过程中会形成 dag 图，然后形成 lineage ...

spark mapreduce 大数据数据分析数据结构

2021-11-08

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。...

linux spark hive SQL mapreduce

2021-11-05

torch.scatter_

tps://pytorch.org/docs/stable/generated/torch.Tensor.scatter_.html)

数据分析 mapreduce

2021-11-03

63 64 65 66 67

通过优化 S3 读取来提高效率和减少运行时间

使用 Stream API 高逼格优化 Java 代码！

Flink用户画像(二)推荐部分

[源码解析] PyTorch 分布式(3) ----- DataParallel(下)

Spark性能优化和故障处理

Flink用户画像用户画像行为特征

深入理解函数式编程

Spark面试八股文（上万字面试必备宝典）

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

torch.scatter_

热门文章

热门手册