shuffle_字节宝

首页 / 技术

Mapreduce

在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如下:

join key reduce shuffle task

2022-10-26

20

python随机函数的应用

4、random.choice()会从给定的序列中随机抽取一个元素来输出，支持各种序列类型

2022-10-24

18

Luogu P2503 [HAOI2006]均分数据题解

有n个数字a_1,a_2,a_3dots a_n把他们分成m组，使得均方差最小。均方差公式如下： sigma = sqrt{frac 1n sumlimits_{i=1}^n(overline x – x_i)^2},overline x = frac 1n sumlimits_{i=1}^n x......

ode random shuffle sum text

2022-09-19

19

集合工具类（Collections）

1、Collections概述java.util.Collections 是集合工具类，用来对集合进行操作。2、Collections常用方法sort()排序方法binarySearch()二分查找方法reverse()反转方法shuffle()改组方法swap()交换方法fill()替换方法copy...

copy max min shuffle swap

2022-09-14

16

ValueError: num_samples should be a positive integer value, but got num_samp=0

跑baseline调试代码时遇到了一些问题，当时报了错，反复找不到原因，后来受到了下面这篇博客的启发终于解决了问题，我就将这个问题再总结一下：

sample shuffle 博客调试

2022-09-02

19

关于Collections.shuffle()方法源码阅读

通过查看 JDK 文档可以看到这个方法的作用是使用（默认或指定）随机源对指定列表进行置换。

jdk collections list shuffle 源码阅读

2022-06-10

22

对称、群论与魔术（六）——经典魔术《对称找牌》

在前面的文章中，我们聊完了对称性的呈现和群论描述，以及从简单到复杂的在扑克牌上，对称性的具体分析，相关内容请戳：

HTML com iframe shuffle

2022-05-18

20

join实践: 万亿级数据量任务优化历程

重新分析两张表数据量，a 表数据量750w+, b 表数据量350w+，在未做任何优化情况下数据是需要经过shuffle，将相同的key分布到相同的节点上，首先考虑使用mapjoin 解决，使其不用执行shuffle操作。...

SQL join key merge shuffle

2022-04-18

18

shuffle 中环形缓冲区

shuffle中环形缓冲区使用于map shuffle阶段存放map的缓存数据，当缓冲区的数据达到一定比率（80%）就会将缓冲区的数据刷写到磁盘文件中，在刷盘之前，会对数据分区、排序、合并，对缓冲区的操作是边写入边读取的过程，二者互不影响...

Java buffer map shuffle wait

2022-04-18

17

hive 三种join实现

众所周知，hive 提供了三种join方式，common join/map join/ smb join，那么如何选择最合适的join 类型？

hive io join map shuffle

2022-04-18

18

1 2 3 4 5