最新 最热

Mapreduce

在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。MapReduce的过程如下:

2022-10-26
2

python随机函数的应用

4、random.choice()会从给定的序列中随机抽取一个元素来输出,支持各种序列类型

2022-10-24
1

Luogu P2503 [HAOI2006]均分数据 题解

有n个数字a_1,a_2,a_3dots a_n把他们分成m组,使得均方差最小。均方差公式如下: sigma = sqrt{frac 1n sumlimits_{i=1}^n(overline x – x_i)^2},overline x = frac 1n sumlimits_{i=1}^n x......

2022-09-19
1

集合工具类(Collections)

1、Collections概述java.util.Collections 是集合工具类,用来对集合进行操作。2、Collections常用方法sort()排序方法binarySearch()二分查找方法reverse()反转方法shuffle()改组方法swap()交换方法fill()替换方法copy...

2022-09-14
1

ValueError: num_samples should be a positive integer value, but got num_samp=0

跑baseline调试代码时遇到了一些问题,当时报了错,反复找不到原因,后来受到了下面这篇博客的启发终于解决了问题,我就将这个问题再总结一下:

2022-09-02
1

关于Collections.shuffle()方法源码阅读

通过查看 JDK 文档可以看到这个方法的作用是使用(默认或指定)随机源对指定列表进行置换。

2022-06-10
4

对称、群论与魔术(六)——经典魔术《对称找牌》

在前面的文章中,我们聊完了对称性的呈现和群论描述,以及从简单到复杂的在扑克牌上,对称性的具体分析,相关内容请戳:

2022-05-18
3

join实践: 万亿级数据量任务优化历程

重新分析两张表数据量,a 表数据量750w+, b 表数据量350w+, 在未做任何优化情况下数据是需要经过shuffle, 将相同的key分布到相同的节点上, 首先考虑使用mapjoin 解决,使其不用执行shuffle操作。...

2022-04-18
2

shuffle 中环形缓冲区

shuffle中环形缓冲区使用于map shuffle阶段存放map的缓存数据,当缓冲区的数据达到一定比率(80%)就会将缓冲区的数据刷写到磁盘文件中,在刷盘之前,会对数据分区、排序、合并,对缓冲区的操作是边写入边读取的过程,二者互不影响...

2022-04-18
1

hive 三种join实现

众所周知,hive 提供了三种join方式,common join/map join/ smb join,那么如何选择最合适的join 类型?

2022-04-18
2