前面我们介绍了高阶函数,python自带了一些高阶函数,也就是python内置高阶函数。
Flink中的执行资源是通过任务执行槽来确定的。每个TaskManager有一个或者多个任务执行槽,每个可以运行一个并行任务的流水线。每个流水线包含多个连续的任务,像N次的MapFunction的并行实例跟一个ReduceFunction的n次并...
用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生,如果没做过也没有关系,我们简单来介绍一下。DataFrame翻译过来的意思是数据帧,但其实它指的是一种特殊的数据结构,使得数据以类似关系型数据库...
一般情况咱们排序大都按数字或字母顺序,但也有一些情况下,咱们可能需要自定义排序顺序。
http://www.aboutyun.com/thread-11873-1-1.html
https://hortonworks.com/blog/expressing-data-processing-in-apache-tez/
随着应用状态越来越复杂,我们迫切需要状态与数据流管理的解决方案。熟悉 React 开发的同学一定听说过 Redux,而在这篇文章中,我们将通过 useReducer + useContext 的组合实现一个简易版的 Redux。首先,我们将带你重新认识...
Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:HDFS和MapReduce
当我们要统计数亿文本的词频,单个机器性能一般,况且是数亿级数据,处理是十分缓慢的,对于这样的任务,希望的是多台电脑共同处理,大幅度减少任务时间。联合多台电脑一起工作的系统就是分布式系统。...
「范式」概念是库恩范式理论的核心,而范式从本质上讲是一种理论体系。库恩指出:「按既定的用法,范式就是一种公认的模型或模式」。