最新 最热

Hive环境搭建 | 数据仓库工具搭建详细过程

hive是基于Hadoop的一个数据仓库的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。...

2022-05-31
0

Sqoop集群环境搭建 | MySQL数据导出HDFS测试

Apache Sqoop是在Hadoop生态体系和*RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可...

2022-05-31
0

【搜索引擎】Solr:提高批量索引的性能

几个月前,我致力于提高“完整”索引器的性能。我觉得这种改进足以分享这个故事。完整索引器是 Box 从头开始创建搜索索引的过程,从 hbase 表中读取我们所有的文档并将文档插入到 Solr 索引中。...

2022-05-30
1

Flink window

我们经常需要在一个时间窗口维度上对数据进行聚合,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对窗口内的数据进行处理...

2022-05-30
1

HugeCTR源码简单走读

这段时间除了开发算子之外,还在做一些推荐系统相关的工作,这期间主要看的是HugeCTR的代码,其性能优异,系统不复杂,代码结构较扁平,整体还是比较清晰。在这段时间看源码的过程中也算是对HugeCTR有一点了解,这篇博客主要梳理下...

2022-05-27
0

Flink教程(1) Flink DataStream 创建数据源 转换算子「建议收藏」

从前年开始,就被公众号上Flink文章频繁的刷屏,看来是时候了解下Flink了。 Flink官网第一句话介绍是数据流上的有状态计算。 我第一眼看这句话感觉很拗口,什么是流上的计算?什么是有状态? 作为菜鸟,我觉的学习Flink最好方法...

2022-05-26
1

Postgresql源码(50)语法解析时关键字判定原理(函数名不能使用的关键字为例)

已创建失败的函数normalize为例,分析语法解析过程 CREATE OR REPLACE FUNCTION normalize(x int) RETURNS int AS $$

2022-05-26
1

Pyspark学习笔记(五)RDD操作(三)_键值对RDD转换操作

Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下)......

2022-05-25
0

CUDA WarpReduce 学习笔记

之前看我司的 如何实现一个高效的Softmax CUDA kernel?多少还是有些细节没有理解,恰好最近要做一个类似的 Reduce+Scale Kernel,原理机制还是比较相似的,所以翻出来重新理解一下。...

2022-05-25
0

Python 中的万能之王 Lambda 函数

Lambda函数也被称为匿名(没有名称)函数,它直接接受参数的数量以及使用该参数执行的条件或操作,该参数以冒号分隔,并返回最终结果。为了在大型代码库上编写代码时执行一项小任务,或者在函数中执行一项小任务,便在正常过程中...

2022-05-24
0