最新 最热

分布式协调框架zookeeper

RPC(Remote Procedure Call,远程过程调用),一般用来实现部署在不同机器上的系统之间的方法调用,使得程序能够像访问本地系统资源一样,通过网络传输去访问远端系统资源;对于客户端来说, 传输层使用什么协议,序列化、反序列化都...

2022-10-25
3

Git工作中的使用

git是一个命令行工具,当前的最新版本是Git-1.9.5-preview20141217.exe。安装过程很简单,一路默认next既可。

2022-10-25
3

Spark任务写数据到s3,执行时间特别长

目前使用s3替代hdfs作为hive表数据存储,使用spark sql insert数据到hive表,发现一个简单的查询+插入任务,查询+insert的动作显示已经执行完,任务还在跑,直到跑了两个小时后才执行结束。...

2022-10-11
4

git 日志

git log查看历史的git commit快照操作[root@zutuanxue git_data]# git logcommit 326e57a3f87de546c8c17774f174192e280e36fc (HEAD -> master)#哈希字符串的描述信息 HEAD->master表示当前工作目录......

2022-09-15
1

hudi时间旅行查询

hudi每次数据写入时都会生成一个时间戳,用于表示数据写入的时间,基于该特性,在进行数据查询时可使用该时间对hudi中数据进行查询。

2022-08-30
2

ORA-01439:要更改数据类型,则要修改的列必须为空

在Oracle修改user表字段name类型时遇到报错:“ORA-01439:要更改数据类型,则要修改的列必须为空”,是因为要修改字段的新类型和原来的类型不兼容。

2022-08-18
1

写一个 Vue 的插件 toast

本人在造轮子过程中遇到写 toast 组件时为考虑方便用户调用,因此采用插件方式写 toast,

2022-08-15
2

git 统计两个 commit 之间相差的次数

本文告诉大家在一个连续的 commit 树中统计两个 commit 之间的差异的 commit 数量,也就是存在 A commit 存在而 B commit 不存在的 commit 的数量

2022-08-12
1

更新操作的秘密

让我选最核心的特性的话,我会选择第二个。在大数据领域,我们也是一步步进化的,从最早的数据存储采用纯文本,到后面ORC/Parquet等面向读的格式。但是他们都存在一个一个很大的问题,就是不可变,只增。但现实中的业务场景里太...

2022-07-21
5

Delta Lake 批流的左右逢源

在前面的章节里,我们讨论了Delta将一切数据操作都抽象为文件的增加和删除,并且将增加和删除的动作记录到日志里(_delta_log),并且我们也探秘了Detla的目录结构,很简单根目录是数据目录,可能有分区可能没有,根目录里还有个特...

2022-07-21
4