经历2个月的开发迭代,发版阶段两轮修改投票,Apache Hudi社区发布了0.5.2版本,该版本解决了所有Apache合规性问题,为Apache Hudi后续毕业做好了准备。当然除解决合规性问题外,还有一些其他注意事项。
1. 迁移指南
- Write Client模块组织结构进行了重构,具体参见HUDI-554。现在
client
包包含所有事务管理的类,func
包被重命名为execution
,一些帮助类被移动到了client/utils
中,之前所有在io
包下和压缩(compaction)相关代码已经被移动到table/compact
下。table/rollback
包放置了和回滚(Rollback)操作相关代码,一些通用类放在了table
包下。上述变更仅影响依赖hudi-client模块的用户,使用deltastreamer/datasource的用户不受影响,不需要做任何变更。
2. 关键特性
- 支持在
hoodie.properties
指定hoodie.compaction.payload.class
配置项来重写palyload实现,在此之前一旦在hoodie.properties
中设置了payload类便不可更改。但是在一些情况下,比如进行代码重构后jar包更新,可能需要传递新的payload实现,如果你有这种需求,不妨尝试使用这个特性。 TimestampBasedKeyGenerator
支持CharSequence
类型,之前TimestampBasedKeyGenerator
只支持Double
,Long
,Float
,String
四种分区字段类型,现在扩展到可以支持CharSequence
的分区字段类型。- Hudi现在支持通过
hoodie.datasource.read.incr.path.glob
配置项来指定分区进行增量拉取,一些场景下用户只需要增量拉取部分分区,这样通过只加载相关Parquet数据文件来加速数据拉取。 - 0.5.2版本支持在
GLOBAL_BLOOM
索引下,允许分区路径更新。在此之前设置GLOBAL_BLOOM
索引,更新的记录有不同的分区路径时,Hudi会忽略新的分区路径并在之前旧分区更新记录,现在Hudi支持在新的分区插入数据并且删除老的分区数据,通过hoodie.index.bloom.update.partition.path=true
配置项可以开启这个特性。 - 0.5.2版本通过提供
JdbcbasedSchemaProvider
来支持通过JDBC获取元数据。这对于一些想从MySQL同步数据并且想从数据库中获取schema的用户非常有用。 - 0.5.2版本对于
HoodieBloomIndex
索引已不再有2GB大小的限制,在spark 2.4.0版本之前,每个spark分区有2GB大小的限制,在Hudi 0.5.1时将spark的版本升级到了2.4.4,现在便不再有任何限制,因此移除了HoodieBloomIndex
中对于安全并行度的计算逻辑。 - CLI相关变更
- 允许用户指定配置项来打印附加的commit元数据,比如Log Block总数,Rollback Block总数,压缩、更新总条数等等。
- 支持
temp_query
和temp_delete
来查询和删除临时视图,该命令会创建一个临时表,用户可以通过HiveQL来查询该表数据,如
java temp_query --sql "select Instant, NumInserts, NumWrites from satishkotha_debug where FileId='ed33bd99-466f-4417-bd92-5d914fa58a8f' and Instant > '20200123211217' order by Instant"
3. 最后
感谢如下贡献者(排名不分先后):@smarthi, @yihua, @bvaradar, @leesf, @wangxianghu, @lamber-ken, @bhasudha, @hmatu, @nbalajee, @prashantwason, @satishkotha, @dengziming, @xushiyan, @RickyRajinder, @OpenOpened, @nsivabalan, @amitsingh-10, @yanghua, n3nash, @garyli1019, @ramachandranms, @vinothchandar, @vikrantgoel