parquet_字节宝

【python】pyarrow.parquet+pandas：读取及使用parquet文件

pyarrow.parquet模块，可以读取和写入Parquet文件，以及进行一系列与Parquet格式相关的操作。例如，可以使用该模块读取Parquet文件中的数据，并转换为pandas DataFrame来进行进一步的分析和处理。同时，也可以使用这个模块将Da...

pandas parquet 数据 Python data

2024-07-30

Hive中parquet压缩格式分区表的跨集群迁移记录

从华为A集群中将我们的数据迁移到华为B集群，其中数据经过华为集群管理机local跳转。

迁移 parquet 集群压缩 hive

2024-07-25

NOIP2022模拟赛二 By JTZ 10.18

暴力枚举左端点 i，再二分一个右端点满足 k|gcd(i,r)，再在该区间二分满足 gcd(i,r)==k。

安全 parquet

2024-02-02

Spark sql 是如何优化执行的

Spark SQL 端到端的完整优化流程主要包括两个阶段：Catalyst 优化器和 Tungsten。其中，Catalyst 优化器又包含逻辑优化和物理优化两个阶段。为了把开发者的查询优化到极致，整个优化过程的运作机制设计得都很精密，因此我会...

SQL api spark parquet transactions

2022-11-10

降低数据大小的四大绝招。

在非常多的问题中，例如商品推荐数据存储（大量的用户和商品，还有购买金额等信息），金融数据存储（大量的标的，价格等），我们不可避免的都会碰到数据过大的问题，如果对这类数据进行处理显得直观重要，本文我们介绍碰到大数据时，我们采用...

express numpy byte kaggle parquet

2022-10-27

更新操作的秘密

让我选最核心的特性的话，我会选择第二个。在大数据领域，我们也是一步步进化的，从最早的数据存储采用纯文本，到后面ORC/Parquet等面向读的格式。但是他们都存在一个一个很大的问题，就是不可变，只增。但现实中的业务场景里太...

json hbase commit parquet upsert

2022-07-21

geopandas&geoplot近期重要更新

最近一段时间（本文写作于2020-07-10）geopandas与geoplot两个常用的GIS类Python库都进行了一系列较为重大的内容更新，新增了一些特性，本文就将针对其中比较实际的新特性进行介绍。...

api conda geopandas parquet shapefile

2022-04-03

Delta Lake如何自己实现更新操作加速(布隆过滤器)

Delta Lake 现阶段判定一条数据是不是已经存在是比较暴力的，直接做一次全表join（如果有分区会好点）。这样可以得到待更新记录所在的文件路径。在特定场景，这个开销会非常大。上次和一位朋友聊天，他对这个点也"耿耿于怀"...

commit join parquet rename 索引

2022-01-07

一段有用的代码 | Flink读写parquet文件

Flink读parquetimport org.apache.flink.core.fs.Pathimport org.apache.flink.formats.parquet.ParquetRowInputFormatimport org.apache.flink.streaming.api.scala.Str...

flink parquet

2021-09-18

揭秘ApacheHudi数据湖的文件管理

Hudi将记录写入数据 parquet文件或日志 log文件，而这些文件在内存中是如何进行管理呢？如之前的文章中提到过的 HoodieFileGroup、 FileSlice等与数据文件和日志文件是什么对应关系？本篇详细分析 Hudi的文件管理。...

parquet timeline treemap 日志

2021-04-13

1 2