官方文档:https://spark.apache.org/docs/2.2.0/ml-tuning.html
目前我们的图数据库数据量为 顶点 20 亿,边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库一个主库四个备库,机器的配置都比较高,256G 内存 SSD 的磁盘,单机数据量为 3T左右。在数据量比较小的情况下 AgensGraph...
本文主要从以下四个方面介绍:Spark SQL 在字节跳动的应用;什么是分桶;Spark 分桶的限制;字节跳动在分桶方面的优化。