T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。因为车联网数据的多样性,T3出行构建了以 Apache Hudi 为基础的企业级数据湖,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技...
一是客户端、服务端需要的内存会变多(需要维护一些分区的信息,如果分区越多,这些信息所占的内存就越大)
在业务离线数据分析场景下,往往需要将Mysql中的数据先导出到分布式存储中,如Hive、Iceburg。这个功能实现的方式有很多,但每种方式都会遇到一些问题(包括阿里开源的DataX)。本文就介绍下这个功能的优化之路,并最终给出一个...