spark批量读取大量小文件的办法

2022-05-07 14:23:22 浏览数 (1)

在实际工程中，经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。

幸运的是，spark原生是支持这种功能的。它可以批量地读取众多的文件，也可以按照一定的方式进行过滤。

命令十分简单。如下：

sc.textfile("/dir/*.txt")

其中DIR就是路径，而＊.txt则是对某种类型的文件进行过滤。

通过这种方式，可以直接实现对众多小文件的快速读取。（而且还是多核并行的方式），比起传统的多线程操作，还是快多了。

spark txt 遍历多线程

0 人点赞