有过多年应用开发经验的同学大都会体验过数据库 IO 比较慢的情况,但到底会慢到什么程度,特别是和其它读写数据的手段相比的差距,可能很多人还没有感性认识。 Java 是普遍采用的应用开发技术,我们来实际测试一下,Java 程序从 Oracle 和 MySQL 这两种典型数据库中读数的性能,并和读文本文件对比。 用国际标准 TPCH 的工具生成数据表,选用其中的 customer 表,3000 万行,8 个字段。生成的原始文本文件有 4.9G。将这些数据导入到 Oracle 和 MySQL 中。 硬件环境是单台 2CPU 共 16 核的服务器,文本文件和数据库都在 SSD 硬盘上。所有测试都在本机完成,没有实质上的网络传输时间。
Java 代码直接写起来比较麻烦,我们这里用 SPL 编写,SPL 就是简单封装了 Java 的读数动作,最后都是通过数据库的 JDBC 驱动取数,不会影响性能。这里用 SPL 游标取出数据并且全部转换成内存对象才算是完整的读数动作。
A | |
---|---|
1 | =now() |
2 | =connect("oracle") |
3 | =A2.cursor@x("select * from customer") |
4 | for A3,10000 |
5 | =interval@s(A1,now()) |
将整个 3000 万行的表全部读出,Oracle 大约耗时 280 秒,平均每秒 10 万行,MySQL 约 380 秒,平均每秒 8 万行。 读取速度和字段数量及数据类型都相关,当然也和硬件环境相关,所以这个测试结果只能作为一种参考,换了环境可能会相差很大。
但同等环境下和其它数据读取手段就有可比性了,我们还是用 SPL 直接读取 TPCH 生成的文本文件:
A | |
---|---|
1 | =now() |
2 | =file("/home/tpch/customer.tbl") |
3 | =A2.cursor(;,"|") |
4 | for A3,10000 |
5 | =interval@s(A1,now()) |
和数据库的测试一样,用 SPL 游标取出数据并转换成内存对象。读完 3000 万行仅用了 42 秒。比 Oracle 快了 6 倍多,比 MySQL 快了 9 倍! 我们知道,文本解析是非常麻烦的事情,非常消耗 CPU,但即使这样,从文本文件读数还是远远快于从数据库读数。
我们再来测试二进制文件,感受一下文本解析造成的性能损失。 为了对比明显以及后面还要做的并行测试,我们换了更大的 orders 表,有 3 亿行,9 个字段。从文本文件读数的代码和刚才类似,实测耗时 483 秒 将这个文本文件转换成 SPL 的组表文件,再测试读取速度:
A | |
---|---|
1 | =now() |
2 | =file("/home/tpch/orders.ctx").open() |
3 | =A2.cursor() |
4 | for A3,10000 |
5 | =interval@s(A1,now()) |
耗时 164 秒,大概比读文本文件快 3 倍。 这是情理之中的事,因为二进制数据不再需要解析,可以直接产生对象,计算量少了很多,因而要更快。
按说数据库存储也是二进制格式,也没有文本解析的麻烦。因为要考虑写入而不能压缩,速度赶不上紧凑的 SPL 组表还算是正常的,但比文本文件还慢就有点难以理解了。 事实上,如果用 SQL 针对这个数据表做一次遍历式的聚合运算,返回很小的结果集,就会发现速度也挺快,会比基于文本文件上做同样运算快得多。这说明在数据库内部遍历数据表并不慢,也就是说这个存储格式本身的性能并不差。 慢都慢在接口上了,就是 JDBC 的驱动非常慢。这甚至会让人感觉是故意而为,就是期望甚至强迫数据不要出库,一切运算都放在数据库内实现。 这样,我们会有一个结论:追求大数据计算性能的时候,不能从数据库临时读数来计算,计算任务最好不要出库。如果某个任务一定要读出数据才能计算(因为有时 SQL 很难写甚至写不出来某些计算逻辑),那就别把数据放进数据库中了。数据继续在数据库中,而在外部无论怎样实现高性能算法,大部分情况都是无济于事的,除非数据量很小。 所以,以提升 SQL 计算性能为目标的 SPL 必须自己实现某种存储格式,不可能基于数据库的存储实现高性能。
如果场景实在需要从数据库中读出数据,又有什么办法提速呢? 仅仅是接口速度慢,也就是说这个慢并不是数据库负担重造成的,这时候可以使用并行技术来提速。 Java 实现多线程并行有点麻烦,我们用 SPL 写出并行取数的代码来测试:
A | B | |
---|---|---|
1 | =now() | |
2 | =connect("oracle").query@ix("SELECT COUNT(*) FROM CUSTOMER")(1) | |
3 | >n=6 | |
4 | =n.([int(A2/n)*(~-1),int(A2/n)*~]) | |
5 | fork A4 | =connect("oracle") |
6 | =B5.cursor@x("SELECT * FROM CUSTOMER WHERE C_CUSTKEY>? AND C_CUSTKEY<=?",A5(1),A5(2)) | |
7 | for B6,10000 | |
8 | =interval@s(A1,now()) |
注意每个线程都要独立连接数据库,不能共用同一个连接。 实测表明,在线程数不多的情况(一般 <10),能达到接近线性提速的效率,也就是有几个读数线程,读数速度就能接近快几倍,实测 6 线程能快出 5 倍。 这里要先计算出总的数据行数,然后再为每个线程拼出 WHERE 条件读取其中一部分数据,这意味着数据库多做了很多计算动作,但读取性能仍然有相当明显的提升,这进一步说明慢主要是慢在接口上,而不是数据库内部的读取和计算慢。
当然,用文件存储时,就更容易用并行提速了,SPL 实现这些并行计算都很简单: 文本并行取数:
A | B | |
---|---|---|
1 | >n=4 | =now() |
2 | =file("/home/tpch/orders.tbl") | |
3 | fork to(n) | =A2.cursor(;A3:n,"|") |
4 | for B3, 10000 | |
5 | =interval@s(B1,now()) |
组表并行取数:
A | B | |
---|---|---|
1 | >n=4 | =now() |
2 | =file("/home/tpch/orders.ctx").open() | |
3 | fork to(n) | =A2.cursor(;;A3:n) |
4 | for B3, 10000 | |
5 | =interval@s(B1,now()) |
实测结果和数据库类似,在线程数不很多的情况,也能达到线性提速。这里测试的 4 线程,文本读数速度提升了 3.6 倍,组表读数速度提升了 3.8 倍。