最近一位3年工作经验的小伙伴去某厂面试,被问到这样一个问题,说:”请你简单说一下Kafka的零拷贝原理“。然后,这位小伙伴突然愣住了,什么是零拷贝,零拷贝跟Kafka有关系吗?
那么今天,我给大家来聊一聊我对Kafka零拷贝原理的理解。
另外,我花了很长时间,准备了一份500页的PDF面试资料文档和一份10W字的Java总结面试题和答案,
1、什么是零拷贝?
在实际应用中,如果我们需要把磁盘中的某个文件内容发送到远程服务器上,它必须要经过几个拷贝的过程,如图所示:
ENTER TITLE
1、从磁盘中读取目标文件内容拷贝到内核缓冲区
2、CPU控制器再把内核缓冲区的数据赋值到用户空间的缓冲区中
3、接着在应用程序中,调用write()方法,把用户空间缓冲区中的数据拷贝到内核下的Socket Buffer中。
4、最后,把在内核模式下的SocketBuffer中的数据赋值到网卡缓冲区(NIC Buffer)
5、网卡缓冲区再把数据传输到目标服务器上。
ENTER TITLE
在这个过程中我们可以发现,数据从磁盘到最终发送出去,要经历4次拷贝,而在这四次拷贝过程中,有两次拷贝是浪费的,分别是:
1、从内核空间赋值到用户空间
2、从用户空间再次复制到内核空间
除此之外,由于用户空间和内核空间的切换会带来CPU的上线文切换,对于CPU性能也会造成性能影响。
而零拷贝,就是把这两次多于的拷贝省略掉,应用程序可以直接把磁盘中的数据从内核中直接传输给Socket,而不需要再经过应用程序所在的用户空间,如下图所示。
ENTER TITLE
零拷贝通过DMA(Direct Memory Access)技术把文件内容复制到内核空间中的Read Buffer,
接着把包含数据位置和长度信息的文件描述符加载到Socket Buffer中,DMA引擎直接可以把数据从内核空间中传递给网卡设备。
在这个流程中,数据只经历了两次拷贝就发送到了网卡中,并且减少了2次cpu的上下文切换,对于效率有非常大的提高。
2、Kafka零拷贝?
所以,所谓零拷贝,并不是完全没有数据赋值,只是相对于用户空间来说,不再需要进行数据拷贝。对于前面说的整个流程来说,零拷贝只是减少了不必要的拷贝次数而已。
ENTER TITLE
在程序中实现零拷贝的方式有三种:
1、在Linux中,零拷贝技术依赖于底层的sendfile()方法实现
2、在Java中,FileChannal.transferTo() 方法的底层调用的就是 sendfile() 方法。
3、MMAP 文件映射机制。它的原理是,将磁盘文件映射到内存, 用户通过修改内存就能修改磁盘文件。使用这种方式可以获取很大的I/O提升,省去了用户空间到内核空间复制的开销。
以上就是我对于Kafka中零拷贝原理的理解
本次的面试题涉及到一些计算机底层的原理,大家在平时的业务开发过程中也很少关注。但我想提醒大家,如果要在技术路上走得更远,还是要多关注一些底层的实现原理,把基础打牢固。
最后,我把之前分享的资料全部整理成了文字,希望能够以此来提高各位粉丝的通过率。
我是被编程耽误的文艺Tom,只弹干货不掺水!你们的支持就是我最大的动力!关注我,面试不再难!