本章仅对部分代码进行讲解,以帮助读者更好的理解章节内容。本系列文章涉及的项目HardwareVideoCodec已经开源到Github。目前已迭代多个稳定版本,欢迎查阅学习和使用,如有BUG或建议,欢迎Issue。
封面出自:板栗懒得很
其实这一两年关于Android 平台的视频编解码学习资料已经很多了,包括书籍和网上的一些公开教程。书籍讲得详细一点,所以推荐大家去买些书籍看看。而网上的资料的话,大多是零星点点,新手学习起来并不是很轻松,包括我。所以这也是促使本人对这一块知识做记录的原因。 我打算开几个章节来分享一下相关的知识点,因为想详细展开,内容可能有点多,也算是做一些个人笔记。
这个笔记的主要内容是,使用硬编和软编的方式解决Android视频编解码的问题(后续会支持解码),并且使用OpenGL实现滤镜渲染,包括美颜,水印等等。
该项目已经开源在Github,目前已经迭代到了1.2.1版本,使用GPL开源协议,请大家遵守该协议,为开源事业做点贡献。名字虽然叫做硬编解码器,但其实已经扩展了软编。HardwareVideoCodec使用Kotlin
实现,没有学过Kotlin的不需要害怕,先去看一些语言基础就可以了
知识点
- OpenGL
- EGL(全称Embedded Graphics Library,一组OpenGL连接本地窗口的接口,主要通过Surface向窗口绘制帧画面,以及给MediaCodec提供帧数据)
- FBO(帧缓冲区,这里主要用于离屏渲染以及特效)
- PBO(像素缓冲区对象,可以高效读取GPU中的像素数据,用于软编)
- 纹理
- Camera
- SurfaceTexture(集成了EGL环境的Surface,可以很方便的与OpenGL联动,也是TextureView提供的渲染接口)
- MediaCodec(硬编解决方案)
- X264(软编解决方案)
- MediaMuxer(音视频混合器)
以上内容我会选一部分在接下来的时间里详细展开,尤其是OpenGL和编码那一块。
可能有人有疑问,软编解码首选的不是大名鼎鼎的ffmpeg吗,为什么直接使用x264。这里我可以很负责任的告诉你,直接使用x264,再配合MediaMuxer使用会简单很多,也是因为硬编同样会用到MediaMuxer。
大家都知道ffmpeg其实就是在众多编解码器上套个壳子,再集成一个混合器,虽然功能众多,但是却很臃肿(当然已经很出色了),以至于我来了来来回回学习了4 次也没有掌握。ffmpeg的头文件相当多,相比之下,x264只有一个头文件,没几个方法,掌握起来很容易。对于编解码常常用到的颜色格式(ColorFormat)转换,ffmpeg提供了swscale,功能虽然很强大,但效率不敢恭维,完全可以使用google的libyuv替代。所以,如果没有很复杂的功能需求,还是老老实实的使用x264来的方便。
先简单看一下HardwareVideoCodec的结构图:
从结构图中可以看到,HardwareVideoCodec做了比较详细的分层结构,从上往下总共四层
- 总控制器
- 帧渲器
- 编码器
- 混合器 可以很方便的进行扩展,比如把混合器去掉,在编码器数据出口处增加直播推流都是很方便的。
- CameraPreviewPresenter:名字虽然叫做摄像头预览管理器,但其实也有统筹渲染器、编码器、混合器职能。在这个层级会持有摄像头,并且初始化一组EGL,提供取出摄像头数据的环境。
- Render:摄像头数据在这里取出,并保存在第一组FBO。同时这一层的EGL环境会把FBO的数据绘制到TextureView提供的SurfaceTexture,也就是屏幕。这里还有一组filter,OpenGL的滤镜入口在这里。
- Encoder:音视频编码器的抽象层,利用这组接口可以很方便的扩展自己的编码器。当然,笔者在这里已经提供了软硬编码器的实现。
- Muxer:混合器,用来混合音视频,并把它们封装成需要的格式,这里固定封装成mp4。 以上是HardwareVideoCodec的简单结构,作为序章就先讲这么多。接下来我会继续更新,详细去讲解具体实现,以及在实现过程中会碰到的一系列问题。有兴趣的可以去Github上查看源码学习,欢迎star以及issue。
分类:
多媒体系列文章