学习音视频技术要看什么书?世界读书日图书推荐

2022-04-22 16:43:27 浏览数 (1)

 点击上方“LiveVideoStack”关注我们

世界读书日(World Book Day),也被称为世界图书和版权日,是联合国教科文组织为促进阅读、出版和推进版权保护而设立的节日,在每年的4月23日进行庆祝。之所以将世界读书日设立在4月23日,是因为这一天也是英国文学巨匠莎士比亚、西班牙伟大作家塞万提斯以及秘鲁伟大的编年史家印卡·加西拉索·德拉维加的辞世纪念日。

每年的读书日,来自世界各地的爱书之人都会以不同的方式庆祝这个节日,比如组织读书会一起阅读一本好书、打扮成文学作品中的人物、去独立书店购买几本心仪已久的读物、将图书作为礼物送给朋友,或者将看过的旧书捐赠给图书慈善机构等等。

在今年的世界读书日来临之际,LiveVideoStack邀请了来自音视频领域的9位技术人士,为大家推荐了18本好书(每人推荐两本),其中有学习音视频技术的入门书籍,也有锻炼程序员思维的非技术佳作;有引人思考、启人心智的哲学书,也有介绍现代科技发展和演变的技术通史;有闻名遐迩的大家之作,也有深入浅出的技术经典。

读书,使人进步

策划:Alex

曾凯 /

SSIMWAVE 联合创始人、研究员

Intelligent Image and Video Compression: Communicating Pictures(Second Edition)

作者: David R. Bull and Fan Zhang

推荐理由:

如果你对图像与视频的编码和压缩感兴趣,这本书绝对应该放在你的书架上。我在2021年接触这本书的时候就觉得眼前一亮,第一感觉就是总算有人系统地把视觉编码方向的经典知识与近十几年的研究成果统筹了起来,以后有人想接触这个研究领域就再也不用在茫茫的论文大海里找方向了。

与传统的图像与视频处理的大部头讲述经典知识不同,这本书深入浅出地讲解了人类近二十年来在视觉信息编码这一多领域交叉学科里取得的几乎所有的重要成果,非常与时俱进。其内容涵盖视觉感知、信息论、有损与无损压缩,以及各种编码标准(从H.261到H.266,VP9和AV1等)。它不仅可以做为个人知识查漏补缺的工具书,也可以做为视觉编码方向的教科书。书中用浅显易懂的语言和丰富的图片直观且形象地为读者讲述各类技术与算法的由来、重要性以及具体的方法。推荐收藏与阅读。

《全球科技通史》

作者:吴军

推荐理由:

“以史为鉴,可知兴替”。各类简史类书籍也算读了不少,吴军老师的这本著作给我留下了非常深刻的印象。作者深厚的科研背景、丰富的业界与投资经验,以及对科学技术与人类社会(特别是商业活动)的见解,使他能够站在一个非常高的位置,从历史的角度来观察与分析一些真理和普遍的规律。这本书沿着能量和信息两条主线,带领读者遍览远古、古代、近代,以及现代科技的发展与演变。个人感觉阅读的同时,如同有一位极具智慧的导游在身旁一般,边讲解边分析科技迭代的过程,并时不时引发深入的思考。

每每阅读告一段落,合上书本时,总是感叹人类一步步的进化,一点点揭开世界本质的过程是多么的神奇,现代社会的发展是如何迅速,同时也越能体会到“当今科技发展日新月异”的含义。抬头向前,科技又会将人类引领至何方?脑中的求知欲被不断地激发,而最终留在心中的感受正如很多评价本书的读者提到的“历史总在重演,科技永远向前”。相信这句话也同样激励着像我一样的科技工作者们,一代接一代不断推动着人类科技的车轮,勇敢探索,勇往直前!

宋利 /

上海交通大学教授、博士生导师

《存在主义咖啡馆:自由、存在和杏子鸡尾酒》

作者:[英] 莎拉·贝克韦尔

译者:沈敏一

推荐理由:

这本书是存在主义哲学的有趣视角,是关于存在主义者这一群体的传记。作者虚构了一个咖啡馆,把存在主义的大师们置于一个“巨大、繁忙的心灵咖啡馆之中,也许是巴黎的一个咖啡馆,它充满活力和运动,以及交谈和思想的喧闹声”。萨特和波伏娃是咖啡馆的常客,胡塞尔、雅斯贝斯、加缪、梅洛-庞蒂等存在主义重要人物也悉数登场。

阅读这本书很过瘾,也很冒险,一不小心就被这些哲学家给嘲弄了。你会有提出问题的冲动,尝试着去思考和寻找答案,然后看更多书的冲动(这本书里面的书单就够多了),很快又会陷入无意义感或虚无感。当然思考本身也是存在的证据或意义,你会不自觉地琢磨“存在先于本质”、“他人即地狱”等箴言。这些思考和感悟会慢慢地沉淀下来,就像歌词“从来不需要想起,永远也不会忘记”一样。总之,非常适合品咖啡时看此书,非常有质感。

《科学之路:人、机器与未来》

作者:[法] 杨立昆(Yann LeCun)

译者:李皓、马跃

推荐理由:

首先,作者很牛,“图灵奖”得主、“深度学习三巨头”之一、“卷积神经网络之父”,所以写关于AI的书无疑质量是一流的。其次,这本书的中文版中,几位大佬写的序也非常好,也非常值得看。我比较喜欢吴军老师的序言,对书中四个部分的要点给了很好的总结:第一部分是自传,关于杨立昆独特的求学和科研经历,非常具有启发意义;第二部分是基于深度学习的AI原理,杨立昆总结为数学 算力 大数据;第三部分是对当前人工智能各种应用的讲述;第四部分讲述今天人工智能的局限性,包括技术不足以及AI所带来的社会风险。

还有一个理由,我是杨立昆博士的铁粉,很早就关注他的工作和看他的东西(大约15年前),他的算法水平高,代码能力也很强。代表性的那篇CNN论文写得真好,可以当作博士们写论文的样板。另外他表达观点犀利,说话不绕弯,很有Hacker和Geeker精神。总之,杨大侠的科研心经绝对值得一读。

段兵楠 /

美团基础技术部技术专家

Video Demystified: A Handbook for the Digital Engineer(Fifth Edition)

作者:Keith Jack

推荐理由:

音视频相关技术书籍其实一直比较匮乏,最近几年还多了一些,包括网上也有越来越多的技术文章、公众号文章,甚至视频等,但是十几年前真是啥也没有。这本书是我在第一家公司时一位前辈推荐给我的。

本书较为全面地介绍了当时最新的数字视频相关技术,比较适合当时的广电行业音视频工程师阅读。系统介绍了视频格式、颜色空间、视频信号、视频接口、数字视频处理需求和彩色电视制式标准等基本概念和基本原理,还包括各种视频压缩标准以及数字电视标准等。从内容看确实跟现在互联网音视频行业有点“脱节”,很多技术在现在可能不会直接接触到了,但它们确实是音视频领域的根基和基础。“基础永不过时”,所以你如果感兴趣的话,可以去“考古”。

《亚马逊逆向工作法》

作者:[美]科林·布里亚、比尔·卡尔

译者:黄邦福

推荐理由:

这本书是学习亚马逊的经典必读书籍。

个人感觉现在很多互联网公司都在提倡学习亚马逊:“长期有耐心”、“Always Day 1”、“六页纸”…… 这些词你是不是都很耳熟?你可能理解它们的意思,但是否了解其背后的逻辑和形成原因?这本书可以告诉你“当我们在谈论学习亚马逊时,我们到底在谈论什么”。这本书的作者是亚马逊的两位早期初创员工,他们不但是亚马逊最高领导团队(S-Team)的成员,还经常与贝索斯共同开会讨论新商机,协助落实公司许多商业流程。他们不仅亲身见证和参与亚马逊创新产品与服务的研发,更帮忙塑造亚马逊的企业文化与工作思维。

回到本书的主题,书名叫“Working Backwards”,那与之相对的工作方法叫啥?在2008年的贝索斯致股东信中提到:“逆向工作法(Working Backwards)依从客户需求出发,技能导向法(Skills-forward)利用已有能力出发驱动业务机会,两者形成鲜明对比。技能导向指的是‘我们擅长做X’、‘通过X我们还能做什么?’。这确实是一种有用并且一定程度上奏效的商业模式。但是,如果公司沉浸于此,就会丧失研发创新的动力。最终,现有的技能将越发过时。从客户需求出发的逆向工作法,往往要求我们必须探索新技能并加以磨练,而不在乎迈出第一步时的那种不适与尴尬。” 这段话给我个人很大启发,我之前的思路是:我擅长XX技术,我要做这个方向的事情;现在是:客户最需要什么我就做什么,遇到不懂的没关系,我可以学。

刘歧 /

快手音视频资深架构师

FFmpeg-From Zero to Hero

作者:Nick Ferrando

推荐理由:

如果你想知道YouTube或Vimeo的开发人员如何处理数十亿的视频上传或 Netflix如何大规模处理其各种标题下的音视频内容,或者想了解如何创建和开发自己的视频平台,又或者你可能想了解更多关于 FFmpeg的知识,那么这本书非常适合你。

FFmpeg代表“Fast-Forward-Moving-Picture-Experts-Group”。这本书包含了一个基本指南、一个基础的手册和许多工作公式以及FFmpeg和许多其他音频、视频、图像和字幕处理软件的逐步语法解释。

这本书还描述并解释了几种与 FFmpeg 一起工作的工具,例如 ImageMagick、Bento4、GhostScript、WebP 工具等。本书还包含一个专门的分步指南,用于FFmpeg在MacOS X、Ubuntu和Windows平台上的各种安装选项。

无论你是刚开始进入音视频领域还是经验丰富的开发人员,都会从中找到几种有效的方法来执行许多任务以满足你的音频/视频/流媒体需求。

《认识商业(原书第12版)》

作者:[美] William Nickels、James McHugh 、Susan McHugh

译者:何峻、许俊农

推荐理由:

写代码之余业余读一读代码之外的书,提升其他方面的认知,包括如何开公司、如何组建团队、如何带领团队以及如何做好一个商业公司等。虽然并不是特别深入,但是足够使我们对做好一家公司的各方面需要准备的内容有一个基本的认知,这本书内容比较全,在公司内部做事的时候可以根据书中学到的内容进行训练,努力使自己走向成熟。

冯建元 /

声网Agora音频算法负责人

《语音学:标音、产生、声学和感知》

作者:[德]亨宁·雷茨  [荷]阿拉德·琼曼

译者:曹梦雪、李爱军

推荐理由:

这本书其实可以作为语音学的一本教材。而发音原理和感知是计算机专业或者音频从业人员往往容易忽视的一个领域。这本书在我做音效,语音合成的时候有很大帮助,能从原理上帮助人们理解很多语音、语言发音与感知背后的自然规律。这本书的语言浅显易懂,提供的知识却又系统完整。很适合作为入门级的读物。

而且所讲述的内容除了工作之外很多还可以在平时日常生活中使用、实践和体会。理解和感悟后可提升音频内力,搭配音频处理的其他技术书籍往往事半功倍。

《中国古代文化常识》

主编:王力

推荐理由:

他山之石可以攻玉,无用之用方为大用。《中国古代文化常识》,这本看似可能离你专业最远的“闲书”却能意外地有用和有趣。古代的衣食住行真实情况如何?穿越回去会有哪些需要注意的地方?书中内容不比穿越小说、电视剧来得有趣、真实得多?

根据《中国古代文化常识》,中国古代有“宫、商、角、徴、羽”五音对映了“do 、re、 mi、 so、 la”,如果和电音中的自动修音(Autotune)结合其实就是国风电音。当然这都是后话,每天憧憬未来、挖空心思地创新努力不妨也抽空看看这本书,增加点“常识”才能厚积薄发。

宋慎义 /

火山引擎实时音视频技术负责人

《FFmpeg从入门到精通》

作者:刘歧、赵文杰

推荐理由:

音视频开发门槛比较高,很重要的原因是缺少使用专业的开发调试工具。FFmpeg就是这样一款通用工具,它开源、功能灵活、有稳定的开发者社区、有强大的二次开发能力,被称为音视频开发的“瑞士军刀”,它不一定是性能最强的工具,但一定是最好用的一款。

这是一本很务实的书籍,作者是国内早期的FFmpeg使用者和开发者,书中还原了开发者学习和运用音视频知识的最佳实践。也帮助开发者将枯燥复杂的音视频知识抽丝剥茧,结合实践对每一个环节进行深入学习。对于音视频爱好者而言,这不完全是一个开发手册,更适合作为一个“音视频调试手册”。书中不但全面介绍了FFmpeg作为工具在音视频开发中的使用方法,也同时介绍了其他的工具软件,可以配合起来一起使用。

这本书不适合音视频零基础的爱好者直接学习,建议先学习基本的音视频采集、编码、封装、渲染知识,然后再学习此书。音视频开发非常注重实践,建议把书中提到的工具和使用方法都下载下来练习,尤其是第6章——FFmpeg滤镜使用,会帮助你打开新世界的大门!也希望开发者在未来工作中遇到音视频相关的问题时,能够想到这些工具,并且灵活运用,一定会显著提升你的工作效率!

《SRE:Google运维解密》

作者:[美]Niall Richard Murphy、Betsy Beyer、Chris Jones、Jennifer Petoff  

译者:孙宇聪

推荐理由:

互联网服务中,有很多“很重视”却不知道“如何重视”的能力,比如稳定性、体验、效率。管理层往往很重视,但是不好落地。如何将这些能力关联到商业结果,如何拆解为可量化的指标,如何指导团队分工协作为这个目标努力,都是很大的挑战。

Google为这种理念给出了一个最佳实践,即“站点稳定性工程”,不但将稳定性抽象出可以量化、可以评价商业效果、可以优化的指标(SLO),而且可以围绕这个指标组建独立的团队(SRE)进行优化,给了行业很多启示。这本书给大家带来的不仅仅是运维本身,更重要的是面向稳定性问题的解决思路,所以我最推荐的是书中最后两部分,对SRE团队的管理和培养。这也是让SRE理念能够深入人心、长期发展的原因。

音视频能力在稳定性、体验、工作效率、优化手段上也面临着无法评估效果、不好判断收益的挑战。希望SRE的管理理念,能够帮助大家在音视频开发中提升可观测性、在迭代中提升品质、在工程中提升团队战斗力、促进团队成长。

李忠 /

阿里云智能视频云高级技术专家

《新一代视频编码标准—H.264/AVC(第二版)》

主编:毕厚杰、王健

推荐理由:

音视频编码压缩技术是多媒体领域最基础、最核心的技术之一。H.264以较高的视频压缩率、广泛的兼容性成为主流的视频编码标准,理解H.264编码原理是理解音视频技术的基础。毕厚杰老师是国内早期一批的数字视频通信专家,本书系统性介绍了数字视频和视频编码的基本原理,简要概述了从H.261/H.263 到MPEG2/MPEG4以及JPEG图像编码的演进过程,详细介绍了H.264编码框架和实现,以及在视频传输中的应用。本书适合作为阅读英文资料存在困难的音视频入门技术人员。

《金字塔原理:思考、表达和解决问题的逻辑》

作者:芭芭拉·明托  

译者:汪洱、高愉

推荐理由:

程序员的我们,往往更擅长与机器打交道,而不善于工作交流和汇报,从而影响到了职场发展。沟通的背后是思维逻辑,通过良好的训练可以提升思维表达的系统性和层次感。金字塔原理是一种重点突出、逻辑清晰、主次分明的逻辑思路。其基本结构是:明确中心思想、结论先行、以上统下、归类分组、逻辑递进,从而达到重点突出、思路清晰、主次分明的表达效果。本书提供了多种表达范例和方法论,阅读完加以训练,相信一定会对提升表达能力和沟通效果帮助不少。

赵军 /

腾讯专家工程师

The H.264 Advanced Video Compression Standard (Second Edition)

作者:Iain E. Richardson

推荐理由:

在读任何codec的标准之前,建议先读这本书。书的内容容易阅读,全面、详细地介绍了视频压缩技术,特别是H.264。大部分的人都能读懂它,而不需要大量的信息论知识。

全书图文并茂(唯一的缺点大概只有黑白图了),对H.264规范以及很多底层细节进行了很好的概述,如bit流格式、宏块、帧内和帧间预测、预测模式、变换、量化、熵(Huffman和Arithmetic)编码、码控等。最重要的是,读完本书后,你会理解原始标准背后的why。

另外,如果你对H.264有特别的兴趣,本书提及的所有参考文献请别错过。

《UNIX传奇:历史与回忆》

作者:[美] Brian W. Kernighan

译者:韩磊

推荐理由:

这本书作为一本轻松读物,延续了Brian W. Kernighan博士一直以来的写作风格:简洁、全面且清晰;其中为软件开发者提供了有趣的技术见解,也为技术管理者、创新者提供了真知灼见。全书涉及大量有趣话题:

  • Unix的技术历史以及各种工具的起源,包括grep、diff、awk等
  • C语言的起源及其影响
  • Unix中几位主要人物的简要传记
  • 贝尔实验室的创新与管理文化
  • 贝尔实验室简史以及在不同领域中的一些重要发现
  • 是什么使贝尔实验室成为一个成熟的创新环境?以及贝尔实验室后期的归宿

如作者所言,本书包含技术内容、幕后故事、天才人物个性,还有Unix诞生与发展所依赖的独特的创造性环境。整本书充满不动声色的睿智与幽默,还有时刻能感受到的Dennis M. Ritchie所说的“常驻于因努力改善人类生活而获得的愉悦”。

杜金房 /

烟台小樱桃网络科技有限公司 CTO、FreeSWITCH中文社区创始人

《WebRTC音视频实时互动技术:原理、实战与源码分析》

作者:李超

推荐理由:

这本书名字比较长,大概是短名字无法涵盖它的内容吧。

这本书结合作者的实际经验,从音视频通信的历史讲起,深入浅出地讲解了WebRTC通信的原理、特点及应用场景,更从源代码角度深入剖析了WebRTC通信的关键要素和细节,内容全面又不失深度,适合各水平的音视频从业人员阅读。

自从2011年WebRTC推出之后,本书作者李超老师就一直在追踪其进展。本书是李老师WebRTC三部曲的最后一部,前两部WebRTC入门与实战、百万级高并发WebRTC流媒体服务器的实现已在慕课网推出,广受好评。

WebRTC源码十分庞杂,用一本书将其完全讲清楚是不现实的,用李老师自己的话说,这本书是三部曲的终点,也是后面深入分析WebRTC源码的起点。

WebRTC的源码我自己也看了一些,读了李老师的书后更是感觉事半功倍。当然,即使你的工作不涉及WebRTC源码,读一下也是很有好处的,正所谓知其然知其所以然。这本书封底有我的推荐语,因此我也推荐更多读者阅读。

《计算之魂》

作者:吴军

推荐理由:

其实吴军老师的每一本书都值得认真阅读,这次推荐《计算之魂》是因为这是吴军老师最新的一本书。

吴军老师一贯的风格是用最简单的语言把事情的本质描述清楚,本书也不例外。可以说只要有点编程经验的人都能读懂,同时又对深资的程序员也很有帮助。

这本书重点是讲算法,但不同于一般的算法教科书和科普著作,它是一部通过算法例题来阐述计算思维之绝妙大作。“我写这本书的目的,就是要和大家分享我对计算机科学精髓和灵魂的理解,以便从业者能够突破这个领域的天花板,同时坚定在这个领域长期发展的信心。”吴军老师在前言中如是说。

其实书里的知识和算法上过计算机课的同学应该大部分都学过,只是大部分人并没有深层次地去思考这些算法背后的意义是什么,为什么有这么多算法,为什么有的算法几乎没有人用却总是出现在很多教科书上,那些高深的算法又是如何从一些基础的算法推导出的,看似简单的递推公式背后隐藏着什么样的数学原理等。在本书中,吴军老师不仅带领大家发现并回答这些问题,最主要的是在讲明白各种算法本质的同时,带领我们思考人是怎么思考的,计算机是怎么思考的,怎么让程序和算法帮助计算机思考并更有效地解决问题,同时计算机的思考又怎么反过来影响程序员的思考的。

本书前言的第一句是:“一个「码农」能走多远?如果不断努力而且方法得当,能走很远很远:能够获得图灵奖,成为工程院院士,也能成为改变世界的人物。”改变世界或许离我们有点远,但是通读此书,各层次的“码农”都可以上一两个台阶,是很有可能的。

  书是人类进步的阶梯 

封面图来自Unsplash,by Road Trip with Raj


喜欢我们的内容就点个“在看”吧!

0 人点赞