『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。
架构
刘歧:FFmpeg Filter深度应用 本文来自OnVideo视频创作云平台联合创始人刘歧在LiveVideoStackCon的讲师热身分享,刘歧分享了FFmpeg的基本原理、使用方法及开发方法。在10月19-20日的LiveVideoStackCon 2018上,刘歧还将分享如何通过FFmpeg实现视频版权保护的方法。 快手QoE指标设计的分析初探 全链路的数据收集,分析,才能精准的定位问题,并制定方案改进。本文来自快手流媒体大数据平台架构师罗喆在LiveVideoStackCon热身分享上的分享,他会在10月19-20日的LiveVideoStackCon上分享更详细和完整的内容。 MacOS 下单步调试 WebRTC Android & iOS 本文详细介绍了困扰广大 WebRTC 安卓开发者的一项技术难题:如何在 Android Studio 里单步调试 WebRTC Android 的 Native 代码。 张睿:OpenH264拥有产品级的鲁棒性 欢迎contribute 张睿拥有超过20年多媒体领域研发经验,是WebEx视频会议系统的媒体架构师,同时也是OpenH264的项目负责人,她在LiveVideoStack的采访中表示,思科不仅贡献了高鲁棒性的代码,还承担了IP费用,希望能与AV1一样帮助多媒体生态健康发展。 Dweb:使用WebRTC / WebTorrent构建弹性Web 本文来自WebTorrent的创始人、PeerCDN联合创始人Feross Aboukhadijeh,他介绍了一种基于WebRTC通信的Web协议WebTorrent,通过WebTorrent可以节省服务器资源,降低成本。LiveVideoStack对原文进行了摘译。 RTSP协议转换RTMP直播协议 RTSP协议也是广泛使用的直播/点播流媒体协议,以前的项目里实现了一个RTSP协议转换RTMP直播协议的程序,为的是可以接收远端设备或服务器的多路RTSP直播数据,实时转换为RTMP直播协议,推送到NginxRtmp等RTMP服务器,可以在PC上实现flash观看RTSP直播源(比如IPCAM)的需求,也能通过Nginx的HLS协议转换,在手机上观看。 万万没想到-Flutter这样外接纹理 本文以IOS端为范例介绍了Flutter外接纹理的基本原理,以及优化策略。 FPGA在大数据时代的机遇与挑战 本文从以下几个方面探讨了FPGA在大数据时代的各种机遇和挑战:1.英特尔“泛数据中心”业务及其潜在市场2.基于FPGA的智能网卡产品线的正式发布3.英特尔人工智能计算加速器产品系列的相关布局4.FPGA开发的痛点与潜在方案。
音频/视频技术
追根溯源解杂音之谜,臻于至善得完美音质 本文介绍了针对杂音问题从背景分析,问题分解与切入到发现根源提出解决方案的完整处理流程。 WebRTC基于TransportCC和Trendline Filter的发送端码率估计(Sendside-BWE) 本文基于WebRTC的M66版本和相关RFC,深度分析学习最新Sendside-BWE算法的实现。 IP现场直播场景下生产端延迟分析与设计 本文主要参考了Michael Cronk等人的文章“A Model for the Design of IP Based Live Production Systems with Low Latency”(NAB 2017),文章首先讨论了现场生产制作中需要考虑的基本延迟要求,然后对基于IP接口的制作系统所存在的延迟量进行了建模,最后提出了一种有效控制延迟的系统性方案,可以实现与SDI制作系统相同或更低的延迟。 视频传输延迟分析及解决方案:CMAF、LHLS 本文详细分析了造成视频传输延迟的原因,介绍了两个缩小延迟的解决方案:CMAF和LHLS,为提升直播观看体验提供了思路。
编解码
超高清内容生产中的视频编码技术 本文主要参考Anaya等人的文章“HEVC Mezzanine Compression for UHD Transport over SDI and IP infrastructures”(SMPTE ATC’16)。文章重点分析了如何调整HEVC帧内编码结构以满足UHD-1 Mezzanine压缩在质量、延迟和复杂度方面的要求,还对无损、接近无损(4:1)和级联这三种编码模式进行了测试,并将HEVC的编码结果与JPEG 2000和SMPTE VC-2等视频编解码器的结果进行了比较。 FFmpeg音视频解码 本文详细介绍了FFmpeg解码视频的流程以及解码用到的关键API和数据结构。 音视频基础_Mpeg4封装格式音视频编码格式 MPEG-4标准将众多多媒体应用集成于一个完整框架内,旨在为多媒体通信及应用环境提供标准算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。 使用OpenGL实现视频录制 Mediacodec可以用来获得安卓底层的多媒体编码,可以用来编码和解码,它是安卓low-level多媒体基础框架的重要组成部分。它经常和 MediaExtractor, MediaSync, MediaMuxer, MediaCrypto, MediaDrm, Image, Surface, AudioTrack一起使用。
AI智能
针对 3D 计算机视觉的简介 随着 AR / VR 技术和自动驾驶汽车技术的发展,3D 视觉问题变得越来越重要,它提供了比 2D 更丰富的信息。本文将介绍两种用于 3D 场景分析的基本深度学习模型:VoxNet 和 PointNet。 TensorFlow 将发布v2.0 — TensorFlow 招牌特性回顾 TensorFlow 2.0要来了,伴随着一些令人期待的改进,但同时也带来了版本上的一些不兼容。本文介绍TensorFlow 2.0即将带来的一些变化,以及老版本TensorFlow中的一些招牌特性。 基于内容的图像检索技术综述-CNN方法 和SIFT等算法类似,CNN训练的模型同样对缩放、平移、旋转等畸变具有不变性,有着很强的泛化性。CNN的最大特点在于卷积的权值共享结构,可以大幅减少神经网络的参数量,防止过拟合的同时又降低了神经网络模型的复杂度。 基于深度学习的目标检测算法综述(二) 目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。 XNN:打开了自己黑箱的神经网络 本文介绍了一种旨在「打开」并解释神经网络的新模型 XNN(可解释神经网路)。该网络包含三个重要组成部分:投影层、子网络、组合层。XNN 还可用于替代复杂模型,无论将 XNN 用作主要模型还是用于更复杂模型的替代模型,XNN 都可以直接解释模型如何使用输入特征进行预测。 画个草图生成2K高清视频,这份效果惊艳研究值得你跑一跑 在图像到图像合成的研究领域热火朝天的当下,英伟达又放大招,联合 MIT CSAIL 开发出了直接视频到视频的转换系统。该系统不仅能用语义分割掩码视频合成真实街景视频,分辨率达到 2K;能用草图视频合成真实人物视频;还能用姿态图合成真人舞蹈视频。更令人惊艳的是,在语义分割掩码输入下,换个掩码颜色该系统就能直接将街景中的树变成建筑!目前该项目已开源。
图像
深度学习AI美颜系列----AI美甲算法揭秘(WANNA NAILS) 本文将给大家分享WANNA NAILS App中漂亮的美甲效果是如何实现的,对其背后的图像算法技术做一个详解。 HDR关键技术:光学、视觉与光电转换曲线 本系列的前作当中介绍了HDR技术的相关技术与标准,本文将从更基础的知识点出发,重点介绍HDR技术的两大关键基础-亮度与颜色中的前者