音视频技术开发周刊 60期

2021-09-01 10:58:27 浏览数 (1)

音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。

架构

Twitch 沈悦时:国内外互联网直播生态差异 本文来自Twitch Principal Research Engineer 沈悦时在LiveVideoStackCon 2018热身分享,并由LiveVideoStack整理而成。在分享中,沈悦时介绍了Twitch的运营内容与产业规模,并从成本与架构方面介绍了国内外直播生态的差异。 AV1挑起的Codec之战 AV1编解码器已经在NAB上发布了。那么它是否已经做好了准备来和H.264,HEVC和VP9的银河帝国进行一次正面交锋呢?资深多媒体技术咨询师Jan Ozer对AV1带来的Codec之战进行了分析。LiveVideoStack对原文进行了摘译。 梁俊斌:音频技术可以延展众多应用场景 广州TIT创意园,这里是腾讯在广州的研发团队所在地。LiveVideoStack采访了微信多媒体内核中心音视算法高级工程师梁俊斌(Denny),从华为2012实验室到腾讯,过去十余年梁俊斌一直专注在音频技术。他告诉LiveVideoStack:音频技术还有许多难点需要解决,而作为技术人也延展到应用场景,关注用户需求。 视频体验评估标准(uVES1.0)模型及算法解读 视频业务快速发展,已经从强调用户规模走向注重提升服务品质的阶段。消费者对观看体验的要求不断提高,提升视频用户体验质量已经成为视频服务的主要竞争因素。 如何使用Intel CS for WebRTC 快速搭建实时音视频通讯系统 Intel CS for WebRTC是一套完整的WebRTC的通讯架构套件,包括了服务端软件和客户端SDK,其中客户端SDK支持Web,Android,iOS和Windows平台。该套件对通讯协议的细节进行了封装,可以使开发者专注于应用层的软件开发。 快手AI技术副总裁郑文:为什么说AI是短视频平台的核心能力 7月初举办的中国软件研发管理行业峰会(CSDI)上,快手AI技术副总裁郑文针对AI技术在短视频领域的应用做了精彩演讲。他介绍了人工智能技术是如何在快手整个业务流程中发挥作用,以及互联网公司如何从0开始成功推进一个AI项目。

音频/视频技术

隐藏在摄像头里的AI 本文来自驭势科技人工智能组组长潘争在LiveVideoStackCon 2017大会上的分享,并由LiveVideoStack整理而成。潘争回顾了AI在图像识别领域的历史与难点,以及在安防和自动驾驶方面的实现思路。 MMSys2018:全息视频【附PPT全文】 2018年6月12号至6月15号,第9届ACM多媒体系统会议(MMSys,ACM Multimedia Systems Conference)在荷兰阿姆斯特丹召开。会上,来自8i labs的Philip A.Chou 做了关于下一代全息视频的主题报告,介绍了目前全息领域的最新技术以及所面临的问题。 高帧率视频标准与规范简介 帧率(High Frame Rate, HFR)是指利用比正常帧率(如24帧/秒)更高的技术拍摄而成的影片。欧洲已经对高于每秒50帧的视频有了广泛的研究。 Feed流短视频秒开背后的那些事儿 浏览器iOS客户端的Feed流短视频播放过程中,不少用户反馈视频加载过程太久,导致会没兴趣继续等待下去,从而流失了这部分用户及无法提高用户的人均播放次数。

编解码

视频编解码--关键帧压缩编解码 关键帧的压缩主要参考JPEG图像压缩算法的流程。但与JPEG不同的是,JPEG处理的是YUV格式数据,而这里直接处理RGB格式数据。 H.264 SVC 简介 SVC(可适性视频编码或可分级视频编码)是传统H.264/MPEG-4 AVC编码的延伸,可提升更大的编码弹性,并具有时间可适性(Temporal Scalability)、空间可适性(Spatial Scalability)及质量可适性(SNR/Quality/Fidelity scalability)三大特性,使视频传输更能适应在异质的网络带宽。 音视频学习从零到整-实现视频编码 CC老师_MissCC 在2014年的WWDC大会上,iOS 8.0 之后,苹果开放了硬编解码的API。就是VideoToolbox.framework的API。VideoToolbox 是一套纯C语言API。其中包含了很多C语言函数.VideoToolbox.framework 是基于Core Foundation库函数,基于C语言。 十分钟完成安卓MediaCodec视频解码 MediaCodec是安卓自带的视频编解码工具,由于使用的是硬解码,其效率相对FFMPEG高出来不少。 Android平台采集摄像头图像和使用MediaCodec硬编码 Android系统上的应用需要采集摄像头图像,并把图像编码成某种格式(比如H264),保存成文件或发送到网络。虽然有FFmpeg可以实现编码的功能,但是使用软编码一方面比较耗电,另一方面,对于CPU性能不是太强的ARM设备来说,软件编码肯定很占CPU资源,有些旧的机器甚至一编码就卡机。

AI智能

CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭 计算机视觉领域的顶级会议CVPR 2018上个月在美国盐湖城举办。微软亚洲研究院实习生鲍建敏参与了这次CVPR 2018之旅,为我们带回了本次大会上新鲜出炉的计算机视觉前沿研究和他的参会成果分享。 上海交通大学CVPR Spotlight论文:利用形态相似性生成人体部位解析数据 人体部位解析,或称人类语义部位分割,是许多计算机视觉任务的基础。在传统的语义分割方法中,我们需要提供手工标注的标签,以便使用全卷积网络(FCN)进行端到端的训练。虽然过去的方法能达到不错的效果,但它们的性能高度依赖于训练数据的数量和质量。 ImageNet 带来的预训练模型之风,马上要吹进 NLP 领域了 对于计算机视觉领域的研究人员、产品开发人员来说,在 ImageNet 上预训练模型然后再用自己的任务专用数据训练模型已经成了惯例。但是自然语言处理领域的研究人员和开发人员们似乎并不是这样做的 —— 等等,也许 NLP 领域的「ImageNet 时代」马上就要到来了。 基于深度负相关学习的人群计数方法 监控视频中的人群自动计数有着重要的社会意义和市场应用前景。充分利用兴趣区域的人数统计信息可以为一些人群密集的商场、车站、广场等公共场合的安全预警提供有效的指导。还可以带来经济效益,例如,提高服务质量、分析顾客行为、广告投放和优化资源配置等。因此,该问题已成为计算机视觉和智能视频监控领域的重要研究内容。

图像

深度学习AI美颜系列----AI人像美妆算法初识 人像美妆是近几年来深受广大女孩儿群体喜欢的修图功能之一,目前市面中做的比较好的有美妆相机、玩美彩妆、天天P图等APP,当然还有一些PC专用的秀图软件,本文将给大家做个算法初识; HDR关键技术—色域映射 本文将介绍HDR中颜色转换(或色域映射)技术,分为两个部分,第一部分介绍色域映射的定义以及相关背景知识;第二部分将介绍代表性的色域映射算法,特别对ITU中相关标准进行浅析。

0 人点赞