音视频技术开发周刊 | 234

2022-03-04 13:13:31 浏览数 (1)

每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。

视频图像色彩增强的主要方法与落地实践

色彩增强作为视频后处理中画质增强技术的一部分,配合视频降噪,暗光增强,对比度调整,边缘增强等技术,可以对视频画质起到较大的提升作用。

26 fps 的视频超分辨率模型 DAP!在线输出720P视频

不同于现阶段VSR的两大热点研究方向:真实世界/盲VSR、VSR与传输,本文作者在实时在线领域超分方向实现突破,这与IPRRN一文的出发点类似。本文DAP的效果堪比EDVR,但是时间缩短了三倍,180P视频在线可达26FPS!

Seek 策略以及在有 B 帧情况下的处理

最近在做 Seek 相关功能时遇到的问题排查,顺便也学到了一些新的东西,和大家分享下。

音视频开发入门:音频基础

什么是声音?介质振动在听觉系统中产生的反应。是一种波。因为是一种波,所以我们可以用频率、振幅等描述。有两个基本的物理属性:频率与振幅。

https://blog.jianchihu.net/av-develop-audio-basis.html

Apple又获空间音频新专利,揭秘AirPods Max设计的空间音频渲染处理器背后的技术特性

美国专利商标局公布了Apple的一项专利申请,该专利申请涉及用于AirPods Max的空间音频渲染处理器,该处理器可校准音频波束成形阵列处理算法,以响应可穿戴音频设备物理形状的变化。

iOS AVDemo(1):音频采集,免费获取全部源码丨音视频工程示例

这个 Demo 里包含以下内容:1)实现一个音频采集模块;2)实现音频采集逻辑并将采集的音频存储为 PCM 数据;3)详尽的代码注释,帮你理解代码逻辑和原理。

视频编解码芯片设计原理--02 视频编码技术框架与标准

本系列主要介绍视频编解码芯片的设计,以HEVC视频编码标准为基础,简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。本文将介绍视频编码技术的混合编码框架和国内外主流编码标准的发展历程与特点。

小型深度学习框架 | TinyGrad,不到1K行代码(附代码下载)

最近,天才黑客 George Hotz 开源了一个小型深度学习框架 tinygrad,兼具 PyTorch 和 micrograd 的功能。tinygrad 的代码数量不到 1000 行,目前该项目获得了 GitHub 1400 星。

目标检测算法终结篇-YOLOv7正式开源

请注意,这里的7,不是下一代YOLO,而是一个幸运数字,姑且可以看作是一个代号。它的目的是让YOLO全面开花,不仅仅只是做目标检测。也不是简单的加一个semantic head做分割,而是做一个体系的目标检测积木模块,即插即用,使之能够更简单的做复杂的上层任务,比如多个分类head,实例分割,甚至是加上姿态检测等等。

https://zhuanlan.zhihu.com/p/464007111

FFmpeg 音视频倍速控制

本文除了会讲到通过命令行处理倍速,还会讲到通过FFmpeg api的方式去处理音频倍速和视频倍速,进而合并成支持倍速的音视频发布成rtmp或者存成flv文件。

FFmpeg 源码分析-转码1

本系列主要分析 transcode() 转码的内部逻辑。本文主要分析 transcode_init() 的内部逻辑。

https://juejin.cn/post/7052334621618831390

喧喧音视频迁移到 SRS 的总结

喧喧是一款具备音视频会议功能的私有部署的聊天协同办公软件。近期,我们集成了SRS作为喧喧中可选的音视频后端,让部署使用更加方便。

WHIPping:基于 WebRTC 的实时交互式传输

本次会议主要由 Ryan 介绍了 WebRTC 对于当前的工业界的意义、应用方向以及对传统广播所带来的影响,并对 WebRTC 的未来进行了一些展望。

实现计算机视觉——人脸检测

概述:计算视觉是人工智能的一部分,旨在设计能够像人类视觉一样进行观察的智能算法。在本文中,我们将介绍下面几个主要范围:人脸检测、物体检测、面部识别、对象跟踪。

Meta开发新虚拟背景处理AI,让元宇宙中人像不再虚糊

为了让广大视频通话用户体验更佳,也让更多AR、VR用户青睐元宇宙,Meta的AI研发团队最近开发了能更好处理虚拟背景的AI模型。

如何区分你所看到的视觉特效是AR、全息投影,还是影视后期特效?

如何分辨电视画面是AR技术实现的,还是全息投影,又或者是影视后期特效?本文我们就来看看AR、全息投影与影视后期特效的区别,相信看完这篇科普,你将学会如何分辨电视节目中的虚拟特效是通过什么技术实现的。

扎克伯格有望打造更了解用户的语音助手,用以分析声音、眼球运动和肢体语言

Meta的主要目标之一是开发先进的语音助手AI技术——类似Alexa或Siri,但更智能——该公司计划在其AR/VR产品中使用,比如它的Quest头显(以前是Oculus)、Portal智能显示屏和Ray-Ban智能眼镜。

AAAI 2022 Oral | 无需人工标注,清华、快手提出基于参考图像的单张生成图像质量评价方法

这是一篇来自清华大学黄高团队和快手 Y-tech 团队合作的论文,该工作探究了如何在基于参考图像的生成任务中实现对于单张生成图像质量的评价。文中设计的 RISA 模型无需人工标注的训练数据,其评价结果能够与人的主观感受具有高度一致性。

OCR身份证识别简单算法流程

做OCR身份证识别的调研,正好整理一下从基础的图像处理角度的算法流程。

常见的图像处理技术

本期文章中,让我们一起来学习以下内容。通过PIL和OpenCV来使用一些常见的图像处理技术,例如将RGB图像转换为灰度图像、旋转图像、对图像进行消噪、检测图像中的边缘以及裁剪图像中的感兴趣区域。

如何在自动驾驶的视觉感知中检测极端情况?

极端情况(corner cases)是自动驾驶中很重要的一个问题,本文讨论视觉感知(不包括雷达和激光雷达)如何检测这些corner cases,即出现的未期望或者未知情况。

自动驾驶多模态传感器融合的综述

本文对现有的基于多模态自动驾驶感知任务方法进行了文献综述。分析超过50篇论文,包括摄像头和激光雷达,试图解决目标检测和语义分割任务。

自动驾驶的安全-紧要场景生成方法综述

本篇综述主要关注安全-紧要场景生成算法。首先对现有算法进行全面分类,即数据驱动生成、对抗生成和基于知识的生成。然后,文章讨论场景生成的有用工具,包括仿真平台和软件包。最后,讨论扩展到当前工作的五大挑战——准确性、效率、多样性、可迁移性、可控性,以及这些挑战带来的研究机遇。


阅读推荐

《2021 中国开源开发者报告》发布

放眼国内,今年中国的开源生态葳蕤蓊郁,中国的开源在不同层面势起。为了更好地从开发者与行业角度展现当前国内开源的发展趋势,OSCHINA 发布此《2021 中国开源开发者年度报告》。

Easy Tech:什么是MPEG-DASH协议

MPEG-DASH是最流行的视频流协议之一,它广泛用于点播和直播,将媒体传输给各种终端设备,包括手机、平板、智能电视、游戏机等。MPEG-DASH是一种基于HTTP的流媒体传输协议,负责将视频从HTTP服务器传输给终端用户。

大话WebRTC

整理归纳写过的WebRTC系列研究文章(未给出链接的文章等合适时候再公开)。本系列文章专注WebRTC底层技术研究。

https://blog.jianchihu.net/big-talk-webrtc.html


活动推荐

LiveVideoStack开年福利周来啦!

玩法介绍:

公众号精选留言:在2月25日公众号文章评论区留下您以往参与LiveVideoStack活动的感悟或者建议,我们将评选三位“最真情实感”用户并送上礼物;

朋友圈赞赞赞:将2月28日LiveVideoStack公众号内容转发到自己的朋友圈,截图反馈至公众号后台,3月1日统计出点赞数最多的五位为中奖用户;

微博话题转发:关注@LiveVideoStack音视频技术社区并带话题#共创音视频无限可能#,转发LiveVideoStack2月28日微博送上祝福,我们将在3月2日抽取三位中奖用户;

社群踩楼:2月28日,将在【LVS线上交流分享群】内发起踩楼活动,踩中指定楼层为中奖用户,获得礼品一份。

奖项设置:

①中奖用户将会获得精美礼品一份及LiveVideoStackCon 2022上海站大会八折购票机会一次;

②凡参与本次福利周活动并在此期间购票的用户,均可获得LiveVideoStack福袋一份。

点击「阅读原文」,查看活动详情。

0 人点赞