每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。
直播新玩法背后的音视频技术演进
近年来,直播改变了许多行业模式,其形态在不断的演进中也逐渐丰富起来。直播在字节跳动中衍生出了KTV歌房、直播答题、互动游戏、电商拍卖及企业直播等不同场景。本次分享我们邀请到火山引擎视频云音视频直播客户端研发负责人——徐鸿,向大家介绍直播场景中沉淀下的优秀架构能力和技术能力。
微博HDR视频的落地实践
社交平台以日渐成为我们日常生活中不可或缺的一部分。从文字、语音再到视频,用户对社交平台中的视频类信息越发依赖,这也促进了视频体验优化的发展。随着HDR的普及,微博用户也希望获得更好的视频体验。本次LiveVideoStackCon 2021 音视频技术大会 北京站,我们邀请到了微博客户端播放器研发负责人——刘文,他向我们分享了微博在HDR视频方面的落地实践。
基于AVS3的全I帧8K浅压缩编码实践
本文对AVS3标准进行扩展以支持4:2:2色度采样格式,针对AVS3的全I帧编码研发了基于CPU GPU的混合编码框架,同时设计实现高效并行机制,实现了8K 50P 10bit 4:2:2的实时编码效果。通过对AVS3全I帧浅压缩的实践,验证了其不仅可以满足实际应用需求,而且在压缩率上比现有方案体现出明显优势。
Android FFmpeg MediaCodec 实现视频硬解码
本文将利用 FFmpeg MediaCodec 做一个播放器,实现视频的硬解码和音视频同步等功能。
超高清时代编码技术应用与发展的现状
超高清电视的视频数据量巨大,对视频编码技术提出了挑战,为了更好地适应超高清时代编码技术需求,国内外相关机构都开展了超高清编码技术的研发和应用。本文对国内外超高清视频编码标准相关情况及关键技术进行了介绍,并对比分析了几种浅压缩编码技术的性能,为超高清编码技术实际应用提供参考。
从 RTC 走向元宇宙
元宇宙无疑是是当下产业和技术的热词,成为近期全球科技领域炙手可热的新概念。上海交通大学 Medialab 的宋利老师最近就这一热点话题,做过多次访谈或技术报告,包括上海人民广播电台长三角之声《思创空间》、上海科技报《科技会客厅》、数字电视与无线多媒体通信国际论坛(IFTC2021) 、视频体验联盟(VEA)、以及百视通、华为等企业。最近受邀在 RTSConf 2021(12 月 26 日,线上)做了“从 RTC 到元宇宙”的分享。
索尼360 VME空间音频技术解析:可打造虚拟的专业混音室
我们都知道,理想的VR体验不只需要沉浸、清晰的视觉效果,还需要模拟逼真的体感环境,而具有空间感的3D音频也同样重要。在VR中常用到两种音频,即Object Based Audio和Ambisonic。
其中,Ambisonic可应用于3DoF全景VR视频。指的是一种高保真的立体声像复制技术,特点是将声源贴在360°全景视频上,又称为full-sphere环绕音频。而Object-based音频则是一种将声源与位置信息结合的技术,原理是在空间中特定位置,放置支持实时渲染的声源,为体验者提供具有空间感的声音效果。
旅行中的增强现实:增强现实(AR)如何丰富游客度假体验
如果你玩过 Pokemon Go,尝试过宜家的应用程序来选购家居,用过抖音各式各样的滤镜,沉迷过美图相机的各种风格妆效,那么你已经与增强现实有了短暂的接触。增强现实的本质是改变我们所见的事物,增强我们的体验并且增加我们探索世界时的乐趣,这项新技术正在渗透进我们生活的方方面面。
Github大盘点!2021年最惊艳的38篇AI论文
2021年是人工智能继续突飞猛进的一年。近日,Github上有人总结出了今年最有趣、最惊艳的38篇关于AI和机器学习论文,值得收藏。
基于Adapter结构进行高参数效率的跨语言迁移学习
本文将为大家介绍「如何使用Adapter(适配器)结构、基于元学习和迁移学习思想对预训练语音识别(ASR)模型进行跨语言的迁移」。
2021 AI技术盘点:预训练模型5大进展
2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展。其中,预训练模型无疑是2021年的重点发展领域。
基于Object Query的机器视觉新思路: DETR及发展
目标检测是计算机视觉的重要任务。DETR模型是面向这一任务的新型端到端方法。它集合了set prediction思想,以创新的object query结构,打破了之前传统的基于人工锚点进行识别再进行重复结果合并的流程。我们将探讨其中的实现原理以及后续的改进工作,这也将帮助我们思考与DETR类似的使用Transformer结构在计算机视觉领域的应用及其特点。
动漫风格迁移AnimeGANv2,发布线上运行Demo
AnimeGANv2 最近发布了一项更新,由社区贡献者开发,通过 Gradio 实现了一个可以在线运行的 Demo,发布在 huggingface 上。
用上 RNN,这个视频抠像工具效果绝了
本文为字节跳动团队发布的视频抠像工具 RVM 代码解析及论文《Robust High-Resolution Video Matting with Temporal Guidance》概要。
图像的表示(2):YCbCr 怎么来的?必看这篇颜色空间发展简史丨音视频基础
在前面的文章《图像的表示(1)》里,我们提出了一个问题:从我们眼睛看见的『画面』,到我们用手机、电脑所处理的『图像数据』,其中经历了什么?从这个问题出发,我们探讨了『图像的定义是什么』和『图像成像的原理是什么』这两个问题,接下来我们继续探讨下个问题:『怎样对图像进行数学描述』。