音视频技术开发周刊 | 248

2022-06-06 17:45:34 浏览数 (1)

每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。

音视频开发之旅(11) OpenGL ES矩阵变换与坐标系统 OpenGL大量使用向量和矩阵,矩阵的最重要的用途之一就是建立向量投影(比如:正交和透视投影)、使物体旋转(rotation)、平移(translation)以及缩放(scaling)。下面我们来介绍下几个常用的矩阵类型。 对于含胶片颗粒的视频的质量评价 在这次演讲中提出了一个将自然视频质量评估和含胶片颗粒视频质量评估相结合的新框架,能够很好的感知与胶片颗粒相关的质量特征,达到对含胶片颗粒视频进行质量评估的目的。 基于声网 Web SDK 实现视频通话场景 实时视频通话能够拉近人与人之间的距离,为用户提供沉浸式的交流体验,帮助你的 app 提高用户黏性。本文通过教程的形式讲讲怎么基于声网 Web SDK 在应用中实现视频通话的场景。

https://rtcdeveloper.agora.io/t/topic/24195

流媒体内容质量控制与监控 本次线上讨论针对视频服务提供商进行质量监控和 QC 的位置和内容,新的视频格式所带来的复杂性以及整个流媒体生态系统的故障排除策略等问题进行了阐述。 视频理解 | MoViNets 对于视频理解任务而言,很多的情况都跟单帧的图片识别有所不同,其中最大的差异在于时序信息的利用。MoViNets系列模型通过NAS、Stream Buffer、Ensemble三个途径,得到了计算量、内存开销、精度上的有效平衡,让实时的视频理解成为现实。 W3C: 开发专业媒体制作应用 (5) 演讲 1 中,首先对创建强大创意工具所需的许多技术领域进行广泛总结。然后,我们将深入研究几个选定的主题,以更好地了解我们需要从网络中获得的那种能力,以使这一切成为可能。演讲 2 中,分享了咪咕网编辑技术在体育转播直播和后期制作中的应用。

Android AVDemo(6):音频渲染,免费获得源码丨音视频工程示例 在音视频工程示例这个栏目,我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第六篇:Android 音频渲染 Demo。 音频评测之专业音质听音评价(一) 专业音质听音评价是音频评测中非常重要的环节,本文详细介绍了专业音质听音评价中所涉及的听觉生理和心理。 声学技术为3D打印带来新选择 目前使用的大多数3D打印方法都依赖于照片(光)或热活化反应来实现聚合物的精确操作。一种称为直接声音打印的新平台技术的开发,使用声波来产生新物体,可能提供第三种选择。

了解速率控制模式:什么是 CBR、VBR、CRF和Capped-CRF? 每次在使用H.264、HEVC、VP9或者AV1等面向分发的编解码器对视频文件进行编码时,你都要选择一种码率控制机制来控制码率、整体质量、瞬态质量和编码成本。常见的码率控制模式包括CBR、VBR、CRF和Capped-CRF。本篇文章将向大家介绍这些模式的工作原理,它们各自的优点和缺点,如何以及何时实现它们。 视频编解码芯片设计原理----16 神经网络与视频编码 本章首先介绍了端到端的图像编码网络的原理和框架,以及框架中量化和熵估计等模块的多种实现方法,最后介绍了几种端到端的P帧和B帧编码网络。 H.264 媒体流 AnnexB 和 AVCC 格式分析 及 FFmpeg 解析mp4的H.264码流方法 H.264编码规范只是规定了如何编码,并没有规定以何种方式来排列编码后的数据。就如同AES算法只是规定如何加密一组数据,并没有强制规定如果分组。H.264规范没有规定如何组织数据,但是在附录B中提供了一种可选方案,即Annex B格式。

MPEG-DASH视频传输中的常见问题 作为dash.js项目的首席开发人员,我们经常面对这样的情况:我们必须评估DASH传输失败是由dash.js播放器实现中的实际bug引起,还是由错误的内容生成引起。在本文中,我们将分享一些在DASH传输中出现的常见错误,以及我们通常在面对这些错误时所总结的一些见解。 WebRTC 教程 (5) 这篇文章主要介绍了 WebRTC 聊天室的整体演示,以及 WebRTC 视频聊天的功能设计,代码逻辑以及整体演示。

OpenCalib: 自动驾驶多传感器的一个开源标定工具箱 OpenCalib涵盖手动标定工具、自动标定工具、工厂标定工具以及针对不同应用场景的在线标定工具。本文介绍该toolbox的各种特点和标定方法。估计这是第一个开源的自动驾驶标定代码库,其中包含相关的全套标定方法。 FFmpeg命令分析-t 本系列主要分析各种 FFmpeg 命令 在代码里是如何实现的。以 FFmpeg4.2 源码为准。

https://juejin.cn/post/7085382394877837348

基于 PyTorch 的卷积神经网络经典 BackBone (骨干网络)复现 本文将介绍如今图像识别领域十分经典的一些CNN网络,基于代码实战复现经典的Backbone结构,并基于PyTorch分享一些网络搭建技巧。 一篇适合新手的深度学习的万字综述 这篇综述论文列举出了近年来深度学习的重要研究成果,从方法、架构,以及正则化、优化技术方面进行概述。机器之心认为,这篇综述对于刚入门的深度学习新手是一份不错的参考资料,在形成基本学术界图景、指导文献查找等方面都能提供帮助。 你真的了解深度学习生成对抗网络(GAN)吗? 生成对抗网络(GANs)是一类具有基于网络本身即可以生成数据能力的神经网络结构。由于GANs的强大能力,在深度学习领域里对它们的研究是一个非常热门的话题。在过去很短的几年里,它们已经从产生模糊数字成长到创造如真实人像般逼真的图像。 50个最佳机器学习公共数据集 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 浅谈神经网络中的优化算法总结 在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法?这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳的优化方法。 3D 可视化卷积、池化!终于能看懂神经网络到底在干啥了... 神经网络在工作的时候,里面到底是什么样?为了能透视这个“AI黑箱”中的过程,加拿大蒙特利尔一家公司开发一个3D可视化工具Zetane Engine。只需要上传一个模型,Zetane Engine就可以巡视整个神经网络,并且还可以放大网络中的任何一层,显示特征图,看清流水线上的每一步。 图神经网络从入门到入门 本篇文章将从一个更直观的角度对当前经典流行的GNN网络,包括GCN、GraphSAGE、GAT、GAE以及graph pooling策略DiffPool等等做一个简单的小结。 入门:为什么梯度下降算法这么有效? 在机器学习中,我们已经习惯了使用梯度下降法解决问题,以至于没人去质疑它为什么有效。而这篇文章的目的就是介绍一个合适的数学框架,帮助你理解其背后的具体操作。在你真正理解梯度下降法后,就可以有目的地提高它在项目中的性能。 图解:卷积神经网络数学原理解析 这一次,我们将加深理解神经网络如何工作于CNNs。出于建议,这篇文章将包括相当复杂的数学方程,如果你不习惯线性代数和微分,请不要气馁。我的目标不是让你们记住这些公式,而是让你们对下面发生的事情有一个直观的认识。  深度强化学习中的对抗攻击和防御 该论文是关于深度强化学习对抗攻击的工作。在该论文中,作者从鲁棒优化的角度研究了深度强化学习策略对对抗攻击的鲁棒性。在鲁棒优化的框架下,通过最小化策略的预期回报来给出最优的对抗攻击,相应地,通过提高策略应对最坏情况的性能来实现良好的防御机制。 OpenCV摄像头测距实战教程 摄像头测距就是计算照片中的目标物体到相机的距离。可以使用相似三角形(triangle similarity)方法实现,或者使用更复杂但更准确的相机模型的内参来实现这个功能。本文介绍了使用OpenCV实现摄像头测距的实用案例,希望能对各位读者有所帮助。

图像信号处理芯片设计原理----09 直方图统计 本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究,以典型的相机成像系统为基础,涉及的内容包括各类缺陷校正,去马赛克,去噪,3A算法,超分,HDR,风格迁移等主题。本文主要对直方图统计的基本概念以及现有方法进行简要介绍。 浅谈图像分割调优:一个服饰分割项目的完整记录 图像分割领域,有对各类物体的分割应用,服饰分割是在电商CV领域常常会用到的算法技术,本文完整记录了一个服饰分割项目的全流程,希望能对各位读者,使用图像分割时有所帮助。 使用计算机视觉转换水彩艺术中的图像 在本文中,我们将研究能够将图像更改为水彩艺术形式的应用程序,我们将仅使用计算机视觉操作,即不涉及任何机器学习技术,仅涉及精细的图像处理技术。 使用 Python 的人脸识别系统 本文讨论了如何使用 python 和单次图像训练技术实现人脸识别系统。你可以进一步使用像 python Tkinter 这样的 GUI 来设计基于 GUI 的考勤系统。我们看到了影响识别系统的各种挑战以及如何解决这些挑战。 彩色图像高斯反向投影 本文介绍一种跟直方图反向投影不一样的彩色图像反向投影方法,通过基于高斯的概率分布公式(PDF)估算,反向投影得到对象区域,该方法也可以看做最简单的图像分割方法。

3D车道线单目检测方法ONCE-3DLanes 该文提出一个真实世界的自动驾驶数据集,ONCE-3DLanes,具有3-D空间的车道线布局标注。通过点云和图像像素之间的显式关系,文章设计了该数据集标注流水线,从211K个道路场景的2D车道线标注,自动生成高质量的3D车道线位置。 从智能驾驶全技术供应链看智能驾驶“灵魂” 要理解智能驾驶的灵魂,必须对对智能驾驶价值技术链条进行分解,了解各个技术价值链的原理和逻辑。所以本文试图分解智能驾驶的价值技术链,浅析各个核心技术价值技术链背后的逻辑原理以及难点,最后看是否能找出智能汽车驾驶的灵魂到底是什么。 智能驾驶要用多少个激光雷达?分别放在哪里?什么作用? 激光雷达上车不是什么新奇的事情了,目前将近20款智能驾驶的乘用汽车宣布采用激光雷达。这些车为啥要用激光雷达?到底把激光雷达装在哪里?他们分别可以实现哪些功能?未来的应用会是什么样的趋势? 带你读懂自动驾驶汽车系统基本框架 无人驾驶系统的核心可以概述为三个部分:感知(Perception),规划(Planning)和控制(Control),本文将一一为您解析。 什么才是软件定义汽车? 移动出行时代,汽车逐渐由机械驱动的硬件向软件驱动的电子产品过渡,软件定义汽车趋势愈发明显。这一过程中汽车软件以和硬件深度耦合的方式得到发展,汽车行业逐渐迈向软件定义汽车(Software Defined Vehicles, SDV)的时代。 自动驾驶域控制器研究:AI芯片选型方案详解 域控制器作为一个智能硬件,为了完成复杂的AI计算和智能控制,硬件层面需要承担环境感知和深度学习等超大算力需求的AI处理芯片、负责控制决策和逻辑运算的CPU、以及负责功能安全和车辆控制的MCU;软件层面包括操作系统、中间件以及应用层AI算法等。

用动态聚焦液晶 (LC) 透镜消除视觉辐辏 在 VR 研发领域,热门话题之一是尽可能为缩减视觉辐辏 (VAC) 找到切实可行的解决方案。该领域的研究人员表示,VAC 会导致眼睛疲劳,难以专注于近距离图像,甚至可能会限制视觉沉浸感。 专利揭秘 | 谷歌眼镜的发展 谷歌在今年的Google I/O全球开发者大会上展现了一款AR智能概念眼镜,时隔十年,谷歌眼镜项目的技术能力到底如何?我们可以通过专利角度来窥视其研发动向以及技术实力,下述是谷歌眼镜的历年专利申请趋势情况,可以反映不断探索的“谷歌眼镜”。 XR互联网与元宇宙硬件入口的金钥匙——衍射光波导 基于表面浮雕光栅的衍射光波导,同时具有轻薄、视场角大、眼动范围大、量产成本低的优势,因此被普遍认为是AR眼镜或AR头显的主流显示技术路线,并被誉为“AR产业金钥匙”。 【AR专家测评】Karl Guttag解析Magic Leap 2 新一代AR头戴设备Magic Leap 2最近备受瞩目,近眼显示专家Karl Guttag(卡尔·古塔格)对Magic Leap 2做出了解析,并与其他AR头戴设备进行了比较。


阅读推荐

迈克尔·霍利:当我看到人们急着加入新行列、抛弃高度发展的老技术时,我就感到很伤心 这是一篇来自上世纪80年代的采访,采访对象为IoT先驱人物迈克尔·霍利。他成长于纽约市郊区的新普罗维登斯,并在那里熟悉了计算机和编程。 “我让 AI 写了一个 AI 的故事,又让另一个 AI 画出它” 前几天在 Hacker News 上的一则热帖有点意思,可谓极致套娃——“我让 AI 写了一个 AI 的故事,又让另一个 AI 画出它。”事情的起因,是一位名为 Tristrum Tuttle 的网友突发奇想:通过“写作神器”GPT-3 以及近期大火的图像生成器 DALL-E 2,可否组成一个图文并茂的故事? 如何成为一名优秀的汽车软件工程师 基于个人工作经验来谈以下几点:汽车软件工程师的最重要技能、V流程引发的所思所想、Bug修复引发的所思所想、汽车软件工程师如何精进技能。 专题丨我国超算产业发展研究 5G、大数据、人工智能、区块链等新一代信息技术快速发展,多样性算法复杂度的不断提高以及应用场景多元化等因素使得超级计算方案需求不断增加。本文通过介绍当前国内外超算产业发展现状,指出当前我国超算产业发展价值和主要面临的问题,并从不同方面提出了发展建议。 研究者意外发现DALL-E 2在用自创语言生成图像:全文黑话,人类都看不懂 DALL-E 生成的各种诡异图片在社交网络上刷屏已经持续了一段时间,有关为什么人工智能可以生成自然界中不存在的事物,很多研究者正在寻根问底。近日,来自德克萨斯大学奥斯丁分校的学者发现,DALL-E2 会使用看似随机但与视觉概念有一些关联的单词来形容自己做的事。 五项人工智能研究,助力医疗检测疾病治疗 本文介绍了五项人工智能在助力医疗检测疾病治疗方面的研究,一起来看看吧。 清华大学刘知远教授答疑AI专业学什么(附人工智能本科专业高校名单) 在计算机专业和人工智能日益火爆的当下,很多人对这两个专业又是好奇又是憧憬。对此,清华大学刘知远教授近日在知乎上分享了一些内容,以帮助考生更加理性地选择专业,希望更多真正喜欢 CS/AI 的考生选好学校选对专业。 深度学习的坎坷六十年 从1958年弗兰克.罗森布拉特发明的感知机、RNN、LeNet-5到Transformers等等,前人们一步一步的带动着深度学习往前跑。本文主要偏向于计算机视觉方向,带大家回想智慧凝结的每一个里程碑。 PPIO完成2.5亿元A轮融资,聚焦边缘云服务并推进向“去中心化”演进 近日,边缘云服务商PPIO宣布完成A轮融资,本轮融资额合计近2.5亿人民币,由磐霖资本、CCV创世伙伴、张江科投、IMO Ventures共同投资,老股东蓝驰创投、沸点资本、华业天成资本等持续加注。暨2021年完成亿级Pre-A轮融资后,这是PPIO又一次获得新一轮融资。至此,公司累计融资额已经超过4亿人民币,位列各边缘云厂商前列。本轮融资完成后,PPIO将进一步加大在自研技术和边缘侧基础设施上的投入,并深化在超低延时直播、云游戏、云渲染、车联网、空间数字化等对超低延时有改善需求的场景上的探索。


活动推荐

【城市沙龙】LiveVideoStack Meet青岛:岛城音视频生态初探

2022年6月11日,LiveVideoStack Meet将落地青岛,初次来到岛城,希望能与大家共同探讨青岛音视频生态环境,给更多技术人创造轻松愉悦的交流机会。本次分享我们邀请到了多位音视频领域嘉宾,内容丰富,诚意满满!

活动时间:2022年6月11日  14:00-16:30

活动地点:山东省青岛市崂山区松岭路399号海信研发中心学术报告厅

防疫要求:凭入园申请及48小时内核酸证明参会(入园申请二维码在会前三天发送至邮箱)

报名方式:点击「阅读原文」立即报名。

LiveVideoStackCon 2022 上海站 改期通知

致亲爱的LiveVideoStack小伙伴们:

经过大家团结抗疫的行动,我们终于迎来了上海解封的好消息!虽然疫情逐渐平稳,但仍然不能松懈。因此,为保证大家的健康安全以及参会体验,本届LiveVideoStackCon 2022 音视频技术大会 上海站活动将延期至8月5-6日举办。

相信艰难的时刻已经过去,虽然没能在春暖花开的时节与你相遇。但好事多磨,明媚的夏日也不失为一个见面的好时机。当然,干货满满的技术演讲内容、认真准备的大会讲师、客观且严格的出品人与评审团,为本次大会加满质量&能量。

衷心感谢大家的耐心等待,我们夏天见啦~ 另祝大家端午安康!

0 人点赞