音视频技术开发周刊 92期

2019-07-01 15:50:51 浏览数 (1)

音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第92期内容,祝您阅读愉快。

架构

  • 从通信到AI FreeSWITCH与WebRTC FreeSWITCH是一个开源的软交换平台,具有模块化结构,支持包括WebRTC在内的多种互通互联。本文来自FreeSWITCH 中文社区创始人杜金房在LiveVideoStack线上交流分享中的演讲,详细介绍了FreeSWITCH的功能特性、架构以及现状。
  • 如何利用免版税视频流技术构建优质视频体验? 随着全行业及消费者对版权技术的越发重视,如何利用免版税技术在不受专利限制的影响下提供高质量的在线视频服务,成为当前所面临的最大难题。Mux流媒体专家Phil Cluff总结了其在探索免版税视频流技术过程中所做的一些工作。
  • SRS-开源流媒体服务器 SRS定位是运营级的互联网直播服务器集群,追求更好的概念完整性和最简单实现的代码。SRS提供了丰富的接入方案将RTMP流接入SRS。
  • 三体云周思进:在红海中寻找蓝海 时隔一年,三体云CEO周思进再次接受了LiveVideoStack的采访,他说“寒冬”对企业思考商业本质是件好事,5G、AI、IoT这些蓝海本质上都是红海,关键在于企业能否把红海变蓝。
  • WebRTC 之ICE浅谈 随着WebRTC的应用越来越普遍,无论是Native端还是Web端,由于广泛的适应能力以及对未来网络的支持,ICE作为一种综合的解决方案将有着非常广阔的应用前景。
  • Web 实时推送技术的总结 随着 Web 的发展,用户对于 Web 的实时推送要求也越来越高 ,比如,工业运行监控、Web 在线通讯、即时报价系统、在线游戏等,都需要将后台发生的变化主动地、实时地传送到浏览器端,而不需要用户手动地刷新页面。本文对过去和现在流行的 Web 实时推送技术进行了比较与总结。

传输网络

  • 范醒哲:5G时代是时候全面解决TCP的效率问题了 本文由LiveVideoStack对Cascade Range Networks CTO/联合创始人范醒哲的邮件采访整理而成,作为一名研究UDP和TCP十多年的老兵,范醒哲剖析了UDP与TCP的优势与不足,并预测了5G将带来的网络协议与应用变革。

音频/视频技术

  • 质量三维论如何持续推进腾讯视频播放体验提升 腾讯视频移动端播放内核技术负责人李大龙在LiveVideoStackCon2018上的演讲中分享了腾讯视频的质量“三维论”思想与体系,及以此推动视频播放体验优化工作方面的实践经验与总结。
  • 拥塞控制(Congestion Control)算法汇总 大牛 作为一名拥塞控制算法研究应用的工程人员,自然少不了对各种算法论文,原理的阅读和研究。作为兴趣和总结,本文尝试罗列自己看过的拥塞控制算法,并继续探索相关论文作者的信息,学习作者更多的研究。
  • MPEG系统层回顾 MPEG因为其视频和音频编码标准被人们所熟知,但是如果没有系统部分,MPEG就不会是现在的样子。
  • Android端的短视频开发,我们该如何快速实现移动端短视频功能? 优质短视频内容的产生依赖于短视频的采集和特效编辑,这就要求在进行抖音APP开发时,用到基础的美颜、混音、滤镜、变速、图片视频混剪、字幕等功能,在这些功能基础上,进行预处理,结合OpenGL、AI、AR技术,产生很多有趣的动态贴纸玩法,使得短视频内容更具创意。
  • 语音相似度打分技术说明 语音相似度打分模块主要应用于语音监控设备和报警装置,目前更多适用于工厂设备的实时监控,作为视频监控的辅助,具有低成本,准确率高,容易实现等特点。同时语音相似度打分模块也可以应用在教育领域,辅助学生提升口语能力,模仿标准口音说话,例如在普通话发音不标准的地区,做到实时监测实时校正。

编解码

  • 通过WebAssembly在移动端解码H.265 本文详细介绍了如何通过WebAssembly在移动Web端实现H.265解码,既享受到了H.265更高的编码效率,又实现了在多种移动端浏览器上兼容。未来,通过WebAssembly还可能实现对AV1等新一代Codec的支持。
  • WebRTC Android H264编解码适配 自从Cisco宣布旗下的H264 Codec开源为OpenH264,并且替所有OpenH264的使用者支付了H264的专利费,WebRTC也随随对H264进行了支持,在Android平台,软编用OpenH264,软解用FFmpeg,硬编硬解用MediaCodec。
  • 音频采样及编解码——LPCM 、ADPCM、G711、G726、AAC 最近在查看hi3516a音频资料部分,遇到一些音频的专业术语,如LPCM 、ADPCM、G711、G726等,故查询了一些资料,对这几个术语进行记录和总结。
  • H.264/AVC视频编解码技术详解:宏块的帧间预测解码 在讨论帧内预测的章节中我们已经讨论过部分宏块类型的分类。我们知道,对于帧间编码的宏块,其划分方式可以分为两步,其一为宏块级划分,其二为子宏块级划分。
  • H.264/AVC视频编解码技术详解:参考帧列表 解码不同的帧类型时,参考帧列表不同。当解码一个P或SP帧时,使用一个参考帧列表RefPicList0;当解码一个B帧时,使用两个参考帧列表RefPicList0和RefPicList1。
  • FFmpeg 编译支持AV1编解码器libaom-av1

AI智能

  • 视频分割在移动端的算法进展综述 视频分割是一项广泛使用的技术,电影电视特效、短视频直播等可以用该技术将场景中的前景从背景中分离出来,通过修改或替换背景,可以将任务设置在现实不存在不存在或不易实现的场景、强化信息的冲击力。
  • CVPR2019 | 医学影像:MIT 利用学习图像变换进行数据增强 近日,由麻省理工学院(MIT)电子工程与计算机科学(ECCS)实验室多位博士所著的医学影像AI论文被CVPR 2019收录。该团队为了解决医学图像标注数据缺乏的问题,提出了通过学习图像的变换(transforms)进行数据增强的半监督分割方法。
  • 全网最大机器学习数据集,视觉、NLP、音频都在这了 在GTC 2019 上,英伟达展示了一款新的交互应用 GauGAN:利用生成对抗网络(GAN)将分割图转换为栩栩如生的图像。这是继 PGGAN、StyleGAN 之后,英伟达提出的又一强大方法,相关论文已被 CVPR 2019 接收为 oral 论文。

图像

  • 深度学习的图像修复 修复指的是恢复图像损失的部分并且基于背景信息将它们重建的技术。它指的是在视觉输入的指定区域中填充缺失数据的过程。在数字世界中,它指的是应用复杂算法以替代图像数据中缺失或者损坏部分。

0 人点赞