媒矿工厂 2023 年度总结

2024-01-04 13:05:12 浏览数 (1)

写在前面:新岁启封,万象更新。2023年即将谢幕,回首这一年,媒矿工厂坚持为各位读者输出技术干货。感谢您对媒矿工厂的支持和陪伴,让我们一起回顾 2023 年的行业前沿技术,迎接 2024 的到来!

热门文章回顾

综合

从 AIGC 到 MMLM

在 LiveVideoStackCon 2023 大会上,上海交通大学的宋利老师发表了一场关于多模态媒体大模型的全景与展望的精彩演讲。他详细探讨了这一系列技术将会如何改变我们的多媒体链条,包括生成、编码和交互方面的进展、前景和挑战。

数字设计 : AIGC 创建者大会 | AI 人像再创作

上海交通大学图像所副所长,宋利教授分享了题为《AI 人像再创作》的演讲,围绕人脸图像 AI 设计的前沿进展,主要介绍了人脸的“玩法”、背后的“技法”、未来的“魔法”三部分内容。

专题

CVPR2022 | 扩散自编码器

本文探索了使用 DPM 进行表示学习的可能性,并通过自编码尝试提取输入图像的有意义且可解码的表示。

CVPR2023 Tutorial Talk | 文本到图像生成的对齐

本视频围绕文本到图像生成对齐,讨论了以下四个方面的工作:可控制的生成和编辑、更好地遵循文本提示和概念定制。

DreamSparse: 利用扩散模型的稀疏图的新视角合成

本文提出了 DreamSparse,使冻结的预训练扩散模型能够生成几何和身份一致的新视图图像。

Compression for AGI

在本次演讲中,我们讨论了基础模型如何开始验证 70 多年前形成的假设:更好地压缩源数据的统计模型最终会从中学习更多基础和通用功能。

TCSVT 2022 | 基于环路多帧预测的深度视频压缩

本文基于端到端深度视频压缩框架,提出了一种环路多帧预测模块,在不额外消耗码率的情况下,对当前帧实现基于多个参考帧的高效预测。

NDSI 2023:自适应帧率的高质量实时通信

我们提出了一种自适应帧速率(AFR)控制器,通过自适应地协调帧速率与波动的网络条件和解码器容量,帮助实现超低延迟。

TCSVT 2019|深度视频预编码

本文提出了一个深度视频预编码框架,其核心预编码组件包括一个级联结构的降尺度神经网络,在视频编码期间,传输之前操作。

交叉注意力控制的 Prompt-to-Prompt 图像编辑

本文提出了一种直观的 prompt to prompt 编辑框架,通过沿着扩散过程注入原始图像的注意力图来控制编辑图像。

基于混合Transformer-CNN结构的学习图像压缩

本文提出了一种融合了Transformer 和 CNN 的混合结构(TCM),并将swin-transformer的注意力模块引入了通道熵编码中,提升了模型的率失真性能。

CVPR 2020 | 一种频域深度学习

本文提出通过在频域学习并选择适当的频率分量,可以提高网络准确性,并减少输入数据大小、降低带宽压力。

生成图像动力学:Generative Image Dynamics

本文提出一种对场景动态的图像空间先验建模的方法,该先验是从包含自然振荡运动的真实视频序列中提取的运动轨迹集合中学习的。

ICCV 2023 | 基于模型的深度视频压缩

在本文中,作者提出了一种新的基于模型的视频压缩(MVC)框架,该框架将场景作为视频序列的基本单元。

学术高光

以下是媒矿工厂创作团队在 2023 年度发表的一些论文,期待在新的一年与大家携手并肩,共同迈向更进一步的成长与创新。

  • ACM MM 2023 | PanoDiff:从窄视场图片生成全景图

本工作可以从一张或多张从任意角度拍摄的未标注 pose 的 NFoV 图像生成 360° 全景图。我们方法核心包括:一个两阶段角度预测模块,用于处理各种数量的 NFoV 输入。一种基于隐式扩散模型的全景生成网络,使用不完整的全景图和文本提示作为控制信号,并利用几种几何增强方案来确保生成图像的全景图几何属性。

  • ICCV 2023 | IDeudemon:基于神经辐射场和生成性先验的人脸图像身份隐私保护

该工作实现了对人脸图像的身份隐私保护,旨在隐藏面部的真实身份,同时保留其他与身份无关的面部特征。IDeudemon可以自然地保护人脸的身份,产生高质量的面部细节并且对不同的姿势和表情具有鲁棒性。

  • CVPR 2023 | FreestyleNet:自由式布局到图像生成

本文提出了一个基于diffusion model的框架,即FreestyleNet,其可以从给定的布局生成包含丰富语义的图像,实现了自由式布局到图像生成。本文引入了修正交叉注意力层,并将其插入到Stable Diffusion的U-Net当中。通过限制文本 token 只在特定的区域与图像 token 产生交互,RCA 实现了将语义自由放置在指定布局上的功能。

  • TOMM 2023 | 混合时域对齐及局部双向循环的视频去模糊

我们提出了一个用于视频去模糊的局部双向循环网络。该方法采用全局前向循环以及局部的后向循环,有效地利用双向信息进行帧重建。同时构建一个融合的时间域合并模块,该模块结合了基于流和基于核对齐方法的优越性。

  • CVPR 2023|CorrespVOS:通过时空对应学习提升视频对象分割

我们设计了一种对应感知的训练框架,它通过在网络学习过程中显式地鼓励稳健的对应匹配,来提升基于匹配的VOS方法的性能。通过全面地探索视频中像素和对象层面的内在一致性,我们的算法将无标签、对比式的对应学习与标准的、完全监督的掩码分割训练相结合。

  • BMSB 2023 | 针对自由视角视频的无参考质量评价方法

本文提出了一个针对自由视点视频(FVV)的端到端无参考视频质量评估(NRVQA)模型,旨在通过不同的特征采样和提取方法,基于空域和时域特征共同预测视频质量得分。相较于以往的深度视频质量评估方法,该评估方法同时考虑了时空域失真,具备了更加全面的评估能力。

  • ICME 2023 | PACC: RTC 下基于用户感知的拥塞控制

我们在本文针对 RTC 提出了基于感知的拥塞控制(PACC)。利用卷积神经网络,我们开发了一个质量评估模型来预测视频质量。借助于用户感知的变化趋势分析,PACC 将朝着更好的 QoE 方向去调整码率。

  • AIART 2023 | 具有细节和结构增强的老照片修复网络

在本文中,我们提出了一种级联的由粗到细的老照片修复算法,可以同时恢复老照片中的结构化和非结构化损伤。该方法突破了以往方法在同时处理这两种损伤时的局限性,提出了一种新颖的统一的体系结构。

  • ICASSP2023 | 用于图像增强的双头融合网络

我们提出了一种新的双头融合网络进行图像增强,该网络综合考虑了全局场景信息和局部内容信息。网络由四个轻量级模块组成,解决了现有方法大多倾向于为所有像素的颜色转换构造统一的增强器,忽略了图片的局部上下文信息的问题。

  • NetAISys 2023 | SAFR: 自适应帧率的 RTC 系统

在本文中,我们提出了一个新的 RTC 框架 SAFR 来提高所有三个关键指标的 QoE 性能。使用精心设计的 FRC 和 TRC,可以实现更低的帧延迟、更好的帧质量和更高的带宽利用率。在接收端进一步部署 VFI 模块以减少丢帧率。

总结

在 2023 年,媒矿工厂团队锐意进取,不懈努力,共发布了285 篇精彩文章,总用户数更是突破了 16000 人,感谢各位读者的支持与信任,新的一年我们将继续保持饱满的热情,持续输出高质量的技术干货。祝愿各位读者在新的一年里,身体健康,心想事成,一切顺利!

0 人点赞