CogVideoX-2B 是由智谱AI开发的一款开源视频生成模型,其核心在于3D变分自编码器(3D VAE)技术,这项技术能够将视频数据压缩至原来的2%,极大地降低了模型处理视频时所需的计算资源。此外,为了进一步提升内容的连贯性,CogVideoX...
FLUX是当前非常热门的一款AI绘画工具,它由Black Forest Labs( Stable Diffusion 的原班人马)开发,旨在为用户提供高质量的图像生成服务。该工具不仅在性能上远超竞品,更在用户体验上开创了新的可能性。FLUX.1是其最新版本,...
随着移动网络和社会平台的大量普及,图像文本对的生产爆炸式增长 。如此丰富的数据为视觉语言预训练的推进提供了强大的基础。对比学习预训练(CLIP)[1]在多模态学习上取得了显著成功,通过在大型数据集上align图像文本对。...
开放集图像分类是计算机视觉领域一个基本且具有挑战性的任务。最近,视觉语言模型(VLMs)在这个领域展现出了强大的能力。一个突出的模型是CLIP (Radford等人,2021年),将图像和语言编码到统一的嵌入空间中,通过测量图像表示和...
行人检测是计算机视觉在日常生活中的典型应用 [1]。事实上,单阶段深度卷积神经网络(YOLO)在目标检测 方面表现出色,明显优于之前的半手工方法和两阶段神经网络 [2]。例如,YOLO允许卷积神经网络(CNNs) [6] 在任意长宽比下输...
自动驾驶(AD)的实际实现,特别是高阶全自动驾驶(L4&5级),依赖于健壮的基于机器学习的感知算法。最近的部委报告表明,感知失败仍然是高级驾驶员辅助系统(ADAS)断开的核心驱动因素[8]。...
人重识别(ReID)旨在从人类图像中学习视觉特征,能够区分不同的个体身份。这是一个重要且具有挑战性的计算机视觉问题,需要克服严重的遮挡、外观变化、形状变化和视点变化。人重识别技术能够在无接触和不合作的情况下实现跨...
为解决这个问题,穷举最佳组合以实现帕累托最优似乎是最直观和有效的方法。然而,这面临三个主要原因的挑战。首先,庞大的部署空间使得全面搜索代价高昂。例如,在第四章详细介绍的Oneplus 8T手机上,仅设备配置就有3.67E+05种...
激光雷达是否用于3D感知,长期以来一直是自动驾驶公司核心争论的焦点。尽管以视觉为中心的系统具有经济优势,但它们无法捕捉任意形状的障碍物,这限制了驾驶的安全性和鲁棒性。3D语义占用预测方法的出现缓解了这个问题,通过...
耐药病原体的出现是对人类健康的巨大挑战。抗菌肽(Antimicrobial peptides,ABP)又称宿主防御肽,是机体免疫防御系统的重要组成部分,表现出多方面的作用机制,对细菌、真菌、病毒和其他病原体具有广谱抗菌活性。因此,它们已...