2021 年 10 月 13 日,来自麻省理工学院、加州大学伯克利分校、伊利诺伊大学香槟分校、华盛顿大学、帝国理工学院的六名顶级人工智能科学家、计算机视觉科学家在 ICCV 2021 大会期间进行了题为「A discussion about dee...
WenetSpeech数据集 包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用...
从 20 世纪 60 年代以来,数学家们开始使用计算机帮助发现规律和提出猜想,但人工智能系统尚未普遍应用于理论数学研究领域。
该方法通过在视频中引入注意力机制,成功地解决此前采用了无监督学习的多目标分割和跟踪方法的一些不足。
简单介绍一下我的学习路程,一开始入门机器学习,觉得大多数入门的通病都是漫天的去网上找贴吧找资源,然后网盘保存了一大堆资料,每个吃一点不断的遴选符合自己口味,但又茫然不确定自己选的资料好不好,这段时间费时费神,后来也...
经济学家熊彼特认为,所谓创新就是要”建立一种新的生产函数”,即"生产要素的重新组合”, 就是要把一种从来没有的关于生产要素和生产条件的“新组合”引进生产体系中去,以实现对生产要素或生条件的“新组合”。目前,机器人...
这篇主要探讨SimCLR,不需要用监督学习(supervision)的方式,采用自监督(self-supervised)的方式使得模型学到很多有用的patterns。众所周知,使用对比学习(修改样本,loss等小trick)就可以显著提高模型的泛化能力,所以我们都...
本文提出一个用于掩码图像建模(masked image modeling)的简单框架SmiMIM。作者简化了最近提出的方法,而无需任何特殊设计,如利用离散VAE或聚类进行块级别的掩码和分词。为了让掩码图像建模任务能学到更好的表示,作者表示...
前一篇文章讲解了Tensorboard可视化的基本用法,并绘制整个神经网络及训练、学习的参数变化情况。本篇文章将通过TensorFlow实现分类学习,以MNIST数字图片为例进行讲解。本文主要结合作者之前的博客、AI经验和"莫烦大神"...
深度估计,就是获取图像中场景里的每个点到相机的距离信息,这种距离信息组成的图我们称之为深度图,英文叫Depth map。