最新 最热

Simple TPU的设计和性能评估

在TPU中的脉动阵列及其实现中介绍了矩阵/卷积计算中的主要计算单元——乘加阵列(上图4),完成了该部分的硬件代码并进行了简单的验证;在 神经网络中的归一化和池化的硬件实现中介绍了卷积神经网络中的归一化和池化的实现方...

2019-07-31
0

XLNet团队:赢BERT靠的并不是数据集更大,公平对决也碾压对手

但是与BERT相比,XLNet模型的训练数据比BERT大10倍。这让学术界和工业界对此产生了疑问:XLNet如果只接受与BERT相同规模的训练数据会如何?XLNet的胜利是否只是数据集的胜利?...

2019-07-30
0

MongoDB sharding 集合不分片性能更高?

最近云上用户用户遇到一个 sharding 集群性能问题的疑惑,比较有代表性,简单分享一下。

2019-07-29
0

【MatConvnet速成】MatConvnet图像分类从模型自定义到测试

不同于各类深度学习框架广泛使用的语言Python,MatConvnet是用matlab作为接口语言的开源深度学习库,底层语言是cuda。

2019-07-28
0

【AI不惑境】学习率和batchsize如何影响模型的性能?

n是批量大小(batchsize),η是学习率(learning rate)。可知道除了梯度本身,这两个因子直接决定了模型的权重更新,从优化本身来看它们是影响模型性能收敛最重要的参数。...

2019-07-28
0

【AI初识境】为了围剿SGD大家这些年想过的那十几招

对于凸优化来说,任何局部最优解即为全局最优解。用贪婪算法或梯度下降法都能收敛到全局最优解,损失曲面如下。

2019-07-26
0

【AI初识境】深度学习模型中的Normalization,你懂了多少?

Normalization是一个统计学中的概念,我们可以叫它归一化或者规范化,它并不是一个完全定义好的数学操作(如加减乘除)。它通过将数据进行偏移和尺度缩放调整,在数据预处理时是非常常见的操作,在网络的中间层如今也很频繁的...

2019-07-26
0

【模型训练】SGD的那些变种,真的比SGD强吗

深度学习框架目前基本上都是使用梯度下降算法及其变种进行优化,通常意义上大家会认为原始的梯度下降算法是最弱的,但事实上并非如此。

2019-07-26
0

kube-scheduler深度学习批处理任务定制化开发

深度学习中经常会出现多机多卡的任务,也就是同事会起多个pod,但是这多个pod属于同一个任务。

2019-07-25
0

最小二乘多项式及其脊线的极值全局灵敏度分析

原文题目:Extremum Global Sensitivity Analysis with Least Squares Polynomials and their Ridges

2019-07-19
0