最新 最热

注意力论文解读(1) | Non-local Neural Network | CVPR2018 | 已复现

首先,这个论文中的模块,叫做non-local block,然后这个思想是基于NLP中的self-attention自注意力机制的。所以在提到CV中的self-attention,最先想到的就是non-local这个论文。这个论文提出的动机如下:...

2021-01-18
0

神经网络优化算法-mini-batch、Adam、momentum、随机梯度下降

神经网络训练过程是对所有m个样本,称为batch,如果m很大,例如达到百万数量级,训练速度往往会很慢。

2021-01-14
0

深度学习框架哪家强?国产框架OneFlow做了一份测评报告

数据显示,OneFlow 在 4 机 32 卡下的 ResNet50-v1.5 和 BERT-base 两个模型中,无论是 Float32 类型还是自动混合精度,在同样的算法和硬件条件下,吞吐率及加速比均优于其他深度学习框架。...

2021-01-14
0

Pytorch中的分布式神经网络训练

随着深度学习的多项进步,复杂的网络(例如大型transformer 网络,更广更深的Resnet等)已经发展起来,从而需要了更大的内存空间。经常,在训练这些网络时,深度学习从业人员需要使用多个GPU来有效地训练它们。在本文中,我将向您介...

2021-01-12
0

损失函数、梯度下降,深度学习的基础全打通!

在上一篇文章当中我们简单介绍了感知机和神经网络的一个关系,对神经网络有了一个粗浅的理解。其实神经网络并没有大家想的那么难,每个神经元之间的数据传输以及计算方式都是确定的。仅仅知道神经网络的结构还是不够的,更...

2021-01-08
0

BN和Dropout在训练和测试时有哪些差别?

本文首先介绍了Batch Normalization和Dropout在训练和测试时的不同点,后通过相关论文的参考讲述了BN和Dropout共同使用时会出现的问题,并给出了两种解决方案,通过阅读本文能够对这两种技术的特性更加清晰。...

2021-01-08
0

【骚操作】折叠Batch Normalization加速模型推理

Batch Normalization是将各层的输入进行归一化,使训练过程更快、更稳定的一种技术。在实践中,它是一个额外的层,我们通常添加在计算层之后,在非线性之前。它包括两个步骤:...

2021-01-08
0

Slurm学习笔记(二)

scontrol show partition显示全部队列信息,scontrol show partition PartitionName或 scontrol show partition=PartitionName显示队列名PartitionName的队列信息,输出类似:

2021-01-06
0

使用JDBC时,加速批量insert

java开发者使用PG jdbc驱动时,可以指定reWriteBatchedInserts连接参数来加速批量操作。如果reWriteBatchedInserts=true,JDBC驱动会重写批量insert转换成多行insert,从而限制数据库的调用次数。...

2021-01-05
0

AAAI2021 | 长尾识别中的trick大礼包

近年来,基于深度学习的方法在长尾分布(类别不平衡)数据上取得了极大进展。除了这些复杂的方法外,训练过程中的那些简单“技巧”(比如数据分布、损失函数的调整)同样起着不小的贡献。然而,不同的“技巧”之间可能存在“冲...

2021-01-05
0