layer_字节宝

自动求导的思路与简单实现

参考：https://borgwang.github.io/dl/2019/09/15/autograd.html

2022-09-29

南京大学丁爱军团队最新合作成果揭示东南亚大火增强南海低云的反馈机制

近日，《自然通讯》（Nature Communications）以“Aerosol-boundary-layer-monsoon interactions amplify semi-direct effect of biomass smoke on low cloud formation in Southeast As...

cloud layer

2022-09-23

经典神经网络 | GoogleNet 论文解析及代码实现

利用赫布理论和多尺度处理直觉设计一种增加深度和宽度的提高内部计算资源利用率的（同时保持了计算预算不变）网络。GoogleNet在ImageNet分类比赛的Top-5错误率降到了6.7%。...

channel gpu layer map

2022-09-23

AAAI'21 | 会话推荐--稀疏注意力去除噪声，自注意力生成目标表征

这里作者用到了一个新的激活函数，当然不是作者提出的。通常我们采用softmax来做最后的激活函数，或者作为注意力机制的归一化函数。但是softmax的归一化方式会为向量中的每一个元素都赋值，即他不会存在0的值，顶多是很小，比...

Github embedding layer target

2022-09-19

C#之ArcGIS二次开发

sqlfilter为查询条件，如查询layer图层中，属性字段ID<10的要素：searchFeatures(axMapControl1, “ID < 10”, layer);

layer 全栈

2022-09-14

软件架构设计的核心：抽象与模型、“战略编程”

在任何程序（可以向外延伸到其他很多领域）的生命周期中，复杂性都会不可避免地增加。程序越大，工作的人越多，管理复杂性就越困难，程序员在修改系统时将所有相关因素牢记在心中变得越来越难；这会减慢开发速度并导致错误，从而进...

HTTP layer model view 编程

2022-09-07

lldp协议代码阅读_LLDP(lldp协议平时开启还是关闭)

没设备，没法试试ndp，不知道dis ndp是什么效果，和dis lldp 。有什么区别呢。

cisco Display layer mac microsoft

2022-09-05

训练网络loss出现Nan解决办法

1.如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为你的学习率过高，需要降低学习率。可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1-10倍即可。...

diff gradient layer nan solver

2022-09-02

张量模型并行详解 | 深度学习分布式训练专题

随着模型规模的扩大，单卡显存容量无法满足大规模模型训练的需求。张量模型并行是解决该问题的一种有效手段。本文以Transformer结构为例，介绍张量模型并行的基本原理。...

embedding hidden layer size word

2022-09-01

3 4 5 6 7