最新 最热

机器学习入门:梯度下降算法(下)

批量梯度下降法,是梯度下降法最常用的形式,具体做法也就是在更新参数时使用所有的样本来进行更新。

2024-09-10
3

机器学习入门:梯度下降算法(上)

一个人 被困在山上,需要从山上下来 (i.e. 找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。

2024-09-10
3

Adam效果不好?Decouple Weight Decay Regulaization阅读笔记

论文首先发现问题,和其他相关研究类似,L2和weight decay在adam这种自适应学习率上的表现很差,导致很多人还是采用SGD+momentum策略。类似的有相关研究,从各种方面出发,作者发现效果差的最主要原因是L2效果不好。因此其最主...

2023-06-23
1