我们都知道在手工调试模型的参数的时候,我们并不会每次都等到模型迭代完后再修改超参数,而是待模型训练了一定的epoch次数后,通过观察学习曲线(learning curve, lc) 来判断是否有必要继续训练下去。那什么是学习曲线呢?主...
Sharding (分片) 是 eth2 对于 eth1 的诸多改进之一,此术语源自数据库研究,一个分片 (shard) 代表着一个更大整体的一部分。在数据库和 eth2 中,分片意味着将整个系统的存储和计算分到多个分片 (shards) 中,每个分片将单...
批归一化用处很多。它可以改善损失分布(loss landscape),同时还是效果惊人的正则化项。但是,它最重要的一项功能出现在残差网络中——大幅提升网络的最大可训练深度。...