昨天下午有人突然在技术群求救:
原来用户在用Jetson Xavier NX做训练。
于是我们跟他说:
用户还是不死心啊:
回答这个问题之前,我们看看Jetson Xavier NX的规格:
你看,相较于Jetson AGX Xavier 32G memory, NX只有8G memory.
为了让用户接受这个现实,我们提供的建议是:
但是用户没有照着做,而是——
这回出现了大家耳熟能详的——
这几乎也是意料之中了,也是内存不足常见的, 例如分配失败后, 没检查就地使用了, (严重的会被就地kill掉, 不严重的会返回分配失败)
于是我们再次请客户
客户贴出的结果:
确实是OOM。
针对这种情况,我们其实内心也是建议用户要么在台式机上训练,要么可以试试在AGX Xavier上做训练。
当然如果一定要在NX上做训练,可以尝试把batchsize 改小!