菜鸟手册10:谁“杀”了我的进程?

2020-08-20 14:14:54 浏览数 (1)

昨天下午有人突然在技术群求救:

原来用户在用Jetson Xavier NX做训练。

于是我们跟他说:

用户还是不死心啊:

回答这个问题之前,我们看看Jetson Xavier NX的规格:

你看,相较于Jetson AGX Xavier 32G memory, NX只有8G memory.

为了让用户接受这个现实,我们提供的建议是:

但是用户没有照着做,而是——

这回出现了大家耳熟能详的——

这几乎也是意料之中了,也是内存不足常见的, 例如分配失败后, 没检查就地使用了, (严重的会被就地kill掉, 不严重的会返回分配失败)

于是我们再次请客户

客户贴出的结果:

确实是OOM。

针对这种情况,我们其实内心也是建议用户要么在台式机上训练,要么可以试试在AGX Xavier上做训练。

当然如果一定要在NX上做训练,可以尝试把batchsize 改小!

0 人点赞