BERT 作为目前工业界中训练最耗时的应用,计算量甚至远大于机器视觉中的 ImageNet 训练。在 BERT 原论文中,Jacob Devlin 也是用了 16 台云TPU(64 个 TPU 芯片)花了整整四天,才训练完了 BERT-large 模型。...
12月22日,量子位联合NVIDIA英伟达举行了线下交流会,跟现场近百位开发者同学共同探讨了如何用TensorRT加速深度学习推理计算,详细讲解了GPU的推理引擎TensorRT,以及如何配合Deepstream实现完整加速推理的解决方案。...