Triton_字节宝

使用Triton+TensorRT-LLM部署Deepseek模型

随着大模型项目的开源环境越来越好，大家在本地部署一个大语言模型跑demo应该是一件很简单的事情。但是要将模型运行到生产环境，就需要考虑模型运行性能，GPU资源的调度，高并发场景的支持等情况了。...

2024-04-17