LLM_字节宝

LLM推理速度飙升23倍！Continuous Batching：解锁LLM潜力！

LLMs 在现实应用中的计算成本主要由服务成本所主导，但是传统的批处理策略存在低效性。在这篇文章中，我们将告诉你，为什么 Continuous Batching 连续批处理成为了解决这一问题的新方法，而不再把 LLMs 视为“黑匣子”。这个...

模型内存数据优化 LLM

2023-10-24

使用TensorRT-LLM进行高性能推理

LLM的火爆之后，英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而Te...

高性能模型性能优化 LLM

2023-10-23

基于大模型（LLM）的Agent 应用开发

目前，业界一般认为基于大模型的应用集中在两个方向上：RAG 和 Agent，无论哪一种应用，设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。随着开发人员开始创建日益复杂的LLM应用程序，开发流程...

agent 开发模型系统 LLM

2023-10-23

论文解读: streaming-LLM 使各种模型稳定、高效地处理长达400万tokens的文本

为了保持论文中原汁原味的语义信息，保留相关原文，没有刻意翻译成中文，避免造成误解。

streaming 论文模型性能 LLM

2023-10-22

PromptScript：轻量级 DSL 脚本，加速多样化的 LLM 测试与验证

PromptScript 文档：https://framework.unitmesh.cc/prompt-script

dsl 测试脚本配置 LLM

2023-10-22

使用CoT 的 Prompt方式利用 LLM 设计测试用例实践

腾讯云开发者社区是腾讯云官方开发者社区，致力于打造开发者的技术分享型社区。提供专栏,问答，沙龙等产品和服务，汇聚海量精品云计算使用和开发经验，致力于帮助开发者快速成长与发展，营造开放的云计算技术生态圈。...

prompt 设计实践数据 LLM

2023-10-20

0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性

虽说预训练语言模型可以在零样本（zero-shot）设置下，对新任务实现非常好的泛化性能，但在现实应用时，往往还需要针对特定用例对模型进行微调。

安全 chatgpt 模型数据 LLM

2023-10-20

GPT-4推理更像人了！中国科学院提出「思维传播」，类比思考完胜CoT，即插即用

如今，GPT-4、PaLM等巨型神经网络模型横空出世，已经展现出惊人的少样本学习能力。

gpt 解决方案模型性能 LLM

2023-10-20

为 Llama2 剪「驼毛」，清华 & 普林斯顿 | 提出最新大模型剪枝法：LLM-Shearing

自大型语言模型（LLM）出现以来，它们便在各种自然语言任务上取得了显著的效果。不过，大型语言模型需要海量的计算资源来训练。因此，业界对构建同样强大的中型规模模型越来越感兴趣，出现了 LLaMA、MPT 和 Falcon，实现了高效的推...

模型配置数据性能 LLM

2023-10-19

PyTorch官方认可！斯坦福博士新作：长上下文LLM推理速度提8倍

该方法尤其造福于长上下文LLM，在64k长度的CodeLlama-34B上通过了验证。

pytorch 工作模型内存 LLM

2023-10-18

19 20 21 22 23

LLM推理速度飙升23倍！Continuous Batching：解锁LLM潜力！

使用TensorRT-LLM进行高性能推理

基于大模型（LLM）的Agent 应用开发

论文解读: streaming-LLM 使各种模型稳定、高效地处理长达400万tokens的文本

PromptScript：轻量级 DSL 脚本，加速多样化的 LLM 测试与验证

使用CoT 的 Prompt方式利用 LLM 设计测试用例实践

0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性

GPT-4推理更像人了！中国科学院提出「思维传播」，类比思考完胜CoT，即插即用

为 Llama2 剪「驼毛」，清华 & 普林斯顿 | 提出最新大模型剪枝法：LLM-Shearing

PyTorch官方认可！斯坦福博士新作：长上下文LLM推理速度提8倍

热门文章

热门手册