最新 最热

LLM推理速度飙升23倍!Continuous Batching:解锁LLM潜力!

LLMs 在现实应用中的计算成本主要由服务成本所主导,但是传统的批处理策略存在低效性。在这篇文章中,我们将告诉你,为什么 Continuous Batching 连续批处理成为了解决这一问题的新方法,而不再把 LLMs 视为“黑匣子”。这个...

2023-10-24
0

使用TensorRT-LLM进行高性能推理

LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而Te...

2023-10-23
1

基于大模型(LLM)的Agent 应用开发

目前,业界一般认为基于大模型的应用集中在两个方向上:RAG 和 Agent,无论哪一种应用,设计、实现和优化能够充分利用大模型(LLM)潜力的应用都需要大量的努力和专业知识。随着开发人员开始创建日益复杂的LLM应用程序,开发流程...

2023-10-23
1

论文解读: streaming-LLM 使各种模型稳定、高效地处理长达400万tokens的文本

为了保持论文中原汁原味的语义信息,保留相关原文,没有刻意翻译成中文,避免造成误解。

2023-10-22
0

PromptScript:轻量级 DSL 脚本,加速多样化的 LLM 测试与验证

PromptScript 文档:https://framework.unitmesh.cc/prompt-script

2023-10-22
1

使用CoT 的 Prompt方式利用 LLM 设计测试用例实践

腾讯云开发者社区是腾讯云官方开发者社区,致力于打造开发者的技术分享型社区。提供专栏,问答,沙龙等产品和服务,汇聚海量精品云计算使用和开发经验,致力于帮助开发者快速成长与发展,营造开放的云计算技术生态圈。...

2023-10-20
1

0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性

虽说预训练语言模型可以在零样本(zero-shot)设置下,对新任务实现非常好的泛化性能,但在现实应用时,往往还需要针对特定用例对模型进行微调。

2023-10-20
0

GPT-4推理更像人了!中国科学院提出「思维传播」,类比思考完胜CoT,即插即用

如今,GPT-4、PaLM等巨型神经网络模型横空出世,已经展现出惊人的少样本学习能力。

2023-10-20
0

为 Llama2 剪「驼毛」,清华 & 普林斯顿 | 提出最新大模型剪枝法:LLM-Shearing

自大型语言模型(LLM)出现以来,它们便在各种自然语言任务上取得了显著的效果。不过,大型语言模型需要海量的计算资源来训练。因此,业界对构建同样强大的中型规模模型越来越感兴趣,出现了 LLaMA、MPT 和 Falcon,实现了高效的推...

2023-10-19
0

PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍

该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证。

2023-10-18
1