最新 最热

GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录

报道显示,微软的 GitHub Copilot 业务(背后由 OpenAI 的 GPT 大模型支撑)虽然每月收费 10 美元,但平均还是要为每个用户倒贴 20 美元。可见当前 AI 服务提供商们正面临着严峻的经济账挑战 —— 这些服务不仅构建成本高昂,...

2023-11-07
1

首次采用 3nm 制程、比 M1 Max 快 80%!苹果亮相 M3 系列芯片,最高搭载 40 核 GPU

10 月 31 日,以“Scary Fast(快得吓人)”为主题对苹果新品发布会如约而至。在此次发布会上,Apple 宣布推出全新 MacBook Pro 系列,采用全新 M3 芯片系列:M3、M3 Pro 和 M3 Max。据悉,M3 系列芯片采用 3nm 制程工艺,在 CPU 和 ...

2023-11-06
1

剥离光模块,剥离FPGA,但是咱股价涨了!

腾讯云开发者社区是腾讯云官方开发者社区,致力于打造开发者的技术分享型社区。提供专栏,问答,沙龙等产品和服务,汇聚海量精品云计算使用和开发经验,致力于帮助开发者快速成长与发展,营造开放的云计算技术生态圈。...

2023-11-02
1

清华开发出超高性能计算芯片:速度比高端GPU提升3000倍,能效提升400万倍!

随着各类大模型和深度神经网络涌现,如何制造出满足人工智能发展、兼具大算力和高能效的下一代AI芯片,已成为国际前沿热点。中国科协发布的2023重大科学问题中“如何实现低能耗人工智能”被排在首位。...

2023-11-01
1

FlashAttention图解(如何加速Attention)

来源丨https://zhuanlan.zhihu.com/p/626079753

2023-10-30
1

【深度学习】Python使用指定gpu运行代码

在大型机构分配的服务器集群中,需要使用GPU的程序默认都会在第一张卡上进行,如果第一张卡倍别人占用或者显存不够的情况下,程序就会报错说没有显存容量,所以能够合理地利用GPU资源能帮助你更快更好地跑出实验效果。 1、指...

2023-10-30
1

英伟达A800、H800将被出口管制,国产GPU能否顶起一片天?

10月17日晚间消息,美国商务部延长了在2022年10月首次实行的全面出口管制,将收紧对尖端人工智能芯片的出口管制。

2023-10-25
1

用这个开源项目,我的GPU 竟然也能运行Llama2

对于这一问题,很多人都难以给出确切的回答,不知该如何计算 GPU 内存。因为查看 GPU 可以处理哪些 LLM 并不像查看模型大小那么容易,在推理期间(KV 缓存)模型会占用大量内存,例如,llama-2-7b 的序列长度为 1000,需要 1GB 的额...

2023-10-24
1

你的GPU能跑Llama 2等大模型吗?用这个开源项目上手测一测

对于这一问题,很多人都难以给出确切的回答,不知该如何计算 GPU 内存。因为查看 GPU 可以处理哪些 LLM 并不像查看模型大小那么容易,在推理期间(KV 缓存)模型会占用大量内存,例如,llama-2-7b 的序列长度为 1000,需要 1GB 的额...

2023-10-24
1

别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升

最近,像 ChatGPT 或 Llama 这样的大型语言模型(LLM)引起了前所未有的关注。然而,它们的运行成本仍然极高。虽然生成单个响应可能仅需 0.01 美元(在 AWS 上的 8xA100 实例上运行几秒钟),但当扩大规模以满足数十亿用户的需求时...

2023-10-24
1