gpu_字节宝

GPU推理提速4倍，256K上下文全球最长：无问芯穹刷新大模型优化记录

报道显示，微软的 GitHub Copilot 业务（背后由 OpenAI 的 GPT 大模型支撑）虽然每月收费 10 美元，但平均还是要为每个用户倒贴 20 美元。可见当前 AI 服务提供商们正面临着严峻的经济账挑战 —— 这些服务不仅构建成本高昂，...

缓存 gpu 模型异步优化

2023-11-07

14

首次采用 3nm 制程、比 M1 Max 快 80%！苹果亮相 M3 系列芯片，最高搭载 40 核 GPU

10 月 31 日，以“Scary Fast（快得吓人）”为主题对苹果新品发布会如约而至。在此次发布会上，Apple 宣布推出全新 MacBook Pro 系列，采用全新 M3 芯片系列：M3、M3 Pro 和 M3 Max。据悉，M3 系列芯片采用 3nm 制程工艺，在 CPU 和 ...

gpu max 内存苹果芯片

2023-11-06

17

剥离光模块，剥离FPGA，但是咱股价涨了！

腾讯云开发者社区是腾讯云官方开发者社区，致力于打造开发者的技术分享型社区。提供专栏,问答，沙龙等产品和服务，汇聚海量精品云计算使用和开发经验，致力于帮助开发者快速成长与发展，营造开放的云计算技术生态圈。...

arm fpga gpu x86 交换机

2023-11-02

18

清华开发出超高性能计算芯片：速度比高端GPU提升3000倍，能效提升400万倍！

随着各类大模型和深度神经网络涌现，如何制造出满足人工智能发展、兼具大算力和高能效的下一代AI芯片，已成为国际前沿热点。中国科协发布的2023重大科学问题中“如何实现低能耗人工智能”被排在首位。...

高性能计算 gpu 架构开发芯片

2023-11-01

16

FlashAttention图解（如何加速Attention）

来源丨https://zhuanlan.zhihu.com/p/626079753

gpt gpu sequence vector 内存

2023-10-30

19

【深度学习】Python使用指定gpu运行代码

在大型机构分配的服务器集群中，需要使用GPU的程序默认都会在第一张卡上进行，如果第一张卡倍别人占用或者显存不够的情况下，程序就会报错说没有显存容量，所以能够合理地利用GPU资源能帮助你更快更好地跑出实验效果。 1、指...

Python 深度学习 gpu 程序脚本

2023-10-30

14

英伟达A800、H800将被出口管制，国产GPU能否顶起一片天？

10月17日晚间消息，美国商务部延长了在2022年10月首次实行的全面出口管制，将收紧对尖端人工智能芯片的出口管制。

gpu 产品华为模型芯片

2023-10-25

14

用这个开源项目，我的GPU 竟然也能运行Llama2

对于这一问题，很多人都难以给出确切的回答，不知该如何计算 GPU 内存。因为查看 GPU 可以处理哪些 LLM 并不像查看模型大小那么容易，在推理期间（KV 缓存）模型会占用大量内存，例如，llama-2-7b 的序列长度为 1000，需要 1GB 的额...

开源 gpu 量化模型内存

2023-10-24

16

你的GPU能跑Llama 2等大模型吗？用这个开源项目上手测一测

对于这一问题，很多人都难以给出确切的回答，不知该如何计算 GPU 内存。因为查看 GPU 可以处理哪些 LLM 并不像查看模型大小那么容易，在推理期间（KV 缓存）模型会占用大量内存，例如，llama-2-7b 的序列长度为 1000，需要 1GB 的额...

开源 gpu 量化模型内存

2023-10-24

16

别再「浪费」GPU了，FlashAttention重磅升级，实现长文本推理速度8倍提升

最近，像 ChatGPT 或 Llama 这样的大型语言模型（LLM）引起了前所未有的关注。然而，它们的运行成本仍然极高。虽然生成单个响应可能仅需 0.01 美元（在 AWS 上的 8xA100 实例上运行几秒钟），但当扩大规模以满足数十亿用户的需求时...

gpu 测试模型内存内核

2023-10-24

14

GPU推理提速4倍，256K上下文全球最长：无问芯穹刷新大模型优化记录

首次采用 3nm 制程、比 M1 Max 快 80%！苹果亮相 M3 系列芯片，最高搭载 40 核 GPU

剥离光模块，剥离FPGA，但是咱股价涨了！

清华开发出超高性能计算芯片：速度比高端GPU提升3000倍，能效提升400万倍！

FlashAttention图解（如何加速Attention）

【深度学习】Python使用指定gpu运行代码

英伟达A800、H800将被出口管制，国产GPU能否顶起一片天？

用这个开源项目，我的GPU 竟然也能运行Llama2

你的GPU能跑Llama 2等大模型吗？用这个开源项目上手测一测

别再「浪费」GPU了，FlashAttention重磅升级，实现长文本推理速度8倍提升

热门文章

热门手册