最新 最热

Deep Learning with PyTorch: A 60 Minute Blitz > Tensors

Tensors are a specialized data structure that are very similar to arrays and matrices. In PyTorch, we use tensors to encode the inputs and outputs of a model, a...

2024-06-06
2

CUDA与OpenCL:并行计算革命的冲突与未来

本文翻译自:《CUDA vs OpenCL vs Metal : The Battle for GPU Acceleration Supremacy》

2024-05-17
1

英伟达CUDA介绍及核心原理

CUDA定义了一种针对GPU特性的指令集,允许程序员直接编写针对GPU硬件的代码。这些指令专为大规模并行处理而设计,能够高效地驱动GPU上的数千个并行处理单元(如CUDA核心或流处理器)同时工作。...

2024-04-30
1

docker使用GPU

https://docs.docker.com/config/containers/resource_constraints/#gpu

2024-03-08
3

CUDA指针数组Kernel函数

在前面的一篇文章中,我们介绍了在C++中使用指针数组的方式实现的一个不规则的二维数组。那么如果我们希望可以在CUDA中也能够使用到这种类似形式的不规则的数组,有没有办法可以直接实现呢?可能过程会稍微有一点麻烦,因为...

2024-03-08
2

MindSpore导入CUDA算子

当今众多的基于Python的AI框架(如MindSpore、PyTorch等)给了开发者非常便利的编程的条件,我们可以用Python的简单的语法写代码,然后由框架在后端自动编译成可以在GPU上高效计算的程序。而对于一些定制化比较高的算法,MindS...

2024-02-01
1

【参加CUDA线上训练营】——实验编写CUDA程序

命令行输入:make 然后生成一个可执行文件 接着输入:./hello_cuda 即可运行文件

2024-01-17
1

【参加CUDA线上训练营】——初识CUDA

一般显卡,服务器用 nvidia-smi查看相关参数 jetson设备 用jtop查看相关参数

2024-01-17
1

vllm 安装踩坑 (The NVIDIA driver on your system is too old)

我尝试安装支持 cuda 11.7 的最新版本 torch==2.0.1,运行pip install -e .安装仍然会遇到上述问题。解决办法是修改 vllm 的安装配置文件:

2024-01-16
3

【BBuf的CUDA笔记】十一,Linear Attention的cuda kernel实现补档(文末送书

填一下 【BBuf的CUDA笔记】十,Linear Attention的cuda kernel实现解析 留下的坑,阅读本文之前需要先阅读上面这篇文章。这里就不重复介绍背景知识了,只需要知道现在要计算的目标是:...

2024-01-05
1