最新 最热

RDMA_verbs编程详解-查询设备列表(ibv_get_device_list)和打开设备(ibv_open_device)

IB设备通过ib_core驱动注册后(lsmod|grep ib), 在sysfs下生成的目录树参考如下:

2024-05-19
2

RDMA_verbs详解-修改队列对属性(ibv_modify_qp)-ceph-ucx-nccl-intel rdma驱动源码解析

QP上可变化的属性描述了QP的发送和接收属性。 在 UC 和 RC QP 中,这意味着将 QP 与远程 QP 连接。 在 Infiniband 中,应向子网管理员 (SA) 执行路径查询,以确定 QP 应配置哪些属性或作为最佳解决方案,使用通信管理器 (CM)...

2024-02-24
1

DAOS_分布式存储_大块数据传输_RDMA_BULK_单边读或写_大IO数据通道_RPC大小IO阈值19K_源码分析

2. 发送端把一段不连续的内存封装为sgl, 调用bulk_create分段注册好(crt_bulk_create(ctx, &sgl, CRT_BULK_RW, bulk))

2023-12-14
1

Nvidia-NCCL-GPU集合通信接口简介_源码笔记

nccl: NVIDIA Collective Communications Library (NCCL) 集合通信接口

2023-11-24
2

DAOS_分布式存储_mercury_libfabric_rdma_rpc高性能网络_大块数据_bulk传输_中断_轮询自动切换_等笔记

博客: https://logread.cn | https://blog.csdn.net/ssbandjl | https://cloud.tencent.com/developer/user/5060293/articles

2023-11-21
1

UCX-UCT统一通信传输层2-深入-建连_数据收发主流程

LAG (Link Aggregation Group): 链路汇聚(bonding), 网络绑定可以将两个或多个网络接口组合成一个接口。它可以提高网络吞吐量和带宽,并在其中一个接口发生故障时提供冗余。NVIDIA ® BlueField ® DPU 可以选择以对主...

2023-11-19
1

浅谈大模型训练排障平台的建设

OpenAI的Chat-GPT为我们揭示了通用人工智能的潜力,而GPT4-Turbo的发布进一步拓宽了我们对通用人工智能的想象边界,国内各种大型模型如同雨后春笋般涌现。同时,大模型训练所带来的各种工程化问题也接踵而至。大模型训练通...

2023-11-17
1

DAOS分布式存储_libfabric_高性能RPC_rdma网络_笔记

博客: https://logread.cn | https://blog.csdn.net/ssbandjl | https://cloud.tencent.com/developer/user/5060293/articles

2023-11-03
1

UCX-UCT统一通信传输层1-简介

UCT(Unified Communication Transport)是一个传输层,它抽象了各种硬件架构之间的差异,并提供了支持通信协议实现的低级 API。该层的主要目标是以最小的软件开销提供对硬件网络资源的直接有效的访问。为此,UCT 依赖于低级...

2023-10-25
1