最新 最热

[源码解析] TensorFlow 分布式之 MirroredStrategy

MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是:如何更新 Mirrored 变量?如何分发计算?本文我们看看其总体思路和如何更新变量。...

2022-05-09
1

[源码解析] TensorFlow 之 分布式变量

在 TensorFlow 之中,分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。我们通过一系列问题来引导分析:...

2022-05-09
0

[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

前文之中我们已经介绍了 Strategy 这个基本概念,tf.distribute.Strategy 是一个可在多个 GPU、多台机器或 TPU 上进行分布式训练的 TensorFlow API。使用此 API,您只需改动较少代码就能基于现有模型和训练代码来实现单...

2022-05-09
0

[翻译] 使用 TensorFlow 进行分布式训练

https://tensorflow.google.cn/guide/distributed_training(此文的信息是2.3版本之前)。

2022-05-09
1

[源码解析] TensorFlow 分布式环境(8) --- 通信机制

当计算图在设备之间划分之后,跨设备的 PartitionGraph 之间可能存在着数据依赖关系,因此 TF 在它们之间插入 Send/Recv 节点,这样就完成数据交互。而在分布式模式之中,Send/Recv 通过 RpcRemoteRendezvous 完成数据交换,所...

2022-05-09
0

[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

前文中,Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令,即,GrpcRemoteWorker 类中的每一个函数都通过调用 IssueRequest() 发起一个异步的 gRPC 调用。GrpcRemoteWorker 一共发了两个请求:RegisterGraphAsync,R...

2022-05-09
0

[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文会从 Client 开始,看看 Master 如何对计算...

2022-05-09
0

[源码解析] TensorFlow 分布式环境(5) --- Session

会话机制是TensorFlow 分布式运行时的核心,我们接下来按照从 Client 到 worker 的流程,把 Session 机制从前到后走一边。

2022-05-09
0

[源码解析] TensorFlow 分布式环境(4) --- WorkerCache

我们接下来介绍缓存机制。为什么要缓存?因为集群内部有众多 worker。在 Master 与 Worker 之间,Worker 和 Worker 之间都需要交互,所以有必要把 Worker 和其 Grpc 通道都缓存起来。可以说,在 TensorFlow 分布式环境下处处...

2022-05-09
0

[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本篇介绍 Worker(一系列相关概念) 的静态架构。...

2022-05-09
0