TensorFlow_字节宝

[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文梳理下 Master 的静态逻辑。...

TensorFlow 分布式 rpc

2022-05-09

[源码解析] TensorFlow 分布式环境(1) --- 总体架构

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。...

TensorFlow 分布式 rpc

2022-05-09

[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"

读论文有一种原则是：本领域最经典的论文，近5年最热的论文，近1年最新的论文。按照这个原则，本文主要介绍一篇Tensorflow 经典论文 Implementation of Control Flow in TensorFlow。...

TensorFlow 分布式编程算法面向对象编程

2022-05-09

[翻译] TensorFlow 分布式之论文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed

本系列我们开始分析 TensorFlow 的分布式。之前在机器学习分布式这一系列分析之中，我们大多是以 PyTorch 为例，结合其他框架/库来穿插完成。但是缺少了 TensorFlow 就会觉得整个世界（系列）都是不完美的，不单单因为 TensorF...

TensorFlow 分布式机器学习神经网络深度学习

2022-05-09

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器---(3)

在本系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

TensorFlow pytorch Node.js HTML

2022-05-09

[源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。...

NLP服务 mapreduce TensorFlow CSS GPU云服务器

2022-05-09

[源码解析] 快手八卦 --- 机器学习分布式训练新思路(2)

“Bagua“ 是快手和苏黎世理工（ETH Zürich）联合开发的分布式训练框架。其专门针对分布式的场景设计特定的优化算法，实现算法和系统层面的联合优化，力图极致化分布式训练的效率。其特点是：...

编程算法分布式 TensorFlow pytorch

2022-05-09

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V1

本章我们看看 ParameterServerStrategy，就是第一版代码。研究这个是因为目前工业界还有很多公司在使用，而且其内部机制也比较清晰易懂，值得我们分析。...

编程算法 TensorFlow 分布式

2022-05-09

tf34：从ckpt中读取权重值

在TensorFlow里，提供了tf.train.NewCheckpointReader来查看model.ckpt文件中保存的变量信息。

TensorFlow model 变量

2022-05-09

TensorFlow 网络优化步骤与一般方法

深度学习中，网络的优化是训练过程中很重要的一部分，现在有很多的优化策略，而他们的核心的内容都是梯度下降。理论的部分大家可以参考：理解梯度下降在机器学习模型优化中的应用，其中介绍了批量梯度下降，随机梯度下降与小批...

TensorFlow 编程算法

2022-05-09

49 50 51 52 53

[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

[源码解析] TensorFlow 分布式环境(1) --- 总体架构

[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"

[翻译] TensorFlow 分布式之论文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器---(3)

[源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础

[源码解析] 快手八卦 --- 机器学习分布式训练新思路(2)

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V1

tf34：从ckpt中读取权重值

TensorFlow 网络优化步骤与一般方法

热门文章

热门手册