Tensorflow2系类知识-6:数据集构建和预处理

2021-01-14 14:44:57 浏览数 (1)

文章目录

  • 数据集的构建和预处理
        • 数据集的预处理办法
        • TFRecord :TensorFlow 数据集存储格式

数据集的构建和预处理

  • tf.data.Dataset类,提供了对数据集的高层封装。tf.data.Dataset由可迭代的访问元素组成。每个元素包含一个或多个张量。
  • 使用于小数据集的方法:tf.data.Dataset.from_tensor_slices() ,构成一个大的张量。
数据集的预处理办法
  • Dataset.map(f):对数据集的每个元素应用函数f,得到一个新的数据集
  • Dataset.shuffle(buffer_size) :将数据集打乱
  • Dataset.batch(batch_size) :将数据集分成批次,即对每 batch_size 个元素,使用 tf.stack() 在第 0 维合并,成为一个元素;
TFRecord :TensorFlow 数据集存储格式
  • TFRecord 可以理解为一系列序列化的 tf.train.Example 元素所组成的列表文件,而每一个 tf.train.Example 又由若干个 tf.train.Feature 的字典组成。
代码语言:javascript复制

0 人点赞