文章目录
- 数据集的构建和预处理
-
-
-
- 数据集的预处理办法
- TFRecord :TensorFlow 数据集存储格式
-
-
数据集的构建和预处理
- tf.data.Dataset类,提供了对数据集的高层封装。tf.data.Dataset由可迭代的访问元素组成。每个元素包含一个或多个张量。
- 使用于小数据集的方法:tf.data.Dataset.from_tensor_slices() ,构成一个大的张量。
数据集的预处理办法
- Dataset.map(f):对数据集的每个元素应用函数f,得到一个新的数据集
- Dataset.shuffle(buffer_size) :将数据集打乱
- Dataset.batch(batch_size) :将数据集分成批次,即对每 batch_size 个元素,使用 tf.stack() 在第 0 维合并,成为一个元素;
TFRecord :TensorFlow 数据集存储格式
- TFRecord 可以理解为一系列序列化的 tf.train.Example 元素所组成的列表文件,而每一个 tf.train.Example 又由若干个 tf.train.Feature 的字典组成。