Python深度学习基于Tensorflow(4)Tensorflow 数据处理和数据可视化

文章目录

      • 构建Tensorflow.data数据集
        • TFRecord数据底层
        • 生成TFRecord文件数据
        • 读取TFRecord文件数据
        • 图像增强
      • 数据可视化

构建Tensorflow.data数据集

tf.data.Dataset表示一串元素(element),其中每个元素包含一个或多个Tensor对象。例如:在一个图像流水线(pipeline)中,一个元素可以是单个训练样本,它们带有一个表示图像数据的张量和一个标签组成的数据对(pair)。有两种不同的方式构建一个数据集,具体如下。

  • 直接从 Tensor 创建数据集(例如 Dataset.from_tensor_slices());当然 NumPy 也是可以的,TensorFlow 会自动将其转换为 Tensor。
  • 通过对一个或多个 tf.data.Dataset 对象的变换(例如 Dataset.batch())来创建数据集。 这两类构建方法又可以进一步分为7种方法。如下所示:
数据格式读取方法备注
从NumPy数组读取tf.data.Dataset.from_tensor_slices当数据较小时
从Python Generator读取tf.data.Dataset.from_generator
从文本数据读取tf.data.TextLineDataset
从CSV数据读取tf.data.experimental.CsvDataset
从TFRecord data读取tf.data.TFRecordDatasetTFRecord 是TensorFlow中自带的,它是一种方便储存比较大的数据集的数据格式(二进制格式),当内存不足时,我们可以将数据集制作成TFRecord格式的再将其解压读取。
从二进制文件读取数据tf.data.FixedLengthRecordDataset
从文件集中读取数据tf.data.Dataset.list_files()
这里除了TFRecord以外的东西都很好理解,所以这里主要讲一下TFRecord数据集;

TFRecord 是 TensorFlow 自带的一种数据格式,是一种二进制文件。它是TensorFlow 官方推荐的数据保存格式,其数据的存储、读取操作更加高效。具体来说,TFRecord的优势可概括为:
1)支持多种数据格式;
2)更好的利用内存,方便复制和移动;
3)将二进制数据和标签(label)存储在同一个文件中。

TFRecord 格式文件的存储形式会很合理地帮我们存储数据。TFRecord 内部使用了 Protocol Buffer 二进制数据编码方案,它只占用一个内存块,只需要一次性加载一个二进制文件的方式即可,简单,快速,尤其对大型训练数据很友好。当我们的训练数据量比较大的时候,TFRecord可以将数据分成多个 TFRecord 文件,以提高处理效率。

假设有一万张图像, TFRecord 可以将其保存成 5 个.tfrecords 文件(具体保存成几个文件,要看文件大小),这样我们在读取数据时,只需要进行5 次数据读取。如果把这一万张图像保存为NumPy格式数据,则需要进行10000次数据读取。 我们可以使用tf.data.TFRecordDataset类读取TFRecord文件。

TFRecord数据底层

在数据转换过程中,Example是TFReocrd的核心,TFReocrd包含一系列Example,每个Example可以认为是一个样本。Example是Tensorflow的对象类型,可通过tf.train.example来使用。 特征指的是Example中输入向量的维度,有多少个维度就有多少个特征。

![[Pasted image 20240507123310.png]]

TFRecord,Example,features对应关系具体如下:

![[Pasted image 20240507124103.png]]

生成TFRecord文件数据

这里使用cat-dag数据集,数据下载连接如下:

链接:https://pan.baidu.com/s/1e9skHjPAzy9Bfd5Z7Xl70A?pwd=zynb 
提取码:zynb 

下载之后解压到当前目录的./data文件夹,然后读取文件位置和标签,最后依次写入TFRecord中

import tensorflow as tf
import os## 设置文件位置以及标签
data_dir = "./data/cat-dog"
train_cat_dir = data_dir + '/train/cats/'
train_dog_dir = data_dir + "/train/dogs/"test_cat_dir = data_dir + "/test/cats/"
test_dog_dir = data_dir + "/test/dogs/"train_cat_filenames = [train_cat_dir + filename for filename in os.listdir(train_cat_dir)]
train_dog_filenames = [train_dog_dir + filename for filename in os.listdir(train_dog_dir)]
train_filenames = train_cat_filenames + train_dog_filenames
train_labels = [0]*len(train_cat_filenames) + [1]*len(train_dog_filenames)test_cat_filenames = [test_cat_dir + filename for filename in os.listdir(test_cat_dir)]
test_dog_filenames = [test_dog_dir + filename for filename in os.listdir(test_dog_dir)]
test_filenames = test_cat_filenames + test_dog_filenames
test_labels = [0]*len(test_cat_filenames) + [1]*len(test_dog_filenames)## 创建生成TFRecord数据集函数
def encoder(filenames, labels, tfrecord_file):with tf.io.TFRecordWriter(tfrecord_file) as writer:for filename, label in zip(filenames, labels):with open(filename, 'rb') as f:image = f.read()## 将img,label转化为向量的形式  这里只能是普通的形式,不能np和tf,所以读取图片最好是直接读取字节,虽然np.array(Image.open(filename)) 很快,但是array.tolist() 很慢,这就导致效果很慢,所以这里还是读字节最后再在读取tfrecord数据的时候,使用tf.io.decode_jpeg对图片进行解码。image_feature = tf.train.Feature(bytes_list=tf.train.BytesList(value=[image]))label_feature = tf.train.Feature(int64_list=tf.train.Int64List(value=[label]))## 建立feature字典feature = {'image': image_feature,'label': label_feature}# 通过字典创建example,example对象对label和image数据进行封装example = tf.train.Example(features=tf.train.Features(feature=feature))# 将example序列化并写入字典writer.write(example.SerializeToString())## 创建TFRecord
encoder(train_filenames, train_labels, 'train.tfrecords')
encoder(test_filenames, test_labels, 'test.tfrecords')

这里要注意的是,一共有三种类型,int64floatbytes只能是最原始的类型,不能np和tf

tf.train.Feature(bytes_list=tf.train.BytesList(value=[*]))
tf.train.Feature(int64_list=tf.train.Int64List(value=[*]))
tf.train.Feature(float_list=tf.train.FloatList(value=[*]))

可以看到当前目录下面有两个tfrecords文件。

读取TFRecord文件数据
def decoder(tfrecord_file, is_train_dataset=None):#构建datasetdataset = tf.data.TFRecordDataset(tfrecord_file)#说明特征的描述属性,为解吗每个example使用feature_discription = {'image': tf.io.FixedLenFeature([], tf.string),'label': tf.io.FixedLenFeature([], tf.int64)}def _parse_example(example_string): # 解码每一个example#将文件读入到队列中feature_dic = tf.io.parse_single_example(example_string, feature_discription)feature_dic['image'] = tf.io.decode_jpeg(feature_dic['image'])#对图片进行resize,属于数据处理的操作feature_dic['image'] = tf.image.resize(feature_dic['image'], [256, 256])/255.0return feature_dic['image'], feature_dic['label']batch_size = 4if is_train_dataset is not None:#tf.data.experimental.AUTOTUNE#根据计算机性能进行运算速度的调整dataset = dataset.map(_parse_example).shuffle(buffer_size=2000).batch(batch_size).prefetch(tf.data.experimental.AUTOTUNE)else:dataset = dataset.map(_parse_example)dataset = dataset.batch(batch_size)return datasettrain_data = decoder('train.tfrecords', is_train_dataset=True)
test_data = decoder('test.tfrecords')

最后得到的train_data抽取四个进行展示一下:

import matplotlib.pyplot as pltdef plot_img_label(elemtents):imgs, labels = elemtentsnum_imgs = labels.shape[0]for i in range(num_imgs):plt.subplot(1,num_imgs,i+1)plt.axis('off')plt.title(labels[i].numpy())plt.imshow(imgs[i].numpy())plt.show()plot_img_label(train_data.take(1).get_single_element())

![[Pasted image 20240507134554.png]]

图像增强
# 解码图片 转换图片数据类型 调整图片尺寸
image = tf.image.decode_jpeg(image, channels=3)
image = tf.image.convert_image_dtype(image, dtype=tf.float32)
image = tf.image.resize(image, (156, 156))# 对图片进行上下左右随机的翻转,调整明亮度最后旋转90度
images = tf.image.random_flip_left_right(images)
images = tf.image.random_flip_up_down(images)
images = tf.image.random_brightness(images, 1)
images = tf.image.rot90(images, 1)

数据可视化

数据可视化一般来说的库有 matplotlibtensorboard

更多可视化操作可以看这一个专栏:数据可视化 Python_Bigcrab__的博客-CSDN博客

matplotlib 设置中文

# windows
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False # mac
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.rcParams['axes.unicode_minus'] = False 

tensorboard

logdir = os.path.join("logs", datetime.datetime.now().strftime("%Y%m%d-%H%M%S"))
tensorboard_callback = tf.keras.callbacks.TensorBoard(logdir, histogram_freq=1)model.fit(x=x_train, y=y_train, epochs=5, validation_data=(x_test, y_test), callbacks=[tensorboard_callback])

在Windows的命令行启动Tensorboard 服务,指定日志读写路径,如果是linux环境,请根据实际情况,修改logdir的值。 tensorboard --logdir=“C:\Users\wumg\jupyter-ipynb\tensorflow2-book\char-05\logs”

jupyter 中运行下列代码:

%load_ext tensorboard%tensorboard --logdir logsfrom tensorboard import notebook
notebook.list() # View open TensorBoard instances

![[Pasted image 20240507140028.png]]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3014787.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

公钥私钥?一文搞懂非对称加密

非对称加密 非对称加密: 通信双方分别创建公钥和私钥,并且保证公钥所加密的信息,只有配对的私钥可以解密,接下来,双方公开交换公钥,通信时,使用对方的公钥进行加密,如此&#xff0…

PCB仿真:如何模拟PCB设计

当有人在学习如何驾驶汽车时,驾校老师会在模拟器上对他们进行培训,然后教他们如何在路上驾驶真正的汽车。在制造或使用产品或机器之前了解或测试其行为总是很好的。这样可以知道产品的外观和行为,如果它没有按照期望工作,总是可以做出改变。当不当操作的成本很高时,实际控…

ASP.NET MVC(三) 路由问题(一)

如果是int数据类型不传递id,则会报错,可以改成string id

电脑(爱好者) :基础知识1 了解你的电脑

读懂cpu 您想了解关于您的电脑的信息吗?CPuz是一款常用的系统信息工具,可以提供关于CPU、主板、内存等硬件信息的详细情况。您可以下载并运行该软件,然后查看您的电脑硬件配置信息。 图片来源于网络 CPU-Z 简介 CPU-Z 是一款功能强大且易于使…

flask网站开发计划

我想写一个flask开发网站的合集文章,该网站主要是采集网络上的文章(不同站点,用Python识别出正文内容),然后做成长图形式,发布到flask站点,并提供“下载”按钮,点击下载按钮&#xf…

python-正则表达试-实践1

匹配html标签中的任意标签内数据 匹配所有包含’oo’的单词 import re text "JGood is a handsome boy, he is cool, clever, and so on..." re.findall(r\w*oo\w*, text) 匹配 html中title里面的内容 原文: import re file r./202304.html f open(…

Java设计模式 _结构型模式_享元模式

一、享元模式 1、享元模式 享元模式(Flyweight Pattern)是一种结构型模式。主要用于减少创建对象的数量,以减少内存占用和提高性能。主要解决有大量对象时,有可能会造成内存溢出,我们把其中共同的部分抽象出来&#x…

洛谷 P3391:文艺平衡树 ← Splay树模板题

【题目来源】https://www.luogu.com.cn/problem/P3391【题目描述】 您需要写一种数据结构(可参考题目标题),来维护一个有序数列。 其中需要提供以下操作:翻转一个区间,例如原有序序列是 5 4 3 2 1,翻转区间…

录屏软件哪个好用?这4款不容错过!

在现代社会中,信息的传递和分享变得越来越重要。一个好的录屏软件能够帮助我们将想要分享的信息快速直观地展示给他人。 通过下文推荐的4款录屏软件,我们可以轻松地分享自己的知识、经验和见解,让更多的人受益。 方法一:QQ软件进…

创意自我介绍视频制作软件有哪些?

创意自我介绍视频制作软件 在制作创意自我介绍视频时,有许多软件可供选择。以下是一些推荐的软件: 乐秀视频剪辑:这是一个被8亿用户选择的视频剪辑、视频制作与Vlog剪辑工具。它提供了丰富的视频编辑功能,帮助用户制作出高质量的…

Android iw 工具

代码位置:Android/external/iw 查看支持的命令: console:/ # iw help Usage: iw [options] command Options:--debug enable netlink debugging--version show version (4.1) Commands:help [command]Print usage for all or a specific command, e.g."…

长难句打卡5.7

In December 2010 America’s Federal Trade Commission (FTC) proposed adding a “do not track” (DNT) option to Internet browsers, so that users could tell advertisers that they did not want to be followed. 2010年12月,美国美国联邦贸易委员会(FTC)提…

(双指针)移动零 复写零 快乐数 盛水最多的容器

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 文章目录 前言 一、移动零 1.1、题目 1.2、讲解算法原理 1.3、编写代码 二、复写零 2.1、题目 2.2、讲解算法原理 2.3、编写代码 三、快乐数 3.1、题目 3.…

如何应对访问国外服务器缓慢的问题?SDWAN组网是性价比之选

访问国外服务器缓慢通常由以下原因造成: 1、政策限制:我国管理互联网,限制部分国外网站和服务器,以维护国家安全稳定。 2、技术障碍:国内与国际互联网的网络架构和协议存在差异,可能导致数据传输不兼容。 …

XMall-Front:基于Vue.js的XMall商城前台页面的开发实践

XMall-Front:基于Vue.js的XMall商城前台页面的开发实践 摘要 随着电子商务的蓬勃发展,用户体验逐渐成为决定电商平台成功与否的关键因素。作为XMall商城项目的一部分,XMall-Front是基于Vue.js的前端页面开发,其目标是为用户提供…

【数据结构】带你轻松掌握算法的复杂度

引入: 哈喽大家好,我是野生的编程萌新,首先感谢大家的观看。数据结构的学习者大多有这样的想法:数据结构很重要,一定要学好,但数据结构比较抽象,有些算法理解起来很困难,学的很累。我…

iPhone查看本机号码只需要这3招,不再为号码忘记犯愁!

在日常生活中,我们经常需要使用手机号码进行各种通讯活动,但有时候会忘记自己的手机号码,让人感到非常尴尬。不过,如果您是iPhone用户,那么您可以放心了!因为在iphone查看本机号码只需要简单的几个步骤&…

“A”分心得:我的云计算HCIE学习之路

大家好,我是誉天云计算HCIE周末班梁同学,在誉天老师和同学们的帮助下,我终于在4月24日顺利通过了云计算3.0 HCIE的认证考试,而且获得了A,这是让我特别惊喜的,功夫不负有心人。 我日常的工作是网络运维&…

海云安受邀参加诸子云 4.27南京「金融互联网」私董会

4月27日,“安在新媒体网安用户行业活动”第四期私董会在南京顺利举办。活动以“金融&互联网”为主题,邀请十余位业内资深的甲方用户以及典型厂商代表。摒弃传统的议题分享,采取“随时问答,自由讨论”的形式,提问题…

环保访谈|浙江双视专注红外机器视觉及智能化应用,保障安全生产

近期,中联环保圈希姐采访了浙江双视科技股份有限公司环保行业销售总监孙波,深入了解了双视科技的发展历程、产品和解决方案、合作流程、核心竞争力以及未来规划。 双视于2014年创立,专注于红外机器视觉、人工智能技术与应用开发,…