【新闻】:机器学习炼丹术的粉丝的人工智能交流群已经创建,目前有目标检测、医学图像、NLP等多个学术交流分群和水群唠嗑的总群,欢迎你们加炼丹兄为好友,加入炼丹协会。微信:cyx645016617.python
参考目录:
微信
本文的代码已经上传公众号后台,回复【PyTorch】获取。多线程
想要把一个图片,转换成RGB3通道的一个张量,咱们怎么作呢?你们第一反应应该是PIL这个库吧机器学习
from PIL import Image import numpy as np image = Image.open('./bug1.jpg') image.show()
展现的图片:
函数
而后咱们这个image如今是PIL格式的,咱们使用numpy.array()
来将其转换成numpy的张量的形式:学习
image = np.array(image) print(image.shape) >>>(326, 312, 3)
能够看到,这个第三维度是3。对于pytorch而言,数据的第一维度应该是样本数量,第二维度是通道数,第三四是图像的宽高,所以PIL读入的图片,每每须要把通道数的这个维度移动到第二维度上才能对接上pytorch的形式。(transpose方法来实现这个功能,这里不细说)ui
下面是重点啦,对于tensorflow,tf中本身带了一个解码函数,先看一下个人文件目录:
人工智能
import tensorflow as tf images = tf.io.gfile.glob('./*.jpeg') print(images,type(images)) > ['.\\bug1.jpeg', '.\\bug2.jpeg'] <class 'list'>
能够看出来:线程
tensorflow.io.gfile.glob()
是读取路径下的全部符合条件的文件,而且把路径作成一个list返回;glob.glob()
方法;image = tf.io.read_file('./bug1.jpeg') image = tf.image.decode_jpeg(image,channels=3) print(image.shape,type(image)) > (326, 312, 3) <class 'tensorflow.python.framework.ops.EagerTensor'>
须要注意的是:code
tf.io.read_file()
这个获得的返回值是二进制格式,因此须要下面的tf.image.decode_jpeg
进行一个解码;decode_jpeg
的第一个参数就是读取的二进制文件,而后channels是输出的图片的通道数,3就是RPB三个通道,若是是1的话,就是灰度图片,ratio是图片大小的一个缩小比例,默认是1,能够是2和4,一会看一下ratio=2的状况;image = tf.io.read_file('./bug1.jpeg') image = tf.image.decode_jpeg(image,channels=1,ratio=2) print(image.shape,type(image)) > (163, 156, 1) <class 'tensorflow.python.framework.ops.EagerTensor'>
宽高都变成了原来的一半,而后通道数是1,都和预想的同样。使用decode_jpeg等解码函数获得的结果,是uint8的类型的,简单地说就是整数,0到255范围的。在对图片进行操做的时候,咱们须要将其标准化到0到1区间的,所以须要将其转换成float32
类型的。因此对上述代码进行补充:
image = tf.io.read_file('./bug1.jpeg') image = tf.image.decode_jpeg(image,channels=1,ratio=2) print(image.shape,type(image)) image = tf.image.resize(image,[256,256]) # 统一图片大小 image = tf.cast(image,tf.float32) # 转换类型 image = image/255 # 归一化 print(image)
从结果来看,数据类型已经改变:
下面是dataset更正式的写法,关于TF2的问题,不要百度!百度到的都是TF1的解答,看的我晕死了,TF的API的结构真是不太友好。。。
def read_image(path): image = tf.io.read_file(path) image = tf.image.decode_jpeg(image, channels=3, ratio=1) image = tf.image.resize(image, [256, 256]) # 统一图片大小 image = tf.cast(image, tf.float32) # 转换类型 image = image / 255 # 归一化 return image images = tf.io.gfile.glob('./*.jpeg') dataset = tf.data.Dataset.from_tensor_slices(images) AUTOTUNE = tf.data.experimental.AUTOTUNE dataset = dataset.map(read_image,num_parallel_calls=AUTOTUNE) dataset = dataset.shuffle(1).batch(1) for a in dataset.take(2): print(a.shape)
代码中须要注意的是:
tf.data.Dataset.from_tensor_slices()
返回的就是一个tensorflow的dataset类型,能够简单理解为一个可迭代的list,而且有不少其余方法;dataset.map
就是用实现定义好的函数,对处理dataset中每个元素,在上面代码中是把路径的字符串变成该路径读取的图片张量,对图片的预处理应该也在这部分进行吧;.batch()
就是把dataset中的元素组装batch;.take(num)
就好了,这个num就是从dataset中取出来的batch的数量,也就是循环的次数吧。AUTOTUNE = tf.data.experimental.AUTOTUNE
就是根据你的cpu的状况,自动判断多线程的数量。