2D卷积和3D卷积

时间 2020-12-20 标签深度学习

2D 卷积

2D卷积操作如图1所示，为了解释的更清楚，分别展示了单通道和多通道的操作。且为了画图方便，假定只有1个filter，即输出图像只有一个chanel。其中，

针对单通道，输入图像的channel为1，即输入大小为(1, height, weight)，卷积核尺寸为 (1, k_h, k_w)，卷积核在输入图像上的的空间维度（即(height, width)两维）上进行滑窗操作，每次滑窗和 (k_h, k_w) 窗口内的values进行卷积操作（现在都用相关操作取代），得到输出图像中的一个value。
针对多通道，假定输入图像的channel为3，即输入大小为(3, height, weight)，卷积核尺寸为 (3, k_h, k_w)， 卷积核在输入图像上的的空间维度（即(height, width)两维）上进行进行滑窗操作，每次滑窗与3个channels上的 (k_h, k_w) 窗口内的所有的values进行相关操作，得到输出图像中的一个value。

最终结果是，一个卷积核产生channel为1的二维feature map，channel数对应卷积核数

3D卷积操作如图2所示，同样分为单通道和多通道，且只使用一个filter，输出一个channel。其中：

针对单通道，与2D卷积不同之处在于，输入图像多了一个 depth 维度，故输入大小为(1, depth, height, width)，卷积核也多了一个k_d维度，因此卷积核在输入3D图像的空间维度（height和width维）和depth维度上均进行滑窗操作，每次滑窗与 (k_d, k_h, k_w) 窗口内的values进行相关操作，得到输出3D图像中的一个value.
针对多通道，输入大小为(3, depth, height, width)，则与2D卷积的操作一样，每次滑窗与3个channels上的 (k_d, k_h, k_w) 窗口内的所有values进行相关操作，得到输出3D图像中的一个value。

最终结果是：一个卷积核产生channel为1的三维feature map

3D卷积和2D卷积中的多通道卷积不一样。3D卷积核本身自带深度维度，除此之外还有channel（可以认为是4维？）2D卷积核的channel必须和输入数据的channel相同，3D卷积核的深度维度自己定义，并不需要和输入数据的channel相同。（想明白了再补。。）