经查阅大量资料及手动公式推导,对卷积神经网络中二维与三维图像卷积操作进行图解及公式表示。
注:在数学中,两个矩阵进行卷积操作,卷积核是要翻卷的,如下面动图所示。
在深度学习中,卷积核不需要翻卷。
二维图像卷积操作
对于大小为$ h \times w$图像$I$和 大小为$(k_1 \times k_2)$ 卷积核 $K$,定义其Cross-correlation:
其中
$0 \leqslant i \leqslant h - {k_1}$,$ 0\leqslant j \leqslant h - {k_2}$
注意:这里的使用的符号和ii的范围,不考虑Padding及Stride = 1 的情况。
用上图举例:
图中图像大小为:$h \times w = 5 \times 5$,卷积核尺寸为:$k_1 \times k_2 = 3 \times 3$
则 $i, j$ 的定义域为
$0 \leqslant i \leqslant h - {k_1}$ —> $0 \leqslant i \leqslant 2$,$0 \leqslant j \leqslant h - {k_2}$ —> $0 \leqslant i \leqslant 2$
则图像中$(0,0)$处卷积后的结果为:
三维图像卷积操作
对于大小为 $h \times w \times d$ 图像 $I$ 和大小为 $(k_1 \times k_2 \times d)$ 卷积核 $K$,定义其Cross-correlation:
其中
$0 \leqslant i \leqslant h - {k_1} + 2p$
$0 \leqslant j \leqslant h - {k_2} + 2p$
用上图举例:
图中图像大小为:$h \times w \times d = 5 \times 5 \times 3$,Padding后的图像大小为:$h \times w \times d = 7 \times 7 \times 3$
卷积核尺寸为:$k_1 \times k_2 \times d= 3 \times 3\times 3$,偏差 $b=1$
则 $i, j$ 的定义域为
$1 \leqslant i \leqslant h - {k_1} + 2p$ —> $1 \leqslant i \leqslant 4$,$1 \leqslant j \leqslant h - {k_2} + 2p$ —> $1 \leqslant i \leqslant 4$
则图像中$(0,0)$处卷积后的结果为: