卷积和池化顺序问题?哪个在前好一些,还是没有影响?

有一个同学一直以为卷积之后就进行池化,我知道卷积之后是进行激活函数的,但是真的为什么这样做却没有想透彻。

所接触过的网络模型只要有卷积池化激活函数的,都是conv-activation-pooling这样的先后顺序,比如下面这个torchvision库里面的vgg模型:

但是我初步在minist数据集上试验了一下,发现区别基本没有。都是百分之99以上的准确率 ,如果单纯从准确度上说的话。

而且,直观看起来,先池化再激活,会减少激活操作的数目。

不知道有没有人知道,这样做的原因是历史因素:

卷积操作相当于wx+b,一般都是wx+b之后就进行激活运算,也就是σ(wx+b),所以卷积之后紧跟着激活。

但是如果仅仅是习惯问题的话,那么改成池化在前也完全可以。

有没有大神知道真实的原因呢? 更进一步的,还有bn层等等,有没有论文详细讨论过层的顺序问题?