Swin Transformer(二)

参考连接

cnn中位置与尺度的问题
padding的作用于意义
U-net讲解
U-net中的镜像操作的理解
SiamRPN++笔记:padding究竟影响了什么?
浅谈采样定理

多尺度目标检测

多尺度目标检测简单说检测目标的尺度不同有大有小。

检测物体大小不一的影响?
 首先,浅层所提取的信息中几何信息好,但是语义信息差,视野小,因此更适合定位;深层所提取的信息中语义信息好,几何信息差,视野大,适合分类。
但是,随着加深深度会出现语义信息提取下降现象,因为随着周遭环境的稀释,虽然视野变大,但是视野中的信息量减少,提取下降。

如图为大小物体下的目标检测,可以看出大小目标的变化是一样的,但是,图像的大小不一样,即小目标更快到顶峰,而大目标却更晚到顶峰,因此,会出出现鱼
和熊掌不可兼得的情况,如图,神经网络的深度应定为25层,还是50层,亦或是37层呢?定25层则对小目标的检测效果好而大目标检测能力差;定50层则反之;
定37层则两类目标的检测能力较为均衡但都不在最好的检测状态。而这就是“多尺度”目标检测问题的根源所在。

大小目标的检测曲线
解决方法

  1. 图像金子塔

由不同分辨率组成的图像从大到小叠加在一起,这种就叫做图像金字塔。缺点:对多个尺寸的图片进行操作,计算量比较大。

  1. 图像特征金字塔

通过卷积提取不同尺寸的特征,然后选取其中的部分尺寸对应特征作为预测,对其它的尺寸预测不准确。

  1. FPN

该网络的思想是分别进行上采样与下采样,将各尺寸进行特征融合然后分别对其进行预测.因此主要分为自下而上的下采样过程、自上而下的上采样过程以及两者的横
向连接。如下图所示

FPN神经网络

U-net网络

  首先,全卷积神经网络与卷积神经网络不同在于前者将后者最后的全连接层换为了卷积层,从而可以输入任意尺寸的图片,输出也是任意图片,因此该网络是端到端的网络,端到端的网络理解为特征提取的输出不在作为输入,而是通过该模型进行学习提取特征,即输入就是原始数据。

  U-net神经网络和FPN神经网络类似,也是使用上采样与下采样结合的方式,其亮眼操作为:1.镜像操作,目的是保证输出尺寸与输入尺寸一致,一般使用padding,同时为了不产生噪音一般使用零填充。

拓展研究:

padding操作有何作用与影响

padding传统使用是因为随着卷积操作图像尺寸变小,进而网络无法加深,通过padding操作保持图像尺寸,并能够使深层网络获得更多的信息,提高了感受野,但是padding操作在siamRPN网络中表明了其能够影响平移不变性,通过使用零填充会显示出强烈的位置信息,因此出现了平移等变性。

等变性:简单说就是输出随着变化而变化。即Transform(F(x)) = F(Transform(x))
不变性:简单说就是输出随着变化却不发生变化。即F(x) = F(Transform(x))///

自己的想法:
为什么鲁棒性会差?
人识别人时一般是从什么地方识别,我认为一是人的身高体重等形状特征,然后是人的脸与穿着,所以是不是可以进行图像分割进行识别匹配,但是图像分割又是基于图像检测。

频闪效应:
其产生原因是因为人的视网膜所呈的像不会立马消失,同时当物体快速移动时会出现移动后的像与移动前的像重叠,此现象成为频闪效应。

图像高频信息与低频信息

高频信息:图像的数值变化剧烈的地方,一般是图像的边缘或噪声,同时图像的细节处也就是属于灰度值急剧变化的区域,正是因为灰度值的急剧变化,才会出现细节。

低频信息:图像像素值变化缓慢的地方,此信息包含的图像的大部分信息

对于一副图像来说,除去高频就是低频了,也就是边缘以内的内容为低频,而边缘内的内容就是图像的大部分信息,即图像的大致概貌和轮廓,是图像的近似信息.

采样什么时候出现了混叠?
采样频率
时域采样
频域采样
局部连接
共享权值

1.人工智能 2.随机行走 3.动过