卷积神经网络参数解析

2024-05-13 23:05

1. 卷积神经网络参数解析

（1）现象：
  
         （1-1）一次性将batch数量个样本feed神经网络，进行前向传播；然后再进行权重的调整，这样的一整个过程叫做一个回合（epoch），也即一个batch大小样本的全过程就是一次迭代。
  
         （1-2）将训练数据分块，做成批(batch training)训练可以将多个训练数据元的loss function求和，使用梯度下降法，最小化 求和后的loss function ，进而对神经网络的参数进行优化更新
  
 （2）一次迭代：包括前向传播计算输出向量、输出向量与label的loss计算和后向传播求loss对权重向量  w  导数（梯度下降法计算），并实现权重向量  w  的更新。
  
 （3）优点：
  
         （a）对梯度向量（代价函数对权值向量  w  的导数）的精确估计，保证以最快的速度下降到局部极小值的收敛性；一个batch一次梯度下降；
  
         （b）学习过程的并行运行；
  
         （c）更加接近随机梯度下降的算法效果；
  
         （d）Batch Normalization 使用同批次的统计平均和偏差对数据进行正则化，加速训练，有时可提高正确率 [7] 
  
 （4）现实工程问题：存在计算机存储问题，一次加载的batch大小受到内存的影响；
  
 （5）batch参数选择：
  
         （5-1）从收敛速度的角度来说，小批量的样本集合是最优的，也就是我们所说的mini-batch，这时的batch size往往从几十到几百不等，但一般不会超过几千
  
         （5-2）GPU对2的幂次的batch可以发挥更佳的性能，因此设置成16、32、64、128...时往往要比设置为整10、整100的倍数时表现更优
  
     （6）4种加速批梯度下降的方法 [8] ：
  
         （6-1）使用动量－使用权重的 速度 而非 位置 来改变权重。
  
         （6-2）针对不同权重参数使用不同学习率。
  
         （6-3）RMSProp－这是Prop 的均方根 ( Mean Square ) 改进形式，Rprop 仅仅使用梯度的符号，RMSProp 是其针对 Mini-batches 的平均化版本
  
         （6-4）利用曲率信息的最优化方法。
  
 （1）定义：运用梯度下降算法优化loss成本函数时，权重向量的更新规则中，在梯度项前会乘以一个系数，这个系数就叫学习速率η
  
 （2）效果：
  
         （2-1）学习率η越小，每次迭代权值向量变化小，学习速度慢，轨迹在权值空间中较光滑，收敛慢；
  
         （2-2）学习率η越大，每次迭代权值向量变化大，学习速度快，但是有可能使变化处于震荡中，无法收敛；
                                          
     （3）处理方法：
  
         （3-1）既要加快学习速度又要保持稳定的方法修改delta法则，即添加动量项。
                                          
     （4）选择经验：
  
         （4-1）基于经验的手动调整。 通过尝试不同的固定学习率，如0.1, 0.01, 0.001等，观察迭代次数和loss的变化关系，找到loss下降最快关系对应的学习率。
  
         （4-2）基于策略的调整。
  
                 （4-2-1）fixed 、exponential、polynomial
  
                 （4-2-2）自适应动态调整。adadelta、adagrad、ftrl、momentum、rmsprop、sgd
  
     （5）学习率η的调整：学习速率在学习过程中实现自适应调整（一般是衰减）
  
         （5-1）非自适应学习速率可能不是最佳的。
  
         （5-2）动量是一种自适应学习速率方法的参数，允许沿浅方向使用较高的速度，同时沿陡峭方向降低速度前进
  
         （5-3）降低学习速率是必要的，因为在训练过程中，较高学习速率很可能陷入局部最小值。
  
 
  
  
 
  
  
 参考文献：
  
 [1]  Simon Haykin. 神经网络与机器学习[M]. 机械工业出版社, 2011.
  
 [2]   训练神经网络时如何确定batch的大小？ 
  
 [3]   学习笔记：Batch Size 对深度神经网络预言能力的影响  
  
 [4]   机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size.  http://blog.csdn.net/u012162613/article/details/44265967
  
 [5]   深度学习如何设置学习率 . http://blog.csdn.net/mao_feng/article/details/52902666
  
 [6]   调整学习速率以优化神经网络训练. https://zhuanlan.zhihu.com/p/28893986
  
 [7]   机器学习中用来防止过拟合的方法有哪些？ 
  
 [8]   Neural Networks for Machine Learning by Geoffrey Hinton .
  
 [9]   如何确定卷积神经网络的卷积核大小、卷积层数、每层map个数 
  
 [10]   卷积神经网络的卷积核大小、卷积层数、每层map个数都是如何确定下来的呢？

卷积神经网络参数解析

2. 卷积神经网络模型参数量和运算量计算方法

 本文是对卷积神经网络模型参数量和浮点运算量的计算推导公式和方法，使用API自动计算这些数据请移步另一篇博客： 自动计算模型参数量、FLOPs、乘加数以及所需内存等数据 
        其中  表示输出通道数，  表示输入通道数，  表示卷积核宽，  表示卷积核高。   括号内的  表示一个卷积核的权重数量，+1表示bias，括号表示一个卷积核的参数量，  表示该层有  个卷积核。   若卷积核是方形的，即  ，则上式变为：        需要注意的是，使用Batch Normalization时不需要bias，此时计算式中的+1项去除。
        FLOPs是英文floating point operations的缩写，表示 浮点运算量 ，中括号内的值表示卷积操作计算出feature map中一个点所需要的运算量（乘法和加法），   表示一次卷积操作中的乘法运算量，  表示一次卷积操作中的加法运算量，+ 1 表示bias，W和H分别表示feature map的长和宽，  表示feature map的所有元素数。   若是方形卷积核，即  ，则有：        上面是乘运算和加运算的总和，将一次乘运算或加运算都视作一次浮点运算。   在计算机视觉论文中，常常将一个‘乘-加’组合视为一次浮点运算，英文表述为'Multi-Add'，运算量正好是上面的算法减半，此时的运算量为：     
        值得注意的是，最初由feature map flatten而来的向量视为第一层全连接层，即此处的  。   可以这样理解上式：每一个输出神经元连接着所有输入神经元，所以有  个权重，每个输出神经元还要加一个bias。   也可以这样理解：每一层神经元(O这一层)的权重数为  ，bias数量为O。
        其中      中括号的值表示计算出一个神经元所需的运算量，第一个  表示乘法运算量，  表示加法运算量，+1表示bias，  表示计算O个神经元的值。
   分组卷积和深度分离卷积的情况待更……

3. 卷积神经网络参数个数的计算

 我们在用keras进行神经网络建模后，打印模型的摘要(print(model.summary))会出现每一层参数的个数，很多初学者可能会对参数个数怎么计算的非常困惑，本文将由浅至深的讲解卷积神经网络各层参数的计算方法，对卷积神经网络结构还不了解的同学请自行百度了解。   1.什么是卷积神经网络的参数   我们都知道神经网络是一个前向传播和反向优化的过程，这个优化过程其实优化的是层与层之间的连接权重w和权重b。其实每一层连接都可以简单的抽象为：W X+b=Y   其中X为输入，Y为预测值，都可以作为训练数据输入，因此是我们已知的。在整个过程中未知的就是W和b了也是需要通过训练得到的参数。   卷积神经网络的参数因为卷积网络的特性而稍微有些特殊，但整体来讲还是对权重W和偏置b的拟合。   2.卷积层参数个数计算   卷积层是通过卷积核对原始输入进行扫描，然后获得具有局部特征的输出，预测准确性与卷积核的设置有重要关系，因此卷积核就是我们需要拟合的参数，至于参数个数怎么计算，需要细致的进行分解。   (1)卷积核个数   通常用一个卷积核无法获得输入的全部信息，因此通常会设置多个卷积核，每个卷积核都是独立的，计算方式完全一致。每个卷积核对原始输入进行处理后都会生成一个feature_map，因此卷积核的个数和feature_map的个数其实是相同的。   (2)卷积核大小   在二维神经网络中（即图像处理的常用卷积神经网络模式），通常用正方形的卷积核对原始输入进行卷积，常用的有3 3，5 5，7 7等。   (3)原始图像通道数   通道数的不同会影响子卷积核的个数，比如有是三个通道的图像，每一个通道都需要用卷积核进行处理，但卷积核的参数其实是不同的，最终对所有通道进行加和加上一个偏置就是我们最终得到的feature_map，因此参数个数实际变为3 3 3+1。其中1代表偏置，在所有通道中是共享的。   (4)最终参数个数   用卷积核个数乘上卷积核大小，其实就是最终的参数个数，本文为2 （3 3 3+1）。2代表卷积核的个数，第一个3代表通道数，第二个3和第三个3代表卷积核大小，1代表偏置。   3.池化层参数个数计算   池化层为根据池化层大小确定保留值，可以理解为对feature_map的降维，其中不涉及参数的计算。   4.全连接层参数个数计算   全连接层首先对池化层输出的数据进行flattern处理，即400 30转换为12000 1，假设输出为12维的，那么参数个数为12000 12+12，加号后边的12代表每个全连接层后都跟一个偏置b。   5.总结   无论是一维、二维还是三维卷积神经网络的哪一层参数计算，都可以用卷积层参数计算的思路解决，首先确定卷积核大小，其次确定卷积核个数，最终确定图像输入的通道数。这几个东西确定后，再求解参数就十分简单了。   本篇文章假设你已经十分了解卷积神经网络的基础知识，因此没有相关的图解，只是介绍了参数确定的思路，希望对大家有所启发。

卷积神经网络参数个数的计算

4. 卷积神经网络

 关于花书中卷积网络的笔记记录于 https://www.jianshu.com/p/5a3c90ea0807 。
   卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种具有 局部连接、权重共享 等特性的深层前馈神经网络。卷积神经网络是受生物学上感受野的机制而提出。 感受野（Receptive Field） 主要是指听觉、视觉等神经系统中一些神经元的特性，即 神经元只接受其所支配的刺激区域内的信号 。
   卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时，会存在以下两个问题：
   目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络，使用反向传播算法进行训练。 卷积神经网络有三个结构上的特性：局部连接，权重共享以及汇聚 。这些特性使卷积神经网络具有一定程度上的平移、缩放和旋转不变性。
   卷积（Convolution）是分析数学中一种重要的运算。在信号处理或图像处理中，经常使用一维或二维卷积。
   一维卷积经常用在信号处理中，用于计算信号的延迟累积。假设一个信号发生器每个时刻t 产生一个信号  ，其信息的衰减率为  ，即在  个时间步长后，信息为原来的  倍。假设  ，那么在时刻t收到的信号  为当前时刻产生的信息和以前时刻延迟信息的叠加：
     
   我们把  称为 滤波器（Filter）或卷积核（Convolution Kernel） 。假设滤波器长度为  ，它和一个信号序列  的卷积为：
     
   信号序列  和滤波器  的卷积定义为：
     
   一般情况下滤波器的长度  远小于信号序列长度  ，下图给出一个一维卷积示例，滤波器为  ：
                                           二维卷积经常用在图像处理中。因为图像为一个两维结构，所以需要将一维卷积进行扩展。给定一个图像  和滤波器  ，其卷积为：
     
   下图给出一个二维卷积示例：
                                           注意这里的卷积运算并不是在图像中框定卷积核大小的方框并将各像素值与卷积核各个元素相乘并加和，而是先把卷积核旋转180度，再做上述运算。
   在图像处理中，卷积经常作为特征提取的有效方法。一幅图像在经过卷积操作后得到结果称为 特征映射（Feature Map） 。
                                           最上面的滤波器是常用的高斯滤波器，可以用来对图像进行 平滑去噪 ；中间和最下面的过滤器可以用来 提取边缘特征 。
   在机器学习和图像处理领域，卷积的主要功能是在一个图像（或某种特征）上滑动一个卷积核（即滤波器），通过卷积操作得到一组新的特征。在计算卷积的过程中，需要进行卷积核翻转（即上文提到的旋转180度）。 在具体实现上，一般会以互相关操作来代替卷积，从而会减少一些不必要的操作或开销。 
    互相关（Cross-Correlation）是一个衡量两个序列相关性的函数，通常是用滑动窗口的点积计算来实现 。给定一个图像  和卷积核  ，它们的互相关为：
     
    互相关和卷积的区别仅在于卷积核是否进行翻转。因此互相关也可以称为不翻转卷积 。当卷积核是可学习的参数时，卷积和互相关是等价的。因此，为了实现上（或描述上）的方便起见，我们用互相关来代替卷积。事实上，很多深度学习工具中卷积操作其实都是互相关操作。
   在卷积的标准定义基础上，还可以引入滤波器的 滑动步长 和 零填充 来增加卷积多样性，更灵活地进行特征抽取。
    滤波器的步长（Stride）是指滤波器在滑动时的时间间隔。 
                                            零填充（Zero Padding）是在输入向量两端进行补零。 
                                           假设卷积层的输入神经元个数为  ，卷积大小为  ，步长为  ，神经元两端各填补  个零，那么该卷积层的神经元数量为  。
   一般常用的卷积有以下三类：
   因为卷积网络的训练也是基于反向传播算法，因此我们重点关注卷积的导数性质：
   假设  。
     ，  ，  。函数  为一个标量函数。
   则由  有：
     
   可以看出，   关于  的偏导数为  和  的卷积 ：
     
   同理得到：
     
   当  或  时，  ，即相当于对  进行  的零填充。从而   关于  的偏导数为  和  的宽卷积 。
   用互相关的“卷积”表示，即为（注意 宽卷积运算具有交换性性质 ）：
     
   在全连接前馈神经网络中，如果第  层有  个神经元，第  层有  个神经元，连接边有  个，也就是权重矩阵有  个参数。当  和  都很大时，权重矩阵的参数非常多，训练的效率会非常低。
   如果采用卷积来代替全连接，第  层的净输入  为第  层活性值  和滤波器  的卷积，即：
     
                                           根据卷积的定义，卷积层有两个很重要的性质：
    由于局部连接和权重共享，卷积层的参数只有一个m维的权重  和1维的偏置  ，共  个参数。参数个数和神经元的数量无关。此外，第  层的神经元个数不是任意选择的，而是满足  。 
    卷积层的作用是提取一个局部区域的特征，不同的卷积核相当于不同的特征提取器。 
   特征映射（Feature Map）为一幅图像（或其它特征映射）在经过卷积提取到的特征，每个特征映射可以作为一类抽取的图像特征。 为了提高卷积网络的表示能力，可以在每一层使用多个不同的特征映射，以更好地表示图像的特征。 
   在输入层，特征映射就是图像本身。如果是灰度图像，就是有一个特征映射，深度  ；如果是彩色图像，分别有RGB三个颜色通道的特征映射，深度  。
   不失一般性，假设一个卷积层的结构如下：
                                           为了计算输出特征映射  ，用卷积核  分别对输入特征映射  进行卷积，然后将卷积结果相加，并加上一个标量偏置  得到卷积层的净输入  再经过非线性激活函数后得到输出特征映射  。
     
   在输入为  ，输出为  的卷积层中，每个输出特征映射都需要  个滤波器以及一个偏置。假设每个滤波器的大小为  ，那么共需要  个参数。
                                            汇聚层（Pooling Layer）也叫子采样层（Subsampling Layer），其作用是进行特征选择，降低特征数量，并从而减少参数数量。 
   常用的汇聚函数有两种：
     
   其中  为区域  内每个神经元的激活值。
     
   可以看出，汇聚层不但可以有效地减少神经元的数量，还可以使得网络对一些小的局部形态改变保持不变性，并拥有更大的感受野。
                                           典型的汇聚层是将每个特征映射划分为  大小的不重叠区域，然后使用最大汇聚的方式进行下采样。汇聚层也可以看做是一个特殊的卷积层，卷积核大小为  ，步长为  ，卷积核为  函数或  函数。过大的采样区域会急剧减少神经元的数量，会造成过多的信息损失。
   一个典型的卷积网络是由卷积层、汇聚层、全连接层交叉堆叠而成。
   目前常用卷积网络结构如图所示，一个卷积块为连续  个卷积层和  个汇聚层（  通常设置为  ，  为  或  ）。一个卷积网络中可以堆叠  个连续的卷积块，然后在后面接着  个全连接层（  的取值区间比较大，比如  或者更大；  一般为  ）。
                                           目前，整个网络结构 趋向于使用更小的卷积核（比如  和  ）以及更深的结构（比如层数大于50） 。此外，由于卷积的操作性越来越灵活（比如不同的步长），汇聚层的作用变得也越来越小，因此目前比较流行的卷积网络中， 汇聚层的比例也逐渐降低，趋向于全卷积网络 。
   在全连接前馈神经网络中，梯度主要通过每一层的误差项  进行反向传播，并进一步计算每层参数的梯度。在卷积神经网络中，主要有两种不同功能的神经层：卷积层和汇聚层。而参数为卷积核以及偏置，因此 只需要计算卷积层中参数的梯度。 
   不失一般性，第  层为卷积层，第  层的输入特征映射为  ，通过卷积计算得到第  层的特征映射净输入  ，第  层的第  个特征映射净输入
     
   由  得：
     
   同理可得，损失函数关于第  层的第  个偏置  的偏导数为：
     
   在卷积网络中，每层参数的梯度依赖其所在层的误差项  。
   卷积层和汇聚层中，误差项的计算有所不同，因此我们分别计算其误差项。
   第  层的第  个特征映射的误差项  的具体推导过程如下：
     
   其中  为第  层使用的激活函数导数，  为上采样函数（upsampling），与汇聚层中使用的下采样操作刚好相反。如果下采样是最大汇聚（max pooling），误差项  中每个值会直接传递到上一层对应区域中的最大值所对应的神经元，该区域中其它神经元的误差项的都设为0。如果下采样是平均汇聚（meanpooling），误差项  中每个值会被平均分配到上一层对应区域中的所有神经元上。
   第  层的第  个特征映射的误差项  的具体推导过程如下：
     
   其中  为宽卷积。
   LeNet-5虽然提出的时间比较早，但是是一个非常成功的神经网络模型。基于LeNet-5 的手写数字识别系统在90年代被美国很多银行使用，用来识别支票上面的手写数字。LeNet-5 的网络结构如图：
                                           不计输入层，LeNet-5共有7层，每一层的结构为：
                                           AlexNet是第一个现代深度卷积网络模型，其首次使用了很多现代深度卷积网络的一些技术方法，比如采用了ReLU作为非线性激活函数，使用Dropout防止过拟合，使用数据增强来提高模型准确率等。AlexNet 赢得了2012 年ImageNet 图像分类竞赛的冠军。
   AlexNet的结构如图，包括5个卷积层、3个全连接层和1个softmax层。因为网络规模超出了当时的单个GPU的内存限制，AlexNet 将网络拆为两半，分别放在两个GPU上，GPU间只在某些层（比如第3层）进行通讯。
                                           AlexNet的具体结构如下：
   在卷积网络中，如何设置卷积层的卷积核大小是一个十分关键的问题。 在Inception网络中，一个卷积层包含多个不同大小的卷积操作，称为Inception模块。Inception网络是由有多个inception模块和少量的汇聚层堆叠而成 。
   v1版本的Inception模块，采用了4组平行的特征抽取方式，分别为1×1、3× 3、5×5的卷积和3×3的最大汇聚。同时，为了提高计算效率，减少参数数量，Inception模块在进行3×3、5×5的卷积之前、3×3的最大汇聚之后，进行一次1×1的卷积来减少特征映射的深度。如果输入特征映射之间存在冗余信息， 1×1的卷积相当于先进行一次特征抽取 。

5. 卷积神经网络

  卷积神经网络 （Convolutional Neural Networks，CNN）是一种前馈神经网络。卷积神经网络是受生物学上感受野（Receptive Field）的机制而提出的。感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。比如在视觉神经系统中，一个神经元的感受野是指视网膜上的特定区域，只有这个区域内的刺激才能够激活该神经元。
   卷积神经网络又是怎样解决这个问题的呢？主要有三个思路：
   在使用CNN提取特征时，到底使用哪一层的输出作为最后的特征呢？
   答：倒数第二个全连接层的输出才是最后我们要提取的特征，也就是最后一个全连接层的输入才是我们需要的特征。
   全连接层会忽视形状。卷积层可以保持形状不变。当输入数据是图像时，卷积层会以3维数据的形式接收输入数据，并同样以3维数据的形式输出至下一层。因此，在CNN中，可以（有可能）正确理解图像等具有形状的数据。
   CNN中，有时将 卷积层的输入输出数据称为特征图（feature map） 。其中， 卷积层的输入数据称为输入特征图（input feature map） ， 输出数据称为输出特征图（output feature map）。 
   卷积层进行的处理就是 卷积运算 。卷积运算相当于图像处理中的“滤波器运算”。
   滤波器相当于权重或者参数，滤波器数值都是学习出来的。 卷积层实现的是垂直边缘检测 。
   边缘检测实际就是将图像由亮到暗进行区分，即边缘的过渡(edge transitions)。
                                                                                   卷积层对应到全连接层，左上角经过滤波器，得到的3，相当于一个神经元输出为3.然后相当于，我们把输入矩阵拉直为36个数据，但是我们只对其中的9个数据赋予了权重。
                                           步幅为1 ，移动一个，得到一个1，相当于另一个神经单元的输出是1.
   并且使用的是同一个滤波器，对应到全连接层，就是权值共享。
                                                                                   在这个例子中，输入数据是有高长方向的形状的数据，滤波器也一样，有高长方向上的维度。假设用（height, width）表示数据和滤波器的形状，则在本例中，输入大小是(4, 4)，滤波器大小是(3, 3)，输出大小是(2, 2)。另外，有的文献中也会用“核”这个词来表示这里所说的“滤波器”。
   对于输入数据，卷积运算以一定间隔滑动滤波器的窗口并应用。这里所说的窗口是指图7-4中灰色的3 × 3的部分。如图7-4所示，将各个位置上滤   波器的元素和输入的对应元素相乘，然后再求和（有时将这个计算称为乘积累加运算）。然后，将这个结果保存到输出的对应位置。将这个过程在所有位置都进行一遍，就可以得到卷积运算的输出。
                                            CNN中，滤波器的参数就对应之前的权重。并且，CNN中也存在偏置。 
                                           在进行卷积层的处理之前，有时要向输入数据的周围填入固定的数据（比如0等），这称为填充（padding），是卷积运算中经常会用到的处理。比如，在图7-6的例子中，对大小为(4, 4)的输入数据应用了幅度为1的填充。“幅度为1的填充”是指用幅度为1像素的0填充周围。
                                           应用滤波器的位置间隔称为 步幅（stride） 。
                                           假设输入大小为(H, W)，滤波器大小为(FH, FW)，输出大小为(OH, OW)，填充为P，步幅为S。     
     
   但是所设定的值必须使式（7.1）中的 和 分别可以除尽。当输出大小无法除尽时（结果是小数时），需要采取报错等对策。顺便说一下，根据深度学习的框架的不同，当值无法除尽时，有时会向最接近的整数四舍五入，不进行报错而继续运行。
   之前的卷积运算的例子都是以有高、长方向的2维形状为对象的。但是，图像是3维数据，除了高、长方向之外，还需要处理通道方向。
    在3维数据的卷积运算中，输入数据和滤波器的通道数要设为相同的值。 
   因此，作为4维数据，滤波器的权重数据要按(output_channel, input_channel, height, width)的顺序书写。比如，通道数为3、大小为5 × 5的滤   波器有20个时，可以写成(20, 3, 5, 5)。
   对于每个通道，均使用自己的权值矩阵进行处理，输出时将多个通道所输出的值进行加和即可。
   卷积运算的批处理，需要将在各层间传递的数据保存为4维数据。具体地讲，就是按(batch_num, channel, height, width)的顺序保存数据。
   这里需要注意的是，网络间传递的是4维数据，对这N个数据进行了卷积运算。也就是说，批处理将N次的处理汇总成了1次进行。
   池化是缩小高、长方向上的空间的运算。比如，如图7-14所示，进行将2 × 2的区域集约成1个元素的处理，缩小空间大小。
                                           图7-14的例子是按步幅2进行2 × 2的Max池化时的处理顺序。“Max池化”是获取最大值的运算，“2 × 2”表示目标区域的大小。如图所示，从   2 × 2的区域中取出最大的元素。此外，这个例子中将步幅设为了2，所以2 × 2的窗口的移动间隔为2个元素。另外，一般来说，池化的窗口大小会和步幅设定成相同的值。比如，3 × 3的窗口的步幅会设为3，4 × 4的窗口的步幅会设为4等。
   除了Max池化之外，还有Average池化等。相对于Max池化是从目标区域中取出最大值，Average池化则是计算目标区域的平均值。 在图像识别领域，主要使用Max池化。 因此，本书中说到“池化层”时，指的是Max池化。
    池化层的特征    池化层有以下特征。    没有要学习的参数    池化层和卷积层不同，没有要学习的参数。池化只是从目标区域中取最大值（或者平均值），所以不存在要学习的参数。    通道数不发生变化    经过池化运算，输入数据和输出数据的通道数不会发生变化。如图7-15所示，计算是按通道独立进行的。
       对微小的位置变化具有鲁棒性（健壮）           输入数据发生微小偏差时，池化仍会返回相同的结果。因此，池化对输入数据的微小偏差具有鲁棒性。比如，3 × 3的池化的情况下，如图          7-16所示，池化会吸收输入数据的偏差（根据数据的不同，结果有可能不一致）。
                                           经过卷积层和池化层之后，进行Flatten，然后丢到全连接前向传播神经网络。
                                                                                                                           （找到一张图片使得某个filter响应最大。相当于filter固定，未知的是输入的图片。）未知的是输入的图片？？？
   k是第k个filter，x是我们要找的参数。?这里我不是很明白。我得理解应该是去寻找最具有代表性的特征。
                                                                                   使用im2col来实现卷积层
                                           卷积层的参数是需要学习的，但是池化层没有参数需要学习。全连接层的参数需要训练得到。
   池化层不需要训练参数。全连接层的参数最多。卷积核的个数逐渐增多。激活层的size，逐渐减少。
    最大池化只是计算神经网络某一层的静态属性，没有什么需要学习的，它只是一个静态属性 。
                                           像这样展开之后，只需对展开的矩阵求各行的最大值，并转换为合适的形状即可（图7-22）。
                                           参数   • input_dim ― 输入数据的维度：（ 通道，高，长 ）   • conv_param ― 卷积层的超参数（字典）。字典的关键字如下：   filter_num ― 滤波器的数量   filter_size ― 滤波器的大小   stride ― 步幅   pad ― 填充   • hidden_size ― 隐藏层（全连接）的神经元数量   • output_size ― 输出层（全连接）的神经元数量   • weitght_int_std ― 初始化时权重的标准差
    LeNet 
   LeNet在1998年被提出，是进行手写数字识别的网络。如图7-27所示，它有连续的卷积层和池化层（正确地讲，是只“抽选元素”的子采样层），最后经全连接层输出结果。
                                           和“现在的CNN”相比，LeNet有几个不同点。第一个不同点在于激活函数。LeNet中使用sigmoid函数，而现在的CNN中主要使用ReLU函数。   此外，原始的LeNet中使用子采样（subsampling）缩小中间数据的大小，而现在的CNN中Max池化是主流。
    AlexNet 
   在LeNet问世20多年后，AlexNet被发布出来。AlexNet是引发深度学习热潮的导火线，不过它的网络结构和LeNet基本上没有什么不同，如图7-28所示。
                                           AlexNet叠有多个卷积层和池化层，最后经由全连接层输出结果。虽然结构上AlexNet和LeNet没有大的不同，但有以下几点差异。   • 激活函数使用ReLU。   • 使用进行局部正规化的LRN（Local Response Normalization）层。   • 使用Dropout
    TF2.0实现卷积神经网络 
                                            valid意味着不填充，same是填充    or the SAME padding, the output height and width are computed as:
   out_height = ceil(float(in_height) / float(strides[1]))
   out_width = ceil(float(in_width) / float(strides[2]))
   And
   For the VALID padding, the output height and width are computed as:
   out_height = ceil(float(in_height - filter_height + 1) / float(strides[1]))
   out_width = ceil(float(in_width - filter_width + 1) / float(strides[2]))   因此，我们可以设定 padding 策略。在 tf.keras.layers.Conv2D 中，当我们将 padding 参数设为 same 时，会将周围缺少的部分使用 0 补齐，使得输出的矩阵大小和输入一致。

卷积神经网络

6. 初识卷积神经网络

按照上文中介绍的神经网络，如果处理一张图片的话，参数有多大呢？假设图像的大小为1200 * 1200，下一层的神经元个数为10^5，不难得出参数量为 1200 * 1200 * 10^5 = 1.44 * 10^12。可以看出一层的参数量就是很大了，如果再多加几层，那参数量大的应该是超出了内存的承受范围，这从研究和工程的角度都是不允许的。而且参数太多，很容易造成过拟合。
  
 怎么解决这个问题呢？经过研究，从稀疏连接、参数共享和平移不变性三个方面来进行改进。
  
 可能有些人不懂这种稀疏连接是怎么实现的？先来说说卷积操作，以一个二维矩阵为输入（可以看作是一个单通道图片的像素值），卷积产生的稀疏连接根本原因就是这块的核函数，一般的核函数的大小远小于输入的大小。
  
 以下图例：卷积操作可以看做是一种滑窗法，首先，输入维度是4×4，输入中红色部分，先和核函数中的元素对应相乘，就是输出中左上角的元素值s1,即 s1 = a×k1+b×k2+e×k3+f×k4。
                                          
 参数共享是指在一个模型的多个函数中使用相同的参数，它是卷积运算带来的固有属性。
  
 在全连接中，计算每层的输出时，权重矩阵中的元素只作用于某一个输入元素一次；
  
 而在卷积神经网络中，卷积核中的每一个元素将作用于每一个局部输入的特定位置上。根据参数共享的思想，我们只需要学习一组参数集合，而不需要针对每一个位置的每一个参数来进行优化学习，从而大大降低了模型的存储需求。
  
 如果一个函数的输入做了一些改变，那么输出也跟着做出同样的改变，这就时平移不变性。
  
 平移不变性是由参数共享的物理意义所得。在计算机视觉中，假如要识别一个图片中是否有一只猫，那么无论这只猫在图片的什么位置，我们都应该识别出来，即就是神经网络的输出对于平移不变性来说是等变的。
  
 根据稀疏连接、参数共享和平移不变性三个思想，卷积核就应运而生了。看下图，有个直观的感受。
                                          
 上图就是在一个通道上做的卷积，但现实中，图片一般是由3个通道构成（R\G\B）,卷积核也由二维的平面生成了三维立体。具体的样子如下图：
                                          
 如上图所示，Filter W0 即为卷积核，其大小为(3 * 3 * 3)，每个3*3的二维平面会和图片的相应的通道进行卷积，3个通道的结果相加后加上统一的偏置b0，结果即为Output Volume 第一个通道的第一个位置的数。
  
 从上图还可以看出 Input Volume 四周加了0，这个0叫做padding，一般是为了卷积划动的过程中包含原有的所有数；而多通道卷积核计算过程和卷积核计算过程，不太一样的是多通道卷积核计算过程每次滑2下，这个滑动的距离叫做步长-stride。
  
 所以通过输入大小和卷积核大小，我们可以推断出最终的结果的大小。比如上图卷积核计算过程，输入大小为5 * 5，卷积核为3 * 3，那么卷积核在原图上每次滑动一格，横向滑3次，纵向也是3次，最终结果为  3 * 3。在多通道卷积核计算过程中，每次滑动为2格，横向滑3次，纵向也是3次，最终结果也为  3*3。可以推断出，最终大小的公式为：（输入大小 - 卷积核大小）/ 滑动步长。
  
 在卷积核计算过程，可以看出经过卷积后的大小变小了，那能不能经过卷积计算且大小不变呢？这里，引出了 padding 的另一个作用，保证输入和输出的大小一致。比方输出的 5*5 加 padding，那么四周就被0围绕了，这时的输入大小就变为7 * 7, 再经过 3 * 3的卷积后，按照上边推断出的公式，可以得出 最终的大小为 5 * 5，这时与输入大小保持了一致。
  
 池化层夹在连续的卷积层中间， 用于压缩数据和参数的量，减小过拟合。
   简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。
  
 池化层用的方法有Max pooling 和 average pooling，而实际用的较多的是Max pooling。下图演示一下Max pooling。
                                                                                  
 对于每个2 * 2的窗口选出最大的数作为输出矩阵的相应元素的值，比如输入矩阵第一个2 * 2窗口中最大的数是1，那么输出矩阵的第一个元素就是1，如此类推。
  
 全连接层的部分就是将之前的结果展平之后接到最基本的神经网络了。
                                                                                  
 根据上边的介绍，可以得出，卷积核的通道数目和输入的图像的通道数目是保持一致的，而输出的通道数目是和卷积核数目是一致的。这样参数量可以得出，假设输入的通道为5，卷积核大小为 3 * 3 ，输出的通道数目为10，那么参数量为：3 * 3 * 5 * 10，其中3 * 3 * 5是1个卷积核的参数个数，3 * 3 * 5 * 10 是 10个卷积核的参数个数，也就总共的参数个数。
  
 在卷积中，滑动一次会经过多次的点乘，只经过一次的加法，所以加法的计算量可以忽略不计。其中，滑动一次会的点乘次数和卷积核的大小有关系，比方 3 * 3的卷积，则是经过了 3 * 3 = 9次点积。一共滑动多少次和输出大小有关系，比方 输出的结果也为 3 * 3，那么就是滑动了9次。这样就可以得出输入和输出单通道时计算量 3 * 3 * 3 * 3 = 81。那么对于输入多通道时，卷积核也需要增加相应的通道数目，此时应该在刚才的计算量上乘以通道的数目，得出输入多通道的一个卷积核的计算量。这样，对于输出多通道，总的计算量则是乘以多个卷积核即可。

7. 卷积神经网络用全连接层的参数是怎么确定的?

卷积神经网络用全连接层的参数确定：卷积神经网络与传统的人脸检测方法不同，它是通过直接作用于输入样本，用样本来训练网络并最终实现检测任务的。
它是非参数型的人脸检测方法，可以省去传统方法中建模、参数估计以及参数检验、重建模型等的一系列复杂过程。本文针对图像中任意大小、位置、姿势、方向、肤色、面部表情和光照条件的人脸。

输入层
卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。
由于卷积神经网络在计算机视觉领域应用较广，因此许多研究在介绍其结构时预先假设了三维输入数据，即平面上的二维像素点和RGB通道。

卷积神经网络用全连接层的参数是怎么确定的?

8. 卷积神经网络原理

卷积神经网络是一种前馈型神经网络, 受生物自然视觉认知机制启发而来的. 现在, CNN 已经成为众多科学领域的研究热点之一, 特别是在模式分类领域, 由于该网络避免了对图像的复杂前期预处理, 可以直接输入原始图像, 因而得到了更为广泛的应用. 可应用于图像分类, 目标识别, 目标检测, 语义分割等等.可用于图像分类的卷积神经网络的基本结构.

1. 定义
卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一 。卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SIANN）” 。
2. 特点
与之前介绍的神经网络相比，传统神经网络只有线性连接，而CNN包括**卷积（convolution）**操作、**汇合（pooling）操作和非线性激活函数映射（即线性连接）**等等。

3. 应用与典型网络
经典的CNN网络：
Alex-Net
VGG-Nets
Resnet
常用应用：
深度学习在计算机图像识别上的应用非常成功。利用深度学习，我们能够对图片进行高精度识别，实现这一功能的，主要依靠神经网络中的一种分支，名为卷积网络