1. Backprop中利用下一层的误差计算前一层的误差δ(L)=(Θ(L))Tδ(L+1)g(z(L)),原理是?
    利用微分的链式法则,具体推导先略过。

  2. Backprop计算出每一层的误差δ(l)之后,如何对参数进行修正?

  3. 或者说,Backprop只是用来计算cost function errors of each layer?

  4. cost function是由最后一层的hθ(x)组成的,但是为什么Backprop需要计算每一层的误差来得到误差矩阵呢?

  5. Bagging data sets
    Compared with using the whole data set, the source data set of bagging is the same, so why it works?