1. Backprop中利用下一层的误差计算前一层的误差$\delta^{(L)}=\left({\Theta^{(L)}}\right)^{T}\delta^{(L+1)}\ast g’\left(z^{(L)}\right)$,原理是?
    利用微分的链式法则,具体推导先略过。

  2. Backprop计算出每一层的误差$\delta^{(l)}$之后,如何对参数进行修正?

  3. 或者说,Backprop只是用来计算cost function errors of each layer?

  4. cost function是由最后一层的$h _ { \theta } (x)$组成的,但是为什么Backprop需要计算每一层的误差来得到误差矩阵呢?

  5. Bagging data sets
    Compared with using the whole data set, the source data set of bagging is the same, so why it works?