softmax分类器

softmax分类器是logistics回归在多分类问题上的推广。

同线性回归一样,多分类问题一样需要对数据特征进行加权求和,即将数据维度乘以权重进行求和,之后将各类所得值除以总值。所得即为归一化概率(Normalized Probabilities)。

z=i=0mwixi

f(x)=1z1+z2+z3[z1 z2 z3]

f(x)=1j=13i=0mwijxij[i=0mwi1xi1 i=0mwi2xi2 i=0mwi3xi3]

而上述函z是线性的,这使得增长幅度有限,为此引入指数函数。指数函数作为单调函数对表达式本身的物理含义并无影响,却可以极大地放大数值。

z=ei=0mwixi

f(x)=1j=1keji=0mwixi[e1i=0mwixi e2i=0mwixi  ei=0i=0mwixi]

此外,需要指出的是,对于softmax分类器,其代价函数不需要考虑所有的分类项的误差。因为各个分类项的误差之间时彼此依赖的(各分类项概率总和为1),所以只需要考虑概率最大的输出即可。


softmax层

softmax层与softmax分类器类似,都是最终输出分类概率,所以在分类问题的深度学习网络中常常作为最后一层使用。

值得一提的是,根据softmax分类器的特性,如果需要输出N1的概率向量(N个分类),则softmax的输入维度也必须为N1,因此需要在softmax层之前加入一个全连接层,将上一层的输出转换为N1维度。