はじめに

　近年、ニューラルネットワークは分類精度の高さや様々なタスクへの応用が可能であることから、幅広い領域で使われています。私の場合、セキュリティ領域でニューラルネットワークを用いています。　ところが、ニューラルネットワークはその複雑な構造から、誤った使い方をされてしまうことがあります。誤った使い方を防ぐためには、その基礎理論を学ぶことが重要だと私は考えています。私の場合、なっとく！ディープラーニングという本を通じて、ニューラルネットワークの理論を学んできました。
　本記事では、本書で学んだ勾配降下法という手法について説明します。本記事より詳しい内容を確認したい方は、本書の第8章をご覧ください。

勾配降下法

　勾配降下法とは、最適化問題を解く方法の一つです。ニューラルネットワークにおいては、モデルの出力と真のラベル間の損失関数を最小にするようなパラメータを推定することが求められます。このとき、勾配降下法が使われます。　勾配降下法の基本的なパラメータ更新式は、(1)式のようになります。

$\begin{eqnarray} \omega _ {(n+1)} = \omega _ {(n)} - \eta \dfrac{\partial L}{\partial \omega}(\omega _ {(n)} ) \tag{1} \end{eqnarray}$

です。ただし、 $\omega _ {(n+1)}$ は更新後のパラメータ、 $\omega _ {(n)}$ は更新前のパラメータ、 $\eta$ は学習率、 $L$ は損失関数です。 $\dfrac{\partial L}{\partial \omega}(\omega _ {(n)} )$ によって更新の方向が、 $\eta$ によって更新の大きさが決まります。なお、今回の実装においては損失関数は二乗誤差とします。