はじめに

　現在、ディープラーニング（DL）は様々な分野で使われています。今流行の生成AIなんて、DLの塊です。また、私の所属する会社で行われているセキュリティネットワークの研究においても、DLは重要な意味合いを持っています。
　その一方で、私自身ちゃんとDLについて過去に勉強してきたことがありません。したがって、私にとってDLは、データサイエンスにおける超重要な技術であるにもかかわらず、自信を持って語ることができない技術の一つになっています。そこで2023年度の下期は、体系的にDLを学ぶべくなっとく！ディープラーニングを読むことにしました。
　本記事では、自分が躓いた第4章について説明していきたいと思います。

第4章の理解の仕方

　第4章のテーマは、勾配降下法です。私自身は本書の説明だけでは理解ができず、ネットでググった数式を見ながら本書を読み解きました。私は下記の流れで第4章を理解しました。

勾配降下法の更新式を理解する
データが一つの場合の勾配降下法の更新式を、実際に導出する
本書に書かれているコードと照らし合わせる

勾配降下法の更新式を理解する

　図１のような最もシンプルなニューラルネットワークを考えます。

このとき、 $\omega$ の勾配降下法の更新式は、

$\omega _ {(n+1)} = \omega _ {(n)} - \eta \dfrac{\partial L}{\partial \omega}(\omega _ {(n)} )$

となります。ただし、 $\omega _ {(n+1)}$ は更新後のパラメータ、 $\omega _ {(n)}$ は更新前のパラメータ、 $\eta$ は学習率、 $L$ は損失関数です。

　勾配降下法の更新式がこのような形になっている理由については、勾配降下法が分かりやすかったです。

　大事なことは、パラメータを更新する方向を $\dfrac{\partial L}{\partial \omega}(\omega _ {(n)} )$ で定め、更新する大きさを学習率 $\eta$ で定めるということです。

データが一つの場合の勾配降下法の更新式を、実際に導出する

　本書では、損失関数 $L$ としてMean Square Error(MSE)を使っています。また、図１より予測値は $\omega x$ となります。したがって、

$\begin{aligned} \dfrac{\partial L}{\partial \omega} & = \dfrac{\partial}{\partial \omega}(y-\omega x)^2 \\ &= -2x(y-\omega x) \end{aligned}$

となります。したがって、更新式は、

$\begin{aligned} \omega _ {(n+1)} &= \omega _ {(n)} - \eta \times (-2x(y-\omega x)) \\ &= \omega _ {(n)} - 2\eta \times x(\omega x-y) \\ \end{aligned}$