初心者データサイエンティストの備忘録

調べたことは全部ここに書いて自分の辞書を作る

順序回帰モデルで用いられる予測量の性質

はじめに

 過去の記事で、順序回帰の予測量


\begin{eqnarray} 
\hat{y} = 1+ \displaystyle{\sum_{k=1}^{K-1}}\boldsymbol{1}(\hat{d}_{k}) \tag{1}
\end{eqnarray}


\begin{eqnarray}
\hat{y} = \underset{k}{{\rm argmax}}\{\hat{d}_{k}\} \tag{2}
\end{eqnarray}

がある条件のもとで、下記の(3)式を満たすと書きました(文字の意味は該当の記事をご覧ください)。本記事ではこのことを証明しようと思います。


\displaystyle{\lim_{N \to +\infty}} E\left[\hat{y} \middle| \boldsymbol{x} \right] = \bar{k} \tag{3}

(1)式が(3)式を満たすための十分条件と証明

 (1)式が(3)式を満たすための十分条件は下記の通りです。

1. \hat{d} _ {k}は、説明変数 \boldsymbol{x}からロジスティックモデルによって得られるとする。つまり、パラメータの推定量 \hat{\boldsymbol{w}} _ k,\ \hat{b} _ kを用いて


\begin{eqnarray} 
\hat{d}_{k} = \dfrac{1}{1+{\rm exp}(\hat{\boldsymbol{w}} _ k \boldsymbol{x} + \hat{b} _ k)}
\end{eqnarray}

とする。

2. \hat{d}_{k} 0, 1の二値に変換する関数を、閾値 \gamma_kを用いて


\boldsymbol{1}(\hat{d}_{k}) = \left\{
\begin{array}{ll}
1 & (\hat{d}_{k} \geq \gamma_k) \\
0 & (\hat{d}_{k} < \gamma_k)
\end{array}
\right.

とする。
3. \hat{\boldsymbol{w}} _ k,\ \hat{b} _ kの真値 \boldsymbol{w} _ k,\ b _ kに対して、 p _ k = \dfrac{1}{1+{\rm exp}(\boldsymbol{w} _ k \boldsymbol{x} + b _ k)}とする。このとき、


\left\{
\begin{array}{ll}
p_k \geq \gamma_k & (k \leq \bar{k}-1) \\
p_k < \gamma_k & (k > \bar{k}-1) \\
\end{array}
\right.

が成り立つ閾値の列 \{\gamma_k\} _ {k=1} ^ {K-1}を設定できる。
4. \boldsymbol{\hat{w}} _ k,\ \hat{b} _ kは一致推定量である。つまり、  \boldsymbol{\hat{w}} _ k \xrightarrow{P} \boldsymbol{w} _ k ,\ \hat{b} _ k \xrightarrow{P} b _ kが成り立つ。

 本節では、上の4つの条件を用いた下記の命題を証明しようと思います。

命題1
上記の条件1~4を満たすとき、(1)式で定義された \hat{y}について

\displaystyle{\lim_{N \to +\infty}} E\left[\hat{y} \middle| \boldsymbol{x} \right] = \bar{k}
が成り立つ。

(命題1の証明)
 一般に \boldsymbol{\hat{w}} _ k \xrightarrow{P} \boldsymbol{w} _ k ,\ \hat{\boldsymbol{b}} _ k \xrightarrow{P} b _ kのとき、連続関数 gについて


g(\boldsymbol{\hat{w}} _ k, \hat{b} _ k) \xrightarrow{P} g(\boldsymbol{w} _ k, b _ k)

が成立します。このことは命題2として、後で証明します。
 いま、 g(\boldsymbol{w} _ k, b _ k) = \dfrac{1}{1+{\rm exp}(\boldsymbol{w} _ k \boldsymbol{x}+b _ k)}とすることで、後述の命題2から


\forall \varepsilon>0\ \ {\rm s.t}\ \ \displaystyle{\lim_{N \to +\infty}} P\left(|\hat{d}_{k}-p_k|>\varepsilon \middle| \boldsymbol{x} \right) = 0 \tag{4}

が成立します。
 また、


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} E[\hat{y}|\boldsymbol{x}] &=& \displaystyle{\lim_{N \to +\infty}}E\left[\left .1+ \displaystyle{\sum_{k=1}^{K-1}}\boldsymbol{1}(\hat{d}_{k}) \right| \boldsymbol{x} \right] \\
&=& 1 + \displaystyle{\sum_{k=1}^{K-1}} \displaystyle{\lim_{N \to +\infty}} E\left[\left. \boldsymbol{1}(\hat{d}_{k}) \right| \boldsymbol{x} \right] \\
\end{eqnarray}

となります。ここで、条件2を使うと


\begin{eqnarray}
E\left[\left. \boldsymbol{1}(\hat{d}_{k}) \right| \boldsymbol{x} \right] &=& 1\cdot P(\hat{d}_{k} \geq \gamma_k | \boldsymbol{x}) + 0 \cdot P(\hat{d}_{k} < \gamma_k | \boldsymbol{x}) \\
&=& P(\hat{d}_{k} \geq \gamma_k | \boldsymbol{x})
\end{eqnarray}

となるので、


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} E[\hat{y}|\boldsymbol{x}] = 1 + \displaystyle{\sum_{k=1}^{K-1}} \displaystyle{\lim_{N \to +\infty}} P(\hat{d}_{k} \geq \gamma_k | \boldsymbol{x}) \tag{5}
\end{eqnarray}

となります。
(i)  k \leq \bar{k}-1のとき
 (4)式より \varepsilon = p_k-\gamma_k > 0とすることで、


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} P\left(|\hat{d}_{k}-p_k| < p_k-\gamma_k \middle| \boldsymbol{x} \right) = 1
\end{eqnarray}

となります。これと、


\begin{eqnarray}
P\left(|\hat{d}_{k}-p_k| < p_k-\gamma_k \middle| \boldsymbol{x} \right) &=& P\left(-p_k+\gamma_k < \hat{d}_{k}-p_k < p_k-\gamma_k \middle| \boldsymbol{x} \right) \\
&=& P\left(\gamma_k < \hat{d}_{k} < 2p_k-\gamma_k \middle| \boldsymbol{x} \right) \\
&\leq& P\left(\hat{d}_{k} > \gamma_k | \boldsymbol{x} \right) \\
\end{eqnarray}

を用いると、


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} P\left(\hat{d}_{k} > \gamma_k \middle| \boldsymbol{x} \right) = 1 \tag{6}
\end{eqnarray}

となります。
(ii)  k > \bar{k}-1のとき
 (4)式より \varepsilon = \gamma _ k-p _ k > 0とし、


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} P\left(|\hat{d}_{k}-p_k| > \gamma_k-p_k \middle| \boldsymbol{x} \right) = 0
\end{eqnarray}

を使い、(i)と同様に議論すると


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} P\left(\hat{d}_{k} > \gamma_k \middle| \boldsymbol{x} \right) = 0 \tag{7}
\end{eqnarray}

となります。
 以上で得られた(5)、(6)、(7)式を用いることで


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} E[\hat{y}|\boldsymbol{x}] = \bar{k}
\end{eqnarray}

となります。(命題1の証明終わり)

 以上で命題1を証明することができました。以下では、命題1の証明中に出てきた下記の命題2を証明します。

命題2
 一般に \boldsymbol{\hat{w}} _ k \xrightarrow{P} \boldsymbol{w} _ k ,\ \hat{b} _ k \xrightarrow{P} b _ kのとき、連続関数 gについて

g(\boldsymbol{\hat{w}} _ k, \hat{b} _ k) \xrightarrow{P} g(\boldsymbol{w} _ k, b _ k)
が成り立つ。

(命題2の証明)
  gは連続関数なので、


\forall \varepsilon>0, \exists \delta>0\ \ {\rm s.t.}\ \ ||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| < \delta \Rightarrow |g(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-g(\boldsymbol{w} _ k, b _ k)| < \varepsilon

となります。ただし、 ||\cdot||はEuclid距離です。
 したがって、


\forall \varepsilon>0\ \ P(||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| < \delta) \leq P(|g(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-g(\boldsymbol{w} _ k, b _ k)| < \varepsilon)

となります。 N \to +\inftyのとき、 {\rm (左辺)} \to 1なので(これは命題3として後で証明)、


\forall \varepsilon>0\ \ \displaystyle{\lim_{N \to +\infty}} P(|g(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-g(\boldsymbol{w} _ k, b _ k)| < \varepsilon) = 1

となります。すなわち、


g(\boldsymbol{\hat{w}} _ k, \hat{b} _ k) \xrightarrow{P} g(\boldsymbol{w} _ k, b _ k)

となります。(命題2の証明終わり)

 以上で命題2を証明することができました。以下では、命題2の証明中に出てきた下記の命題3を証明します。

命題3
 \boldsymbol{\hat{w}} _ k \xrightarrow{P} \boldsymbol{w} _ k ,\ \hat{b} _ k \xrightarrow{P} b _ kのとき、

\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} P(||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| < \delta) = 1
\end{eqnarray}
となる。

(命題3の証明)
  ||\cdot||がEuclid距離であることと、三角不等式を用いると


\begin{eqnarray}
||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| & \leq & ||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, \hat{b} _ k)|| + ||(\boldsymbol{w} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| \\
&=& ||\boldsymbol{\hat{w}} _ k-\boldsymbol{w} _ k|| + ||\hat{b} _ k-b _ k||
\end{eqnarray}

となります。よって、


\begin{eqnarray}
||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| > \delta \Rightarrow ||\boldsymbol{\hat{w}} _ k-\boldsymbol{w} _ k|| + ||\hat{b} _ k-b _ k|| > \delta
\end{eqnarray}

が成り立ちます。ここで、


\begin{eqnarray}
x>0, y>0, x+y>\delta \Rightarrow x>\dfrac{\delta}{2}\ {\rm or}\ y>\dfrac{\delta}{2}
\end{eqnarray}

であること(これは命題4として後で証明)を用いると、


\begin{eqnarray}
||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| > \delta \Rightarrow ||\boldsymbol{\hat{w}} _ k-\boldsymbol{w} _ k|| > \dfrac{\delta}{2}\ {\rm or}\ ||\hat{b} _ k-b _ k|| > \dfrac{\delta}{2}
\end{eqnarray}

が成り立ちます。以上より、


\begin{eqnarray}
P(||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| > \delta) &\leq& P\left(||\boldsymbol{\hat{w}} _ k-\boldsymbol{w} _ k|| > \dfrac{\delta}{2}\ {\rm or}\ ||\hat{b} _ k-b _ k|| > \dfrac{\delta}{2}\right) \\
&\leq& P\left(||\boldsymbol{\hat{w}} _ k-\boldsymbol{w} _ k|| > \dfrac{\delta}{2}\right) + P\left(||\hat{b} _ k-b _ k|| > \dfrac{\delta}{2}\right) \\
\end{eqnarray}

となります。最後に \boldsymbol{\hat{w}} _ k \xrightarrow{P} \boldsymbol{w} _ k ,\ \hat{b} _ k \xrightarrow{P} b _ kであることを用いると、 N \to +\infty ({\rm 右辺}) \to 0なので、


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} P(||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| > \delta) = 0
\end{eqnarray}

となります。つまり、


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} P(||(\boldsymbol{\hat{w}} _ k, \hat{b} _ k)-(\boldsymbol{w} _ k, b _ k)|| < \delta) = 1
\end{eqnarray}

が成り立ちます。(命題3の証明終わり)

 以上で命題3を証明することができました。以下では、命題3の証明中に出てきた下記の命題4を証明します。

命題4

\begin{eqnarray}
x>0, y>0, x+y>\delta \Rightarrow x>\dfrac{\delta}{2}\ {\rm or}\ y>\dfrac{\delta}{2}
\end{eqnarray}
が成り立つ。

(命題4の証明)
 命題4の対偶は、


\begin{eqnarray}
x \leq \dfrac{\delta}{2}, y \leq \dfrac{\delta}{2} \Rightarrow  x \leq 0\ {\rm or}\ y \leq 0\ {\rm or}\ x+y \leq \delta 
\end{eqnarray}

です。これは明らかに成り立つので元の命題4も成り立ちます。(命題4の証明終わり)

 以上より、順序回帰の際に用いられる予測量


\begin{eqnarray} 
\hat{y} = 1+ \displaystyle{\sum_{k=1}^{K-1}}\boldsymbol{1}(\hat{d}_{k})
\end{eqnarray}

の性質を表した命題1を証明することができました。

(2)式が(3)式を満たすための十分条件と証明

 (2)式が(3)式を満たすための十分条件は下記の通りです。

5. \hat{d} _ kはソフトマックス関数を用いた線形回帰モデルによって予測されるとする。つまり、


\begin{eqnarray} 
\hat{u} _ k = \hat{\boldsymbol{w}} _ k \boldsymbol{x} + \hat{b} _ k
\end{eqnarray}

として、


\begin{eqnarray} 
\hat{d} _ k = \dfrac{{\rm exp}(\hat{u} _ k)}{\sum_{k} {\rm exp}(\hat{u} _ k)}
\end{eqnarray}

と表せる。

6. \hat{\boldsymbol{w}} _ k, \hat{b} _ kの真値 \boldsymbol{w} _ k, b _ kを用いて u_k = \boldsymbol{w}_k \boldsymbol{x} + b_kとしたときに、


\begin{eqnarray} 
u_{\bar{k}} \geq u_k\ \ (\forall k \neq \bar{k})
\end{eqnarray}

が成り立つ。

7. \hat{\boldsymbol{w}} _ k, \hat{b} _ kは一致推定量である。つまり、 \hat{\boldsymbol{w}} _ k \xrightarrow{P} \boldsymbol{w}_k, \hat{b} _ k \xrightarrow{P} b_kが成り立つ。

 本節では、上の3つの条件を用いた下記の命題を証明しようと思います。

命題5
上記の条件5~7を満たすとき、(2)式で定義された \hat{y}について

\displaystyle{\lim_{N \to +\infty}} E\left[\hat{y} \middle| \boldsymbol{x} \right] = \bar{k}
が成り立つ。

(命題5の証明)
  \hat{y} = \underset{k}{{\rm argmax}}\{\hat{d} _ {k}\}より、


\begin{eqnarray}
E\left[\hat{y} \middle| \boldsymbol{x} \right] = \displaystyle{\sum_{k=1}^K} kP\left(\hat{d}_k \geq \hat{d}_1, \cdots, \hat{d}_k \geq \hat{d}_{k-1}, \hat{d}_k \geq \hat{d}_{k+1}, \cdots, \hat{d}_k \geq \hat{d}_{K} \middle| \boldsymbol{x}\right) \tag{8}
\end{eqnarray}

となります。
 また、条件5を用いると、


\begin{eqnarray}
\hat{d}_k \geq \hat{d}_i \Leftrightarrow \hat{u}_k \geq \hat{u}_i
\end{eqnarray}

となります。
 ここで、条件7と命題2から \hat{u}_k \xrightarrow{P} u_kが成り立つことと、条件6を用いると、


\begin{eqnarray}
& & \displaystyle{\lim_{N \to +\infty}} P\left(\hat{d}_k \geq \hat{d}_1, \cdots, \hat{d}_k \geq \hat{d}_{k-1}, \hat{d}_k \geq \hat{d}_{k+1}, \cdots, \hat{d}_k \geq \hat{d}_{K} \middle| \boldsymbol{x}\right) \\
&=& \displaystyle{\lim_{N \to +\infty}} P\left(\hat{u}_k \geq \hat{u}_1, \cdots, \hat{u}_k \geq \hat{u}_{k-1}, \hat{u}_k \geq \hat{u}_{k+1}, \cdots, \hat{u}_k \geq \hat{u}_{K} \middle| \boldsymbol{x}\right) \\
&=& P\left(u_k \geq u_1, \cdots, u_k \geq u_{k-1}, u_k \geq u_{k+1}, \cdots, u_k \geq u_{K} \middle| \boldsymbol{x}\right) \\
&=& \left\{
\begin{array}{ll}
1 & (k = \bar{k}) \\
0 & (k \neq \bar{k})
\end{array}
\right.
\end{eqnarray}

となります。これと(8)式を用いると


\begin{eqnarray}
\displaystyle{\lim_{N \to +\infty}} E\left[\hat{y} \middle| \boldsymbol{x} \right] = \bar{k}
\end{eqnarray}

が成り立ちます。(命題5の証明終わり)

まとめ

 本記事では順序回帰で用いられる予測量について、ある一定の条件を満たしたときに期待値が真値に収束することを示しました。