初心者データサイエンティストの備忘録

調べたことは全部ここに書いて自分の辞書を作る

因果関係を表現した資料を作成するためのtips

 データサイエンティストとして働いていると、何らかの因果関係を表現した表や図を作成し、お客様に提示することが多い。今回は、因果関係が正しく表や図で表現されているかセルフレビューする方法について書く。
 なお、この方法は最近私が気が付いたものであるので、もっと良い方法あるよーって方は是非コメントをしていただければ嬉しい。
 また、ここでいう因果関係はあくまで資料作成上のものであって、統計的因果推論などには触れないのでご了承いただきたい。

 資料作成にあたり、最初にすべきことは資料に書くことを整理することである。因果関係を資料上で表現したい場合は、まず各要素の因果関係を明確にすることから始める。そこで役に立つのが、因果グラフである。
 因果グラフとは、各要素の矢印の始点に原因となる要素、終点に結果となる要素を配置した図である。例えば、

  • 例1:「ご飯をたくさん食べる」(原因)と「太る」(結果)

を因果グラフで表現すると図1のようになる。

f:id:aisinkakura_datascientist:20220403201226j:plain:w300
図1:因果グラフの例

 また、要素が増えた場合も因果グラフで因果関係を表現することができる。例えば、下記の例では図2、3のような因果グラフで因果関係を表現できる。

  • 例2: ご飯をたくさん食べる(原因1)かつ家で座っている時間が長い(原因2)と太る(結果)。(図2)

  • 例3:ご飯をたくさん食べる(原因1)と太る(結果1)。太る(原因2)と立ち上がることが億劫になり家で座っている時間も長くなる(結果2)。(図3)

f:id:aisinkakura_datascientist:20220403201328j:plain:w300
図2:因果グラフの例2

f:id:aisinkakura_datascientist:20220403201357j:plain:w300
図3:因果グラフの例3

 資料を作成する前(可能ならば、分析に着手する前)にこのような因果グラフを書いておき、これから作成資料に記載する因果関係が適切なのか、この段階でセルフレビューするべきである。

 次に、これらの因果関係を資料に落とし込む際の原則を説明する。要素が2個の場合、原則は下記の通りだ。

  • 表の場合:左側に原因となる指標、右側に結果となる指標を配置する

  • グラフの場合:X軸に原因となる指標、Y軸に結果となる指標を配置する

 この原則がどういうことなのか、 「ご飯をたくさん食べる」(原因)と「太る」(結果)を例にして説明する。 まずは、表に対する説明である。図4は、「ご飯をたくさん食べる」を定量的に表した指標「一日の摂取カロリー数」でデータを層別化し、「太る」を表す指標「体重」の各層の平均を示した表である。このように、原因を左側に、結果を右側に配置した表は、因果関係を理解しやすいと私は感じている。

f:id:aisinkakura_datascientist:20220403201443j:plain:w300
図4:表の原則

 次に、グラフに対する説明をする。図4の表をグラフにする。このとき、X軸に「一日の摂取カロリー数」、Y軸に「体重」を配置すると良い(図5)。

f:id:aisinkakura_datascientist:20220403201525j:plain:w300
図5:グラフの原則

 これらの原則は、人間の理解に対してとても自然である。表については、(原因)だから(結果)のような言葉で因果関係を説明するときの配置と対応している。また、グラフにおいては、Xを入力するとYが出力されるといった関数の考え方と対応している。

 このような原則を自分の中で持っていると、セルフレビューが格段にしやすくなる。

 例えば、

  • ご飯をたくさん食べる(原因1)かつ家で座っている時間が長い(原因2)と太る(結果)

を表で表現することを考える。このとき、誤って図6のように表現してしまったときでも、原則「左側に原因となる指標、右側に結果となる指標を配置する」が頭の中にあれば、即座に誤っていると気がつくことができる。

f:id:aisinkakura_datascientist:20220403201602j:plain:w300
図6:原則に沿わない表

 コンサルの仕事をする上で、因果関係を適切に表現してお客様に提示できる能力は非常に重要である。今後自分で作成した資料に対して、セルフレビューする際には、このような原則を意識していきたい。