仕事で位置情報データを扱っています。その際、位置情報の生データから作成された指標（以下、推定量と呼ぶ）が、本当に正しいものなのかを検証することがあります。本記事では、その検証方法の手順を過去の論文を基にまとめたいと思います。

参考にした論文は、下記の2本です。

検証手順の概要

検証の手順は下記です。5ステップで検証を行います。

推定量と比較するデータ（以下、比較用データと呼ぶ）の特徴を抽出し、比較可能な形にする
比較軸を決める
比較するためのスコアを決める
比較する
推定量と比較用データのズレを考察する

以下は各ステップで行う細かな作業についての説明です。

推定量と比較用データの特徴を抽出し、比較可能な形にする

このステップのゴールは、推定量と比較用データのそれぞれの特徴の差分を明らかにし、適切な比較ができるようにすることです。

例えば1の論文では、推定された統計量である人口流動統計と公的データであるPT調査を比較しています。このとき、人口流動統計とPT調査の特徴に関して、表1のような差分が発生しています。

このような差分は揃えて比較する必要があります。1の論文では、表2のように条件を揃えています。

比較軸を決める

このステップのゴールは、比較の目的にあわせて、比較軸を決めることです。

1の論文の場合、空間と時間を切って指標の比較を行っています。具体的には、空間として市区間と中ゾーンそれぞれのOD量を比較しています。なぜ、市区間と中ゾーンで比較したのかは、論文からはわかりませんでした。恐らく推定指標の利用目的に照らし合わせて、最も比較検証したい空間のサイズが市区間と中ゾーンだったのではないかと思います。

同様に時間については、6-9時台と16-19時台のOD量を比較しています。これは比較用データであるPT調査が朝夕ピーク時間帯の移動実態を把握するための調査であるため、と論文に記載がありました。

比較するためのスコアを決める

このステップのゴールは、比較の目的にあわせて、比較用のスコアを決めることです。

1の論文では、シンプルに各指標の数値の割合を見ています。

また、2の論文では、偏差率という指標を採用しています。偏差率とは、推定量と比較用データが一致している状態からどれだけずれているかを表すスコアです。

$\delta =\dfrac{t-s}{t+s} \\ {\rm ただし、}\delta{\rm ：偏差率},t{\rm ：推定量}, s{\rm ：比較用データ}\\$

目的に応じて比較用のスコアを決める必要があります。

比較する

ここまでのステップで条件を揃え、比較軸でデータを抽出し、比較用のスコアを決めてきました。このステップでは、比較するだけです。ただし、比較した結果のまとめ方は論文が参考になったので図1としてスクショを貼っておきます。

推定量と比較用データのズレを考察する

このステップのゴールは、推定量を使う際に、何に注意すべきかを明らかにすることです。

前のステップで、推定量と比較用データを比較しました。このとき、推定量と比較用データが完全に一致することはありえないです。このズレの原因を明らかにし、推定量を使う際に注意すべきこととして、記録しておくべきです。

例えば、1の論文ではトリップ距離が1km以上のOD量がPT調査＜人口流動統計となっていることについて、次のような考察をしています。

PT調査ではトリップとして回答されない「自宅から近場へ移動して用事を済ませた後、自宅へ戻る」トリップを人口流動統計では移動として判断される場合があるためと考えられる

以上のように考察することで、トリップ距離が1km以上のOD量については、人口流動統計の方がPT調査よりも移動をより精緻にとらえていると判断できます。また、それによって人口流動統計は細かなトリップも拾ってきているということを意識しながら利用することができます。

まとめ

本記事では、位置情報データにおける推定量の信頼性の検証手順をまとめました。本記事を執筆する過程で気付いたことは、推定量と比較用データを直接比較することは難しいということです。したがって、検証の目的をあらかじめ決めておき、それに応じて条件を揃えたり、比較軸を決める必要があると思いました。

初心者データサイエンティストの備忘録

調べたことは全部ここに書いて自分の辞書を作る

位置情報データにおける推定量の信頼性の検証手順