最初に
今回で2回目の記事投稿となります。今回も前回と同様に扱う手法としてはDID(Differrence-in-differences)を扱います。
今回扱う内容は前回同様、論文を基にしています。そこまで新しい論文ではないのですが、読んでみて個人的に面白かったので記事にしてみました。
DIDにおいて最も重要な仮定として、平行トレンド仮定というものがあります。詳しい説明は割愛しますが、介入群と対照群において、介入がなかった場合の時系的な変化が同一トレンドをたどるという厳しい仮定になってきます。この仮定を置くことによって、差分の差分をとることで介入の効果を推定できるというのが、DIDの特徴であります。観察データなので、データの入手難易度が低い、交絡因子を観測できてなくてもよいのでその部分でも、データ入手難易度が低いと言われていますが、後者に関しては完全な平行トレンド仮定を満たす場合というのは、ほぼほぼないという個人的な意見があり、DIDにおいてなんらかの補正を加え、平行トレンド仮定を満たす必要があるのではないかと思っております。なので、交絡因子(変数)を観測できてなくても良いというのは無理がある(補正に交絡変数を使用する)と思っております。
ただ、確度の高い効果推定という意味であれば、できる限り平行トレンドに近いものを持っている対照群を選ぶことで、単に効果推定を行うよりは、ある程度確度の高い効果推定を行えると考えられるので、ビジネス的には許容されるのかなとは思っています。ですが、因果推論を行うモチベーションとしては限りなく確度の高い効果推定を行うことによって、正しい意思決定を行うというものなはずです。であるならば、なるべく平行トレンドに近しい対照群を選び、DIDを行うではなく、きちんと補正を加えて限りなく確度を高めたDIDを行う必要があるはずだというのが、私の意見です。
つらつらと個人的な意見を述べましたが、今回記事にしたものは、傾向スコアをDIDで用い、平行トレンドを満たすように補正を加えてDIDをしようというもので、確度を高めたDIDを行うという意味では、有用な手法だなと個人的に感じたので紹介しますといった感じです。
傾向スコアをどう使う?
潜在的結果の枠組み
ATTの定義
介入群における介入の効果の平均をATT(Average Treatment Effect on the Treated)と呼びます。 ATTの定義は以下の通りです。
グループの定義
今回の傾向スコアを用いたDIDでは、4つのグループ分けを行います。
標準的なDIDモデル
通常、DIDモデルでは次のような回帰モデルを使用します。
共変量の集合Xで条件付けた上での平行トレンド仮定
DIDモデルでは、次の平行トレンドの仮定が成り立つことを前提とします。
]
4つのグループのバランスを取るための傾向スコアの重み付け
ATTの分解
4つのグループに傾向スコアの重みを適用することで、ATTを次のように分解することができます。
この分解式の右辺の各項は、グループ1の共変量分布の下での、各グループの結果の期待値を表しています。
傾向スコアによる重み付きDIDのATT
上記の分解式の右辺の各項は、傾向スコアの重みを用いて次のように一致推定量を得ることができます。
したがって、重み付きDIDモデルを用いて、次のような回帰モデルを推定することで、ATTを一致的に推定することができます。
回帰式自体は従来のDIDの回帰式となんら変わってないですよね。これは導出した重み観測値に掛けたものを使用して係数を推定するため、回帰式自体は変わってないだけです。 重み付けによって、重みが大きい観測値はモデルにより大きな影響を与え、重みが小さい観測値はモデルにより小さい影響を与えるようになります。
最後に
傾向スコアによって作成した各該当の重みを各観測値に掛けることによって、平行トレンドを満たす(交絡因子の調整された)データを作成。それを用いて従来のDIDにおける回帰分析の係数を予測するので、より確度の高いDIDによる効果推定が行えると考えると結構いい手法なのではないかと個人的には感じた次第です。前の記事でも書きましたが、記事を書くことも初心者ですし、統計に関しても初心者なので、間違っている部分などあれば、優しく教えてくださると幸いです。
DIDについてもっと詳しく知りたいな...