最初に

いつか自分が学んだことをアウトプットしようと思っていましたが、なかなか踏み出せず今日になって初めて、始めようと思ったのでブログを始めてみました。

今回の記事の元となっているのは、Andrew Goodman-Bacon(2021)の論文です。論文を読むのも、記事を書くのも初心者なため、内容に関しては目を瞑っていただけると幸いです。

DIDに関して

DIDは広く使われる手法ですが、処置のタイミングが異なる場合の扱いに関しては、確立されていませんでした。そこで今回の論文では、DIDで処置のタイミングが異なる場合にどのように効果を推定するのかということを述べています。個人的な感覚ですが、この論文で提案されている手法は、処置のタイミングの異質性を明示的にモデル化できるということなので、従来のDIDに比べ、処置効果の異質性や、時間変化に対してより頑健な推定量を提供することが可能ということだと思っています。今回の記事でDIDそのものに関しての説明は省略し、論文で述べられている、新しいDIDの活用方法に関して焦点を当てていきます。(従来のDIDに関しては色々なところで解説されているので)

分解定理に関して

前述しましたが、従来のDIDでは、処置のタイミングが異なる場合の効果推定が困難でした。そこで、この論文では分解定理(Decomposition Theorem)というものを提案しています。分解定理は簡単に言うと、処置のタイミングが異なる場合のDID推定量が、2群間・2時点のDID推定量の加重平均で表せるということです。

しばらくの間は、数式を用いずに、直観的な説明をしていきたいと思います。
具体的には、任意の2群(群Aと群Bとする)の比較に着目するとします。ここで、群Aを処置軍、群Bを対照群とする2時点間のDID推定量を考えます。これは、群Aの処置前後の変化から、群Bの同じ期間の変化を引いたものです。

分解定理は、処置のタイミングが異なる場合のDIDの推定量が、このような2群間のDIDの推定量をすべての群の組み合わせについて計算し、それらを適切な重みで平均したものになることを示しています。

重みは、各群の比較がどの程度DIDの推定量に寄与するかを表しており、2つの要素から決まります。1つ目は各群のサンプルサイズ、2つ目は処置変数の分散です。サンプルサイズが大きい群の比較ほど重みが大きくなります。また、処置変数の分散が大きい、つまり処置軍と対照群の処置状態の差が大きいほど重みが大きくなります。

ここで重要なのは、ある群が処置群として寄与する重みと、対照群として寄与する重みが異なる点です。この差は、その群の処置のタイミングによって決まります。

分解定理の意義は、一般化されたDIDの推定量の性質を、よりシンプルな2群間・2時点のDIDの推定量の性質に帰着させた点にあると個人的には思っています。これにより、DIDの推定量がどのような変動から識別されているのかを明らかにすることができます。また、処置効果の異質性や時間変化がある場合に、DIDがどのような仮定のもとで因果効果を識別できるかについても、示唆してくれているかなとも思います。

それでは数式を用いて、自分が理解したことを解説していこうと思います。一般化されたDIDの推定量は、2群間・2時点のDIDの加重平均として表せます。

$\hat{\beta}_{DID} = \sum_{k \neq j} s_{kj} \hat{\beta}^{2x2}_{kj} + \sum_{k \neq j} \sum_{l > k} s_{kl} [\mu_{kl} \hat{\beta}^{2x2,k}_{kl} + (1-\mu_{kl}) \hat{\beta}^{2x2,l}_{kl}]$

ここで、
- 群k: ある時点で処置を受ける群（処置群）
- 群j:一度も処置を受けていない群（未処置群）
- 群l:群kよりも後の時点で処置を受ける群（対照群であり、後に処置群になる）
　　

- $\hat{\beta}^{2x2}_{kj}$ は処置群 $k$ と未処置群 $j$ の2群間・2時点のDIDの推定量

- $\hat{\beta}^{2x2,k}_{kl}$ は処置群 $k]と対照群[tex:l$ の2群間・2時点のDIDの推定量(群 $l$ が処置を受ける前の期間のみ)

- $\hat{\beta}^{2x2,l}_{kl}$ は処置群 $l]と対照群[tex:k]の2群間・2時点のDIDの推定量(群[tex:k$ が既に処置を受けた後の期間のみ)

ここで、 $\hat{\beta}_{DID}$ は、一般化されたDIDの推定量を表しています。つまり、処置のタイミングが異なる状況下での、処置効果の推定値です。この推定量は、各処置群と未処置群・対照群の比較から得られる2群間・2時点のDIDの推定量を加重平均することで得られます。

私があまり数学が得意ではなく、いつもぱっと頭に入ってこないので、基本的な内容ですが書いておきます。 $\sum_{k \neq l} \sum_{l > k}$ は、全ての処置群の組み合わせについて、処置のタイミングが異なる場合の加重平均を計算することを意味しています。

1. 処置群kを固定し、それよりも後の時点で処置を受けるすべての処置群lについて、 $s_{kl} [\mu_{kl} \hat{\beta}^{2x2,k}_{kl} + (1-\mu_{kl}) \hat{\beta}^{2x2,l}_{kl}$ ]を計算し、合計する。

2. 処置群kを変えて、ステップ1を繰り返す。
3.全ての処置群kについてステップ1とステップ2を行い、得られた値を合計する。以上、みんなそんなこと言われなくてもわかっている内容だったと思いますが、私はいつも理解するのに時間がかかってしまうので、後で見返した時に理解できるよう、自分用に書かせてもらっています。
　　

また、 $s_{kj}, s_{kl}$ は各2群間・2時点のDIDの重みで、以下のように表されます。

$s_{kj} = \frac{n_k n_j \bar{D}_k(1 - \bar{D}_k)}{\widehat{var}(\tilde{D}_{it})}$

$s_{kl} = \frac{n_k n_l (\bar{D}_k - \bar{D}_l)(1 - (\bar{D}_k - \bar{D}_l))}{\widehat{var}(\tilde{D}_{it})}$

ここで、 $n_k$ は群 $k$ のサンプルサイズ、 $\bar{D}_k$ は群 $k$ の処置期間の割合、 $\widehat{var}(\tilde{D}_{it})$ は処置変数の分散の推定値です。

次に、 $\mu_{kl}$ は、群 $k$ と群 $l$ の処置タイミングによって決まる定数です。具体的には、以下のように定義されます。

$\mu_{kl} = \frac{1 - \bar{D}_k}{1 - (\bar{D}_k - \bar{D}_l)}$

ここで、 $\bar{D}_k$ は群 $k$ の処置期間の割合、 $\bar{D}_l$ は群 $l$ の処置期間の割合を表します。

$\mu_{kl}$ は、群 $k$ と群 $l$ の処置タイミングの差異を反映しています。例えば、群 $k$ が早期に処置を受け、群 $l$ が後期に処置を受ける場合、 $\mu_{kl}$ は大きな値になります。逆に、群 $k$ と群 $l$ の処置タイミングが近い場合、 $\mu_{kl}$ は小さな値になります。

　　
次は、

$\sum_{k \neq j} \sum_{l > k} s_{kl} [\mu_{kl} \hat{\beta}^{2x2,k}_{kl} + (1-\mu_{kl}) \hat{\beta}^{2x2,l}_{kl}]$

についてです。

この部分は、処置群 $k$ と対照群 $l$ の比較から得られる2群間・2時点のDIDの推定量を、それぞれの重み $s_{kl}$ と $\mu_{kl}$ を用いて加重平均していることを表しています。

- $\hat{\beta}^{2x2,k}_{kl}$ は、処置群 $k$ と対照群 $l$ の比較から得られる2群間・2時点のDIDの推定量のうち、群 $l$ が処置を受ける前の期間のみを使って推定されたものです。

- $\hat{\beta}^{2x2,l}_{kl}$ は、処置群 $l$ と対照群 $k$ の比較から得られる2群間・2時点のDIDの推定量のうち、群 $k$ が既に処置を受けた後の期間のみを使って推定されたものです。

これらの推定量は、 $\mu_{kl}$ と $1-\mu_{kl}$ によって重み付けされています。これは、群 $k$ と群 $l$ の処置タイミングの差異を反映しています。群 $k$ が早期に処置を受ける場合、 $\mu_{kl}$ は大きな値になり、 $\hat{\beta}^{2x2,k}_{kl}$ により大きな重みが与えられます。逆に、群 $l$ が早期に処置を受ける場合、 $1-\mu_{kl}$ は大きな値になり、 $\hat{\beta}^{2x2,l}_{kl}$ により大きな重みが与えられます。

VWATT

VWATTは、Variance-Weighted Average Treatment Effect on the Treated（分散加重処置群平均処置効果）の略です。これは、一般化されたDIDの推定量のうち、処置効果を表す部分に相当します。

分解定理によると、一般化されたDIDの推定量 $\hat{\beta}_{DID}$ は、以下のように分解できます。

$\hat{\beta}_{DID} = VWATT + VWCT + \Delta ATT$

ここで、 $VWATT$ は以下のように定義されます。

$VWATT \equiv \sum_{k \neq j} s_{kj} ATT_k(POST(k)) + \sum_{k \neq l} \sum_{l > k} s_{kl} [\mu_{kl} ATT_k(MID(k,l)) + (1-\mu_{kl}) ATT_l(POST(l))$ ]

- $ATT_k(POST(k))$ は、処置群 $k$ の処置後の期間における平均処置効果を表します。

- $ATT_k(MID(k,l))$ は、処置群 $k$ の、対照群 $l$ が処置を受ける前の期間における平均処置効果を表します。

- $ATT_l(POST(l))$ は、処置群 $l$ の処置後の期間における平均処置効果を表します。

- $s_{kj}$ は、処置群 $k$ と未処置群 $j$ の比較から得られる2群間・2時点のDIDの重みを表します。

- $s_{kl}$ は、処置群 $k$ と対照群 $l$ の比較から得られる2群間・2時点のDIDの重みを表します。

- $\mu_{kl}$ は、処置群 $k$ と対照群 $l$ の処置タイミングの差異を反映する定数です。

VWATTは、各処置群の平均処置効果を、その群が処置群または対照群として用いられる際の重み $\sigma_{kj}$ および $\sigma_{kl}$ で加重平均したものとなります。

この重み付けにより、VWATTは各処置群の処置効果を、その群のサンプルサイズと処置変数の分散に基づいて集約したものとなります。これは、一般化されたDIDの推定量が、各処置群の処置効果を効率的に集約していることを意味しています。

ただし、VWATTは処置効果の heterogeneity（異質性）が存在する場合、必ずしも処置群全体の平均処置効果を表すわけではありません。VWATTは、各処置群の処置効果を、その群の重要度に応じて加重平均したものであり、処置効果の heterogeneity が重要度と相関を持つ場合、VWATTはその影響を受けます。

一般化されたDIDの識別条件

一般化されたDIDの識別条件は、分散で重み付けされた共通トレンド(Variance-Weighted Common Trends: VWCT)と呼ばれ、以下のように表されます。

$\sum_{k \neq j} \Delta(Y^0)_k [w^T_k - w^C_k] - \sum_{k \neq j} \Delta(Y^0)_j s_{kj} = 0$

この条件は、処置群と未処置群・対照群の間で、処置を受けなかった場合の時間変化（トレンド）が並行である必要があることを意味しています。ただし、各群のトレンドが完全に同一である必要はなく、重みを考慮した上で並行であれば十分です。

- $\Delta(Y^0)_k$ は、処置群 $k$ が処置を受けなかった場合の時間変化（トレンド）を表します。

- $w^T_k$ は、処置群 $k$ が処置群として用いられる際の重みの合計を表します。具体的には、処置群 $k$ と未処置群・対照群との比較から得られる2群間・2時点のDIDの重み $s_{kj}$ と、処置群 $k$ と他の処置群 $l$ との比較から得られる2群間・2時点のDIDの重み $s_{kl}$ の合計です。

$w^T_k = s_{kj} + \sum_{l=1}^{k-1} s_{lk}(1-\mu_{lk}) + \sum_{l=k+1}^{K} s_{kl} \mu_{kl}$

- $w^C_k$ は、処置群 $k$ が対照群として用いられる際の重みの合計を表します。具体的には、処置群 $k$ より前に処置を受けた群 $l$ と処置群 $k$ との比較から得られる2群間・2時点のDIDの重み $s_{lk}$ の合計です。

$w^C_k = \sum_{l=1}^{k-1} s_{lk} \mu_{lk}$

- $\Delta(Y^0)_j$ は、未処置群 $j\$ の時間変化（トレンド）を表します。

- $s_{kj}$ は、処置群 $k$ と未処置群 $j$ の比較から得られる2群間・2時点のDIDの重みを表します。

- $\sum_{k \neq j} \Delta(Y^0)_j s_{kj}$ は、未処置群 $j$ のトレンドに、処置群 $k$ と未処置群 $j$ の比較から得られる重み $s_{kj}$ を乗じて合計したものです。

　　
VWCTは、各処置群について、その群が処置群として用いられる際の重み付けされたトレンドと、対照群として用いられる際の重み付けされたトレンドの差が、未処置群のトレンドと等しくなることを要求しています。

この条件が満たされない場合、一般化されたDIDの推定量にはバイアスが生じます。バイアスの大きさは、各群のトレンドの差異と、その群の重みによって決まります。

以上が、一般化されたDIDの識別条件についての詳細な説明になります。この条件は、DIDの基本的な仮定である「並行トレンドの仮定」を、処置のタイミングが異なる状況に拡張したものと言えます。

処置効果の時間変化によるバイアス

処置効果が時間的に変化する場合、既に処置を受けた群を対照群として使うと、DIDの推定量にバイアスが生じます。このバイアスは以下のように表されます。

$plim_{N \to \infty} \hat{\beta}_{DID} = \beta_{DID} = VWATT + VWCT + \Delta ATT$

ここで、 $\hat{\beta}_{DID}$ はDIDの推定量、 $\beta_{DID}$ はDIDの真の値、 $VWATT$ は分散で重み付けされた処置群の平均処置効果(Variance-Weighted Average Treatment Effect on the Treated)、 $VWCT$ は分散で重み付けされた共通トレンド(Variance-Weighted Common Trends)、 $\Delta ATT$ は処置効果の時間変化によるバイアス項です。

$\Delta ATT$ は以下のように定義されます。

$\Delta ATT \equiv \sum_{k \neq j} \sum_{l > k} \sigma_{kl} (1-\mu_{kl}) [ATT_k (POST(l)) - ATT_k (MID(k,l))$ ]

- $\sigma_{kl}$ は、処置群 $k$ と対照群 $l$ の比較から得られる2群間・2時点のDIDの重みを表します。

- $\mu_{kl}$ は、処置群 $k$ と対照群 $l$ の処置タイミングの差異を反映する定数です。

- $ATT_k(POST(l))$ は、処置群 $k$ の、対照群 $l$ が処置を受けた後の期間における平均処置効果を表します。

- $ATT_k(MID(k,l))$ は、処置群 $k$ の、対照群 $l$ が処置を受ける前の期間における平均処置効果を表します。

つまり、 $\Delta ATT$ は、処置群 $k$ の処置効果が時間とともに変化する場合に生じるバイアスを表しています。このバイアスは、処置群 $k$ と対照群 $l$ の処置タイミングの差異 $(1-\mu_{kl})$ と、処置群 $k$ の処置効果の時間変化 $[ATT_k(POST(l)) - ATT_k(MID(k,l))$ ]に依存します。

処置効果が時間的に一定である場合、 $ATT_k(POST(l)) = ATT_k(MID(k,l))$ となるため、 $\Delta ATT = 0$ となり、バイアスは生じません。しかし、処置効果が時間とともに変化する場合、 $\Delta ATT \neq 0$ となり、DIDの推定量にバイアスが生じます。

　　
このバイアスは、既に処置を受けた群を対照群として使う際に生じます。バイアスの大きさは、処置効果の時間変化が大きいほど、また、処置群と対照群の処置タイミングの差異が大きいほど、大きくなります。

したがって、処置効果が時間的に変化する可能性がある場合、既に処置を受けた群を対照群として使うことは適切ではありません。このような場合、イベントスタディ等の代替的な手法を用いて、処置効果の時間変化を考慮した分析を行う必要があります。

分解定理の応用

分解定理は、DIDの仮定のテストや頑健性の確認に応用できる。 - 各2群間・2時点間のDIDの推定量とその重みをプロットすることで、識別に寄与する変動の源泉が明らかになる - 共変量のバランスを重み付けして検定することで、VWCTの成立をテストできる - モデルの変更による推定量の変化を、2群間・2時点のDIDの変化と重みの変化に分解できる

最後に

最近DID関連を勉強しており、面白い方法だなと思ったので、紹介させていただきました。正直論文の理解も浅く、間違っている箇所が多々あるような気がしていますが、今回読んだものは話半分程度に思っていただいて、詳しいことはURLを載せている論文の方を読みに行っていただければと思います。論文読むのが億劫という方は、今回みたいな方法もあるんだな程度に思っていただけると幸いです。何度も言いますが、これが正しいとは決して思わないでください。私は初心者なので...

tomtom58’s blog

変動効果のあるDID推定(論文を読んだアウトプット)

最初に