書評『効果検証入門』

August 20, 2020 | 8 min read | 1,996 views

はじめに

『効果検証入門正しい比較のための因果推論／計量経済学の基礎』（安井翔太著株式会社ホクソエム監修，技術評論社，2020年）を読んだので，まとめと感想を書きます．

まず，タイトルに含まれる「効果検証」や「因果推論」といった用語には説明が必要かもしれない（私が学部生だった頃は知らなかった）ので，まえがきの例を借りて簡単に説明します．例えば，学費の高いA大学と安いB大学の「教育効果」を比較したいとします．便宜上「教育効果」を「卒業後の収入」で測定することにして，両大学の卒業生の平均収入を比較しましょう．もしA大学の卒業生の収入が高かったとしても，「A大学の教育効果が高い」と結論づけるのは早計です．なぜなら，学費の高いA大学の卒業生は入学前からそれなりの資産を持っていた可能性が高く，そのことが卒業生の収入を押し上げる要因となり得るからです．すなわち，いずれかの大学の卒業生の収入が高かったからといって，それが大学の教育によるものだという「因果関係」を説明することはできないということです．

上記の例は少し考えれば当たり前のことですが，世の中には因果関係を誤認している例が蔓延しています．「〇〇をしたら病気が治った」「〇〇政権で景気が良くなった」「〇〇をしたら売上が上がった」などは，どれもその事実だけから因果関係，すなわち「〇〇」の効果を検証することはできません．その根本的な問題は，もし「〇〇」でなかった場合の結果，すなわち反実仮想 (counterfactual) を知ることができないということにあります．

とはいえ，このような効果はどうしても知りたくなることがありますよね（特に，薬効の検証は生命に関わります）．このような薬や政策，広告などの効果を検証する営みを「効果検証」と呼び，そのために因果関係を推定する方法論を考える学問分野を「因果推論」と呼びます．

因果推論は歴史的に疫学の分野で発展してきましたが，近年ではデジタルマーケティングやデータサイエンスの流行により，広告やマーケティングの文脈でABテストを始めとする因果推論のアイディアが使われるケースが急増しているようです．一方，因果推論を学ぶための教材はその流行に追いついていない印象で，私自身も，かつてHernán & Robinsの『Causal Inference: What If』を苦労しながら読んだ経験があります（文字ばかりで読みづらかったです）．

そのような中で2020年1月31日に刊行されたのが『効果検証入門』です．著者はサイバーエージェントの安井翔太氏で，経済学と機械学習の融合分野の第一線で活躍されている方です．本書は発売されるやいなや，界隈から待ってましたと言わんばかりの反応を持って迎えられていました．著名なデータサイエンティストであるTJO氏のブログをはじめ，書評はネット上に多数見ることができます．

まとめ+α

本書は，ビジネスへの応用を前提として，因果推論や計量経済学で使われる有用なアイディアを紹介する入門書です．数式は出てきますが，読むにあたって回帰分析など統計の基礎以上の高度な知識は必要ありません（Amazonに数式が難しいというレビューがありますが，分野の慣習によりやや癖のある記法を使っているのは確かに馴染みづらいです）．また，全ての章にはRを使った分析例が付いており，応用の面でも非常に親切です．ソースコードはこちらにあります．

扱う範囲はDonald Rubin流の因果推論と計量経済学の基礎的な手法で，キーワードで言うと平均因果効果，ランダム化比較試験，傾向スコア，差分の差分法，回帰不連続デザインあたりです．Judea Pearl流の因果推論に含まれるDAG (directed acyclic graph) などの概念や，Uplift Modelingを始めとするITE (individual treatment effect) は扱っていません．

1章セレクションバイアスとRCT

1章ではまず，「はじめに」で出した例のどこに問題があるのかを，セレクションバイアスという概念を使って説明します．その後，無作為な介入によってセレクションバイアスを取り除いた平均因果効果 (ATE; average treatment effect) を求める理想的な効果検証の方法であるランダム化比較試験 (RCT; randomized controlled trial) （文脈によってはABテストとも）を紹介します．ABテストはエンジニアの方にとって馴染み深いものだと思いますが，病気に苦しんでいる患者に出す薬や，国民全員が対象となる政策などの効果検証にABテストを用いることはできません．したがって，以降では，RCT（ABテスト）によらずバイアスに対処するための方法を考えていくことになります．

2章介入効果を測るための回帰分析

2章では，共変量 (covariate) からアウトカム (outcome) を説明する回帰モデルを作り，その係数によって因果効果を推定する方法を紹介します．

3章傾向スコアを用いた分析

傾向スコア (propensity score) とは，各サンプルが介入を受ける確率のことで，例えば「東京都在住20代男性ならこのクーポンが配られる確率が $x$ %」のように計算されます．3章では，RCTになっていない実験のデータから，同じ傾向スコアのサンプル同士の比較によりATEを推定する傾向スコアマッチングを紹介します．また，傾向スコアの逆数を重みとしてATEの推定に利用する逆確率重み付け (IPW; inverse probability weighting) も紹介します．

4章差分の差分法 (DID)とCausalImpact

差分の差分法 (DID; difference in difference) は，介入の前後で指標が変化したかどうかを調べるための方法です．コンビニのある店舗Aで値下げキャンペーンを行ったとしましょう．このキャンペーンの効果を検証するには，キャンペーン前後の売上を比較するだけでは足りません．キャンペーンと無関係な季節性の変動などの影響を排除できないからです．DIDは，この売上の増加率を，介入した店舗Aと非介入の店舗Bで比較するというアイディアです．直感的にもわかりやすい考え方ですが，並行トレンド仮定を置いていることには注意が必要です．DIDの拡張であるCausalImpactも紹介しています．

5章回帰不連続デザイン (RDD)

実際の現場では，介入が（確率的ではなく）決定的に行われることも多く，そのような場合は傾向スコアを使った分析ができません．例えば，世帯収入が $x$ 円以下の世帯に一律で $y$ 円を支給する政策を行ったとしましょう．このとき，介入群が介入を受ける確率は常に100%*，非介入群が介入を受ける確率は常に0%となり，傾向スコアマッチングやIPWは使えません．また，両群は本質的に異なるので並行トレンド仮定を満たせず，DIDも使えません．このようなときに，介入するかどうかを決定する閾値 $x$ 付近のサンプルはほぼ同質であるとして，その部分において小規模なRCTを行ったと捉えるアイディアが回帰不連続デザイン (RDD; regression discontinuity design) です．RDDは因果推論というよりも計量経済学でよく使われるようで，私は本書を読んで初めて知りました．

* 実際にはconsistencyの問題があり，単純に100%とすることはできません．

因果推論をビジネスにするために

本書はここまでで因果推論の様々な分析手法やその実装例を紹介してきましたが，本書が目的とする「ビジネスにおける正しい意思決定」を実現するのにはそれだけでは足りません．最終章では，分析手法としての因果推論とビジネスにおける意思決定のギャップを埋めるために，「施策の目的の明確化」と「手法を使えるようにするための環境整備」が重要であるとしています．前者は，手当たり次第に測定を行って都合の良い結果のみを取り上げるのではなく，経営において重要かつ測定可能な指標（KPI）を絞って，そこに焦点を当てた議論をするということです．後者は，施策を考案するときに分析者としての意見を反映させるということで，必要な情報をデータとして収集することや，施策を確率的に行うなどの制約条件を満たすことが含まれます．

関連書籍

最後に，少し趣向は変わるのですが「効果検証」に関しておもしろかった他書を紹介します．Jerry Z. Muller 著，松本裕訳の『測りすぎ――なぜパフォーマンス評価は失敗するのか？』（みすず書房，2019年）です．

この本は，近年各業界で大流行しているパフォーマンス評価（労働者や学生などに数値的な評価を与えることを指しているようですが，この文脈では効果検証に近い概念といって良いでしょう）の負の側面について歴史学者が警鐘を鳴らした本です．Peter Druckerが言ったとされる「測定できないものは改善できない」という有名な言葉がありますが，いつしかこの言葉は「測定は改善の第一歩である」「測定すれば改善できる」という誤った認識に歪められてしまった印象があります．しかし，KPIの設定やインセンティブの設計を間違えると，パフォーマンス評価はいとも簡単に失敗します．測定のコストがメリットを上回ってしまったり，組織に歪んだインセンティブを与えてしまったり，実態を反映しない数字に注目させてしまったりと，心当たりのある方も多いのではないでしょうか．

本書は各業界での失敗例を通して，パフォーマンス評価に潜むリスクや失敗させない方法を論じています．例えば，病院が手術の成功率をKPIにすると医師は難病患者を引き受けたがらなくなり，警察が検挙率をKPIにすると警察官は簡単な事件ばかり操作するようになり，企業が能力給を設定すると短期的なわかりやすい業績が過剰に評価されて長期的なリスクを軽視しがちになり，大学を数値評価してランキング化すると就職偏重の教育や論文の品質低下が引き起こされます．まさに「KPIハック」や「policy-based evidence making ¹」といった言葉で批判される事態がここにあります．このような例を見れば，単なるパフォーマンス評価ないし効果検証が解決策となるケースはむしろ珍しく，使い方を誤ると逆効果にすらなるということがよくわかります．本書の最後にはパフォーマンス評価を失敗させないためのチェックリストが付されており，測定の正確さ（SN比），投資効果，測定対象が目標と一致しているかなどに注意する必要があると結論づけています．