因果推論の科学 「なぜ?」の問いにどう答えるか (文春e-book)

▶ Amazonで見る

評価:★★★★☆ (4.3 / 5)

📢 Amazonでの購入者の声を紹介します


【1】

いま私の手元にあるこの本は米国のコンピュータ科学者によって書かれました。英語版の題名は「The Book of Why :The New Science of Cause and Effect」で2018年5月に出版されました。日本語版は2022年、昨年の9月に出版されました。題名は「因果推論の科学」です。著者の名前は米国の偉大なコンピュータ科学者ジューディア・パールです。人工知能における彼の功績のなかで有名なものがベイジアンネットワークです。この技術はメールのスパムフィルタリングや音声認識技術または航空機事故時の遺体の身元確認アルゴリズム、スマートフォンの誤り訂正アルゴリズム等に応用されています。ベイジアンネットワークは”確率伝搬”のネットワークです。人間のニューロンのようにメッセージを伝える方法で、親ノードから子ノードに流れる場合は、条件付き確率を利用して信念を更新します。反対にメッセージが子ノードから親ノードに流れた場合は、尤度比を掛けて信念を更新します。ベイジアンネットワークのリンクには3つのジャンクションがあります① A⇨B⇨C このジャンクションは「チェーン(連鎖)」と呼びます。② A⇦B⇨C このジャンクションは「フォーク(分岐)と呼びます。③ A⇨B⇦C このジャンクションは「コライダー(合流)」と呼びます。ここでベイズ推定をおさらいすると、Xの下でのYの確率はP(Y ⎸X)の事後確率 = 尤度比(オッズ比)× P(Y ⎸X)の事前確率で求められます。尤度比はP(X ⎸Y)÷ P(X)で求められ、P(X ⎸Y)を逆確率とも呼びます。ジューディア・パールはベイズ推定(本ではベイズルールと記述)をさまざまな意味で科学的手法の精髄と言えると述べています。そして科学的手法は次のような段階で行われると述べています。①仮説を立てる②仮説の検証可能な結果を推定する③実験を行い、証拠を集める④証拠に基づき仮説に対する考え方を更新するベイズ推定は現実世界で④の段階をいかに実施すればよいかを教えてくれるものと述べています。ベイズ統計学は統計学の歴史では長い間、異端とされていました。それはベイズ推定の出発点が、そもそも個人の主観的な信念だからという理由からです。ただし「事前の信念+新しい証拠➝改訂された信念」はビッグデータの時代に入ると、事前の信念の影響はほぼ消えて、最終的に客観的な結論を導いてくれるようになり、ベイズ統計学はいまや統計学の主流となりつつあります。ピアソンやフィッシャーによって築かれた従来の統計学はベイズ統計学を無視するとともに、因果関係も無視してきました。因果関係は相関関係の一部であると見て、数学的に扱う困難さの故につい最近まで無視し続けてきたのです。従来の統計学は相関関係を基にしながら、データの「縮約」の方向に向かいました。そして現在は「構造方程式モデリング」という形の到達点にあります。この150年近い統計学の歴史はいまでも多くの研究者に因果関係を軽んじる風潮を残しています。ジューディア・パールはベイジアンネットワークは因果関係と確率を結びつける必須ツールであると述べています。そして次世代の”強いAI”開発のためには、さらに因果関係を人工知能に実装できる、言い換えると因果関係を数学的言語で表現できる研究へと約30年前に移行していきました。「因果計算法」は2つのツールより成り立っています。「因果ダイアグラム」と「記号言語」です。とくにdo演算子が重要です。パールは因果関係を3つの段階に分けて考えています。見ること、行動すること、そして想像することの3つです。③反事実②介入①関連付けこの3つのはしごを①②③の順に下から昇ることで、因果関係は認知されると述べています。因果ダイアグラムは原因、交絡因子、媒介因子、結果を矢印で図示するグラフィックです。もともとはパス解析の創始者ジュアール・ライトのモルモット毛色に関する遺伝研究から発しています。未知の量を知りたいときに、すでにわかっていること、他の量の関係を数学的な方程式で表現します。パス図から主成分分析や因子分析を行い、パス係数を算出する手法が現在、パス解析法として知られています。ライトは、相関関係についての知識と因果関係の知識を組み合わせれば、ある程度有用な結果が得られるのではないかと考えました。因果関係を考える場合、交絡因子を除去することが大事になってきます。交絡はわたしたちが推定したいもの(因果効果)と統計学的手法で実際に推定しているものとの間の「不一致」です。P(Y⎸X) ≠ P(Y⎹do (X))と定義されます。do演算子は、Xに向かうすべての矢印を消します。それによって、Xについての情報が非因果的方向に流れるのを防ぎます。XとYの交絡は、そのバックドア経路をすべてブロックすれば解消されます。これが「バックドア調整」です。なぜならそうした経路がXとYの疑似相関を容認するためです。バックドア経路を解消するためにdo演算子のない確率で表現する手法に「フロントドア調整」があります。ここでは観察の合意しかないことでdo演算子のない式に変換できるとパールは述べています。それがエスティマンド(レシピ)だと・・う〜ん、やや恣意的ですが、構造方程式モデリング(SEM)でも、重要なものはドメイン知識であると言われています。次の記述にパールの本音が滲み出ています。>実のところ、因果ダイアグラムの良いところは、それを作った人間が何を前提に思考しているかが可視化されることではないかと思う。こうして交絡解消のための調整を十分にしたあとに残った相関関係は真の因果関係だとみなせると述べています。次に媒介因子ですが、因果関係の背後にある「総合効果」「直接効果(媒介因子を介さない効果)」「間接効果(媒介因子を介した効果)」という3種類の効果を見分ける必要があります。それについてパールは「媒介式」という考えを提案しています。後段でパールは自分はニート(きちんとした人)でスクラフィー(適当な人)ではないと、そのため現在の機械学習がディープラーニング隆盛である流れは、自分と距離があると認めています。そして未来に”強いAI”が健全な正義を持って、人類の素晴らしいパートナーになるだろうと展望しています。私にはやや理想論的すぎに聞こえます。パールがベイジアンネットワークから因果関係の研究に舵を切った10年くらい後に、機能性MRIを駆使した研究でカール・フリストンは脳の”自由エネルギー原理”を提唱しました。計算能力は人工知能に負けますが、人間の脳は予測マシーンとして無意識的あるいは意識的に潜在能力を秘めています。ブレイン・テックを活用する時代もそこまで来ています。残念ながら、私の率直な感想ではパールの考えている因果計算法が主流になるとは思えません。因果関係をAIに実装するために、脳機能の解明を中心にした包括的なアプローチで進むような気がしています。


【2】

こんなすごい本があるのか! 雑書を読む時間があれば、本書を何日かけても熟読すべきである。頭がすっきりと整理される、これが読後の第一の感想である。


【3】

因果推論の詳細というよりは、因果推論の歴史的な経緯と今後の想定される流れが記載されています。細かい相関関係、因果関係の手法(統計的な)については他書を参照された方が良いかと思います。前半は興味深い内容ですが、本自体が長いので、後半は少し冗長になるかなという印象です。


【4】

読むのがたいへんでした。内容はもっともなのですが、実際に使えるかどうかよくわかりません。


【5】

統計的データを集積してなにが導き出し得るか、「なぜ?」(=因果関係)の問いにどうしたら答えられるか、というのがこの書の問題意識の起点である。「因果関係」とは、原因と結果を結びつける関係のことである。その結びつきが確率で表される場合であっても、あくまでもそれは因果関係の確率であって、因果関係そのものを直接疑う場合を含まない。17世紀に「確率論」が発生し、統計学が発展したが、それは因果関係を導くことに失敗し、「因果的な問いは科学的でなく、統計学では扱うべきでない」と因果関係を除外して、そのまま現在まで発展してきた。統計学では、データから「相関関係」が導出できる。かつては「因果関係は相関関係の一部である」との主張もあったが、実は相関関係だけからでは因果関係は導けないのである。これは、現在の多くの分野、とくにメディアを通じて報じられる社会問題にかかわる多くの「科学的根拠データ」の脆弱性に関与している。1980年代になって、著者のパールをはじめとする研究者たちによって「因果計算法」が①因果ダイヤグラムと②記号言語による数式、によって確立してきて、データから因果関係(=なぜ? への回答)が可能となった。これは「因果革命」と言い得る大きな前進であった。因果関係の導出は、データの計算だけではできない。因果関係の解明のためには、3つの段階を登らねばならない。(第一段階)である、データを計算して得られるもの(「相関関係」を含む)は、あくまで「観察」の結果であり、「環境の理解」にとどまる。(第二段階)として「介入」を導入することで、「もし~したら、どうなるのか」を得る。介入とは、環境を意図的に変化させるために行動することであり、これは実験で実行できる。(第三段階)として、「もし~しなかったら、どうなっていたのか」という反事実の問いにより、現実世界と矛盾する別の世界を想像する能力が、人間らしい判断を導く。これは実験で実行できない。データから確率を計算する(第一段階)では、「疑似相関」をもたらす交絡因子を除去できず、正しい因果関係は導けない。交絡因子を的確に除去するには、因果ダイヤグラムが必須である。因果ダイヤグラムは、1920年ころシューアル・ライトによって「パス・ダイヤグラム」として発明されていた。データから求めたい目標(たとえばモルモットの遺伝機構)に関わる科学的・専門的思考にもとづく想定される因果関係、すなわち「あり得べきデータ間の構造」を事前に想定し、それをダイヤグラムとして表現する。そこから必要なデータを抽出し、計画的にデータを求めて、データ相互間の関係構造を理解(想定)したうえで確率を計算する。ダイヤグラムからは、交絡関係を適確に抽出できるので、数学的にその交絡関係の除去を行えば、正しい因果関係を求めることができる。データのルーチン的計算だけでなく、データが創られるプロセス、およびデータの意味の解釈が必須であるとライトは考えた。ところが1910年ころから、ピアソンをはじめとする統計学の主流派(権威たち)は、データそのものに真実のすべてがあるはずで、データから算出された確率が示す相関関係のみが純粋な科学的推論である、と主張して、ライトの業績が完全に無視されたまま1980年代まで60年余りが過ぎてしまった。統計学の範囲内では、「結果」から「原因」を推定(計算)する手段として、18世紀半ばにトーマス・ベイズが発見した「ベイズの定理」にもとづくベイジアン・ネットワークがある。これは、たとえばPCR検査のほんとうの検出能力を、PCR検査の感度と特異度から正確に計算することができ、想定罹患率が低いときには間違いが多いこと、したがつて発熱外来を訪れた患者など想定罹患率が高いヒトに対してのみ検査することが罹患発生を高い確度で検出できることが計算できる。要するに、PCR検査はスクリーニング検査でなく、治療のための臨床検査に利用すべきことがわかるのである。それでも、あくまで(第一段階)を超えるものではなく、因果関係の立証にはいたらない。(第二段階)に至るには、do演算子という手段で「介入」操作、すなわち処理変数(原因候補)に影響を与えるすべての因子を除き(そのデータを集めて、その値ごとに場合を分ける、あるいは他の方法でその影響を止めるなど)そのうえで実験データを確保する。これは、因果ダイヤグラムがあれば的確に抽出・処理できる。この具体的な数学的手法についても、この書でかなり詳しく説明されている。なお、フィッシャーが発明した「ランダム化比較試験」(日本では田口玄一『実験計画法』として有名)は、ルーチンワークで交絡要因を除去できる統計学的手段であるが、多くの場合大量のデータを要するということ、またたとえばヒトに不都合な条件(なんかの危険をともないかねない、など)を意図的に割り付けた実験は倫理的に実施できない、などの実際的な問題がある。(第三段階)に至るためには、「反事実」への想像力、つまり「こうであったかも知れない世界」の想像が必要となる。これはきわめて人間の思考らしい部分であり、実験ではデータの収集ができないが、これがなければ人間同士、あるいは人間とAIとのコミュニケーションができない要素である。さらにこの要因は、因果関係の背後に隠された「仕組み」に関わるものであり、原因と結果の間に介在する「媒介」要因を形成する概念でもある。この段階をクリアすることで、人間としての常識的な判断に寄り沿う結果、また集合でなく個人(あるいは個体)に遡っての説得性の高い推定結果の提示が可能となる。したがって「強いAI」の実現のためには、必須の要素だと考えられている。著者は、コンピュータ科学と哲学を専門とする研究者であり、統計学からベイジアン・ネットワークの開発を経て、統計学では「結果」と「原因」との明確な関係、すなわち「因果関係」を導出することが不可能であることを見極め、60年も前に発見されながら無視されてきた因果ネットワークに注目して、長らく統計学を牽引してきた主流派に正面から対抗する立場となり、最近はビッグデータを批判的に継承・発展させる方向で人間的な「強いAI」の研究に従事しているという。専門家向けではなく、一般読者向けを意識してわかり易い説明を指向していることはよく理解できるが、それでも特殊な数学的表現もあって、読み進めて理解することは簡単ではない。理解すべき範囲まですべてが理解できたとは言えないが、統計学や数理推計学の研究者の間に、かなりの規模の論争や対立があったこと、やはり統計学や推計学も、扱う対象がまったく別の専門的な分野を扱うときは、計画のはじめから当該分野の専門家の参画が必須であり、データから真実を導くことがいかに容易なことではないか、ということが具体的にわかったように思う。


【6】

因果推論の現在と課題がわかる本ですこの因果推論を機械に任せたときの精度というのが、今のAIの精度なんだろうなと思いました骨太の本ですが、AIに興味があればぜひ


【7】

良書。ただ、ColliderについてPearlの持論が前面に押し出されすぎているから、そこは適宜スルーして読むと読みやすい。


【8】

データを通して相関関係は見えてくるものの、因果関係の判断はそう簡単ではありません。たとえば、喫煙と肺がんリスクの関係を考えてみましょう。これらの間に相関関係があったとしても、食生活や運動習慣など他の要素も影響している可能性があるため、因果関係を示すことは困難です。このような困難な問題を解き明かすのが、本書の目的です。本書では、因果ダイヤグラムを使って、シンプルに因果関係を表現します。このアプローチは、科学的な側面と文化的な側面を合わせ持つと言えそうです。また、モンティ・ホール問題という確率問題について、因果ダイヤグラムを使ってその因果関係を解析します。この問題が直感的に理解しにくいのは、「コライダー(合流点)のジレンマ」という現象に起因していることを明らかにします。本書を読むことで、難解な問題をシンプルに、そして直感的に理解する手助けをしてくれるでしょう。


▶ Amazonで見る

※この記事は 2025年7月2日 時点の情報です

Xでフォローしよう

おすすめの記事