因果関係が証明できてない研究や、回帰係数・説明率・効果量が弱い研究は無意味なのか？

「この研究は因果関係が証明できていない」「回帰係数・説明率・効果量が弱すぎる」といった批判は、研究紹介記事がバズったときのソーシャルメディアの反応としてつきものです。*1

同意することもあるのですがモヤることもかなり多いので、自分なりに「必ずしも無意味ではないのでは？という趣旨で思うところを書いてみました。

特に、個々の研究に向けた上記の批判は、その研究の主張の強さやデザインや目的など総合的に見て適切か不適切か判断すればいいのですが、人文・社会科学領域の計量的研究全般に対してこういう批判がなされることも結構あるように思います。

いかにも素人っぽい人がそう言ってる分には別に構わない（とも言い切れない）のですが、プロの研究者やそれに準ずる人・目指してそうな人が、そういう「主語の大きい」雑な批判をしているのを見ると、ちょっと悲しくなります。*2

もちろん因果関係が証明できてる結果や、回帰係数・説明率・効果量が強い結果の方が望ましいだろうということには基本的には同意します。ただ、コスト的な問題とか、健全な科学として踏むべきステップとか、そもそもの「意義」の捉え方とか考えていくと、相関だけの研究とか回帰係数・説明率・効果量が弱い結果が発表されることにだって意義はあると思うんです。

なおここでは先日話題になった重回帰論文で特に問題視されていたような、統計解析の利用法や解釈における明らかな誤りはクリアできているものと仮定します。*3

（以下長文）

コスト的な問題

ある問題の原因を探りたい。でも現状、何がどの程度影響してるのかはあまりよくわかっていない。なんとなく、これとこれとこれと…は関係ありそうだ、ぐらいの予想はつくけれど。こんなとき、その関係ありそうな要因すべてを組み込んでランダム化比較試験が出来れば確かに最高です。

ですが、残念ながら研究に費やせる資金は限られています。特に人文・社会科学領域の研究費なんて、理工系や医歯薬系と比べれば雀の涙ほどのものです。したがって、「中でもこれは重要そうだぞ」という要因を絞り込む必要があります。

関連して、「本当なら縦断的研究とすべき内容を横断的研究でやっている」という批判もよくある話です。が、これもやはり時間というコストの問題があります。何年もかかるような調査を片っ端からやるわけにはいきません。研究費がかさむだけでなく、協力者の負担も増えてしまいます。

しかも縦断的研究で協力者の負担を増やせばドロップアウトのリスクも増えるので、ますます多くの人に協力をお願いしなくてはなりません。結局、まずは横断的研究で「これは重要そう」という要因を絞り込むのが重要になります。

そうして意味のありそうな相関を示す要因を絞り込んだ上で、可能なら*4満を持してもっと強力な手法で因果関係を検討するのが、限られたリソースの中での順当なやり方でしょう。

健全な科学として踏むべきステップ

要するに倫理的な問題です。仮に研究に費やせる資金や時間が湯水のようにあったとしても、考え得る要因全てについて片っ端から検討するという方法にはやはり問題があります。今すぐ思いつく問題としては3点です。

1つは、単純にスポンサーが許してくれるかどうか。研究に失敗はつきものとは言っても、やはり無駄遣いは避けられるなら避けるべきです。もっともこれは景気が良ければある程度皆さん大らかになるので、比較的マイナーな問題かもしれません。

2つ目はもっと重要で、実験や調査では非研究者の人に協力を依頼するわけですが、それは非研究者の人に負担を強いることだという点に関してです。

たとえば自分が協力を依頼されたとき、「さほど重要な研究ではないな」「因果関係まではわからんな」「回帰係数・説明率・効果量も弱そうだな」と思ったとします。しかし実験や調査の協力が1～2時間程度の1回で済み、QUOカードをもらえるとします。どうでしょうか。それなら協力したってもよい、という方は多いと思います。

一方で、「これはとても重要な研究だ」「因果関係もはっきりわかる」「回帰係数・説明率・効果量も強い値が出るだろう」まで納得できたとしても、1回の実験・調査に参加するとそれだけで何日もつぶれるとか、調査票の質問が何百問もあるとか、それが何年も続くとか、参加すると死ぬかもしれないとかであれば、受け入れられるでしょうか。おそらく相当な報酬を積んでも嫌だという人が多いと思います。特に長期にわたる研究でドロップアウトが続出して打ち切りになったら、お金も時間も協力者の善意も無駄になります。たとえ高インパクトであったとしても、そんな高コスト・高リスクな研究をどんどこ進めようとするのは倫理的ではないと思います。

上のようなのは極論ですが、要するに期待される利益（個人的なものでも社会的なものでも）がコスト・リスク・負担に対して見合っているか、という点はよく考える必要があります。変な話、「そもそも介入もコントロールも難しい対象を扱う分野に、そこまで強い結果を求めるのは無理がある」と言ってもいいかもしれません（それでもやる意味とは？については後述）。

3つめは、上のような高コスト・高リスク・高負担・高インパクトな研究が仮に可能だったとしても、そういう「すごい」研究ほど追試・検証も難しいという点です。追試や検証が難しいということは、悪意ある研究者にとってはウソを混ぜるチャンスということです。

さらに進んで、ほとんど完璧で初めて認めてもらえるような環境が出来上がったなら、そこは詐欺師のつけいる隙がかえって大きい場所にもなってしまいかねません。

実際、詐欺的行為またはその疑いを理由に撤回された論文の数が多い雑誌ワースト10のランキングにはNature, Science, Cell, PNASなど並み居る有力誌が並んでいる、という記事が以前Natureに載ったことがあります。*5

論文撤回の主な理由は、詐欺的行為!? | Nature ダイジェスト | Nature Portfolio

したがって、ある程度インパクトや完璧性が犠牲になったとしても、問題を分割して、小さな1歩を着実に進めることを優先する方針は、科学の健全性を保つ・高めるために重要です。*6

そもそもの「意義」の捉え方

これは特に回帰係数・説明率・効果量の弱さに関する批判について思うことです。偏見ですが、この「弱さ」への批判は情報学や数学・物理学界隈の人からよく聞く印象があります。

確かにAIや物理モデルを用いた分類・予測で要求される精度と比べれば、人文・社会科学領域での予測・説明の精度や差が「ええんかそれで」となるのは否めません。

ただ、必ずしも「弱い＝ダメ」なわけではないと言いたくなる理由が2つあります。

1つはやや言い訳がましいですが、多くの要因をコントロールできる分野と、人間や社会というコントロールしようのない部分の多い対象を相手にする分野とを一緒にしないでくれということです。

「コントロールしきれてないのに科学とかwww」と言われたらそれもその通りですが、その弱点を理解しているからこそイントロやディスカッションを長々と書いて、ロジックを補強したり、論点を限定したり、結果の限界をあえて自ら明らかにしたりしてるんです。*7

それに自然科学とて大昔は今ほど精密な実験系や計測システムは作れなかったはずで、もっと遡れば運動方程式や数学が不十分だった時代だってあります。それでもその時代の科学者達は、その時代なりの精度ややり方でできるだけ議論を尽くそうとしていたはずです。そして天動説とか錬金術とかエーテルとか、あまたの理論が淘汰された上での今なわけです。

人文・社会科学だって今の情報学や自然科学並の強さを将来持つようになる、とまでは思いませんが、厳しい制約の中でもなんとか対象への理解を進めたいという営み自体を否定するような批判は、将来自分に跳ね返ってくると思います（生きてるうちは大丈夫かもしれませんが）。

もう1つはもっと卑近な論点で、ケースレベルの予測・改善までは出来なくてもマス（大局）レベルで効果が出るなら十分なことだってあるよね、という話です。

そういうことの典型例を1つ挙げるとすれば、教育かなと思います。全員が全科目の知識技能を将来使うわけではもちろんない。それでもできるだけ多くの人に種を蒔いて底上げができれば、かなり色々マシになると期待される。だからこそ教育が重要と考えられているのだと思います（でなければ「○○は義務教育で教えるべき」とかいう冗談（？）は流行らないはず）。

そういう例は理系にもあり、たとえば感染症のワクチンや生活習慣病予防の健康行動だってその典型例のはずです。打ったって・やったって病気になるときはなる。それでも全体として患者数が減ったり重症化しにくくなったりすれば、医療崩壊のリスクも社会保障費も減ります。

上記の例は介入効果まで踏み込んでますが、そこまで行かない社会調査だけの研究にも、「コストの問題」で述べた要因の絞り込みという意義があります。つまり、最悪のケースを少しでも減らせる方法を考えるヒントにはなりえます。

役に立たせようという意図がなさそうな研究であっても、人間や社会の振る舞いについて理解・納得するための仮説を「当てはまり度がどの程度強そうか」「例外になるのはどういうケースか」「何が交絡要因になるのか」といった情報や考察とともに提示すること自体が完全に無意味とは思えません。たとえば創作のことを考えたら、ほとんど何でも活かそうと思えば活かせる気がします（結果の仮説に従うにせよ、反例に着目するにせよ）*8。

というわけで

因果関係が証明できてなかったり、回帰係数・説明率・効果量が弱いからといってただちに無意味とは限らんでしょ、というぼやきでした。

まとめると、

コスト：本格的な因果関係の検証の前に、それに値する要因を絞り込みたい
健全性：リソースを無駄遣いするわけにいかない、非研究者に協力してもらう必要があるのでなんでもかんでもはやれない、一段落したところで発表して検証のまな板に乗せた方が健全
意義の捉え方：ケースでの効果が不確かでもマスで効果が確認できれば十分な問題もある

といったところでしょうか。もちろん上で述べたような論点全てについて考慮してもダメダメで、なんでこれで出版に至ったんだ、って研究だって中にはあると思います。

それでも因果関係とか回帰係数・説明率・効果量みたいなわかりやすく表に出てくる弱点ばかりつついての十把一絡げな「人文・社会科学はダメだ」という雑な批判をたびたび目にすると、一種の冗談で言ってるだけかもしれないと思ってても、「理系のロジックは単純明快でよろしおすなあ」ぐらいの嫌味は言いたくなります。

とはいえ嫌味を言っても仕方ないことです。結局は科学哲学や研究倫理、あるいは研究の評価とはどのようになされるべきかといった点の理解や教育、合意形成が不十分という、仕組みの問題ともつながってるんだろうなとも思います（私ごときの理解度で何を上から目線で、という感じではありますし、異分野間で双方納得いく合意形成が果たして可能なのかとも思いますが）。

こんなこと木っ端研究者が1人でぼやいててもそれこそ仕方ないし、なんなら生意気とか理解不足で何をえらそうにとか思われないかとまあまあ怖いのですが、文理の狭間をさまよう一研究者のお気持ちを言語化して吐露しておく価値だってゼロではないだろう。という感じで、眠れぬ夜の慰みに、webの一隅にクソ長い駄文をしたためてみた次第です。*9

*1:「『サンプル数』が少なすぎる」も定番ですが、本題から外れるのでここではスルー

*2:時には憤慨します。

*3:その仮定がすでに非現実的なんだよ！と言われてしまうと厳しいですが…

*4:どう頑張っても不可能なことが多いのも人文・社会科学のつらいところです

*5:もちろん、有力誌に載ったからこそ検証される機会も多いという事情もあるでしょうけど。

*6:もちろん細かく分けすぎるのも、読者が情報を統合する手間や査読者の手間を増やすことになるという点で問題ですが　cf. サラミ論文

*7:プレスリリースなんかでもそのあたりもっと触れた方が誠実だと思うのですが、敢えてそうしないのは人文・社会科学だけの問題ではないと思います

*8:それで面白い話が書けるかは別問題だし、差別や偏見を助長するような内容になったらかえって悪いし、「役に立つ」に強引に帰着させるようで自分で言ってて癪に障る主張だなとも思いますけど

*9:さすがにその後寝てクリアになった頭で多少の塩抜きはした

らくがきちょう

文字数制限の無いTwitter的な

因果関係が証明できてない研究や、回帰係数・説明率・効果量が弱い研究は無意味なのか？

コスト的な問題

健全な科学として踏むべきステップ

そもそもの「意義」の捉え方

というわけで