1年間続けてきたこの連載も、今回で最終回です。この連載では、疫学の教科書ではあまり大きく取り上げられないような、それでいて、臨床医学に関する情報を取り扱う上で、有用だと思われる内容を筆者の独断と偏見で取り上げ記事にしてきました。
この疫学入門では、これまでランダム化比較試験(第1回)、症例対照研究(第2回)、コホート研究(第5回)という3つの疫学的研究をご紹介しました。医療介入の影響を検討する疫学的研究デザインはほぼこの3つの集約されると言っても良いでしょう。このほか、臨床学論文で良く目にするのはメタ分析という手法ですが、これは複数の疫学的研究を集め、統合解析するというものです。単一の研究としては上記、3つの研究デザインを理解しておけば、まずは十分だと思います。なお疫学的研究デザインをより詳しく知りたい方は(Thiese MS.2014)を読むと良いでしょう。
今回は、どんな疫学的研究が一番すぐれた研究デザインなのか、という疑問について考察していくなかで、ちょっと興味深い「バイアス」の存在についてもお話ししたいと思います。
[事例]
最も優れた疫学的研究デザインはどのようなものなのでしょうか。
[研究結果の内的妥当性と外的妥当性]
疫学的研究デザインは大きく2つに分けることができます。ランダム化比較試験に代表されるような、人為的な介入を行う研究と、コホート研究や症例対照研究に代表されるような、人為的な介入を行わず、観察的に追跡するような研究です。前者を介入研究と呼ぶのに対して後者は観察研究と呼ばれます。一般的には、観察研究から得られた結果よりもンダム化比較試験の結果を重視する傾向にあるかもしれません。
研究結果の妥当性には「内的妥当性」と「外的妥当性」という2つの妥当性があります。内的妥当性とは、介入もしくは曝露とアウトカムの関連、つまり得られた結果の因果関係がどれだけ確からしいものなのか、その程度のことです。未知の交絡因子(交絡については第5回参照)まで均等に2群に振り分けてしまうランダム化比較試験は観察研究に比べて内的妥当性に優れた研究デザインと言えるでしょう。介入とアウトカムの関連は因果関係に近しいものであると考えることができます。
しかしながらランダム化比較試験に参加できる人は、一定の組み入れ基準を満たした人です。例えば、重篤な合併症がないとか、年齢制限や過去の病歴にも厳しい基準が設けられており、そういった基準を満たした人でしか研究は行われません。これが意味するところは、特殊な集団で研究を行っているということであり、得られた結果が目の前の患者さんに一般化できるかどうか、と言う点では議論の余地が残ってしまうということです。
研究結果の一般化可能性、これを外的妥当性と呼びます。例えば、地域に在住している一般住民を対象とした大規模観察研究では、より一般化しやすい結果が得られると考えられるでしょう。綿密にデザインされた観察研究はランダム化比較試験に比べて、外的妥当性が高い、と言われることも多いです。しかしながら、あらゆる交絡の影響を完全に排除することが難しい観察研究は内的妥当性、という点においてランダム化比較試験に劣ってしまうことは否めないでしょう。観察研究においては、得られた結果をもってして、因果関係と言えるのか、そこには議論の余地が多く残されているということです。薬剤効果を知るためには因果関係をまずは示す必要があります。そのため、治療効果についてはランダム化比較試験の結果が重視されるというわけです。
[観察研究とランダム化比較試験で結果は一致するのか]
同じ疾患に対して、同じような介入を検討した観察研究とランダム化比較試験の結果に相違はあるのか、そんな研究が報告されています。(Benson K.et.al.2000)この報告によれば、領域の異なる 19 種類の治療法についての 136 件の論文を検討した結果、観察研究とランダム化比較試験で治療効果の推定値はほぼ同等であることが示されています。
また5つの臨床課題と 99 件の論文を評価し、観察研究が結果を過大評価するかどうか検討した研究によれば、綿密にデザインされたコホート、もしくは症例対照研究から得られた結果は、それと同じ臨床課題を検討したランダム化比較試験の結果と大きな差異はないという結果になっています。(Concato J.et.al.2000)
ただ、一方で観察研究とランダム化比較試験の結果は一致しない、という指摘もあります。その代表的な例がホルモン補充療法と心疾患の関連です。大規模観察研究(Stampfer M.et.al.1991)においては、閉経後女性へのホルモン補充療法が心疾患リスクを下げる、と結論されていたのに対して、その後行われたランダム化比較試験(Rossouw JE.et.al.2002)では逆に心疾患リスクが上昇傾向にあるという結果になってしまったのです。
なお、近年コホート研究などに多用される交絡への配慮として傾向スコアマッチングという手法があります。これは擬似ランダム化などと呼ばれ、観察研究における結果の内的妥当性を高める印象もありますが、傾向スコアマッチングを用いた観察研究はランダム化比較試験よりも結果を過剰評価するという報告も存在します。(Dahabreh IJ.et.al.2012)
[健康志向バイアス"healthy-user bias”]
このように観察研究とランダム化比較試験の結果に相違が生まれてしまう要因は何なのでしょうか。つまるところ、被験者の社会背景や教育水準、ライフスタイルや医学的背景の相違と言うような"交絡の影響”と一言で言ってしまうこともできるでしょう。観察研究では統計解析において、交絡補正を行いますが、それでも未知の交絡因子については補正ができず、限界があるからです。
単に交絡の影響と言ってしまうと、議論はそこで終わってしまい、なんだかモヤモヤしてしまいますが、この差異を説明するイメージしやすい概念があります。それが"healthy-user bias(もしくはhealthy user effect)”と呼ばれるものです。うまい日本語訳が無いので、本稿では健康志向バイアスと呼ぶことにしましょう。
読者コメント