エビデンスレベルとは？ - アトピーのサイエンス

カモノハシさん、たいへん！
ニュースでみたんだけど、アトピーを完全に治すことができるっていう研究成果が発表されたんだって！！

シバイヌくん、それはすごいことですね！
ちなみに、それは具体的にどんな研究だったんですか？

えーっと、確かネズミを使った研究だった気がするなあ。
でも、これでもう誰もアトピーで苦しまなくてよくなるね！

なるほど、動物をつかった研究ですか。
確かに研究結果自体は面白いものかもしれませんが、エビデンスレベルは低いかもしれませんね。

ん？
エビデンスレベルって？

エビデンスレベルとは
- エビデンスレベルの分類
研究の手法とエビデンスレベル

エビデンスレベルとは

前回は、「科学的根拠に基づく医療（Evidence-Based Medicine」について説明しましたね。
ストロイド外用薬をめぐるアトピー性皮膚炎治療に関する混乱の反省から、科学的根拠（＝エビデンス）を重視した標準的な治療法の整備が進められ、その指針となるのが「ガイドライン」でした。
これを参照することで、多くの医師が「科学的根拠に基づく医療」を実践できるようになったんでしたよね。

診療ガイドラインとは？ - アトピーのサイエンス

とはいうものの、ガイドラインに記載されている治療法だからと言って、そのすべてが絶対に信頼できる治療法というわけではないんです。
ガイドラインには、記載した診療指針の根拠となる研究を複数参照し、それぞれの根拠の強さを吟味する役割もあるためです。

『アトピー性皮膚炎診療ガイドライン 2018*1』を見てもらえれば分かりますが、実はガイドラインに記載された治療法ひとつひとつについて、その根拠となった研究結果にについてどの程度信頼できるかを示す指標をアルファベットで付記されています。
このような治療法・治療薬の科学的な根拠（＝エビデンス）を支える''研究の質''のことをエビデンスレベルと言います。

エビデンスレベルの分類

それでは、『アトピー性皮膚炎診療ガイドライン 2018』におけるエビデンスレベルの分類を見てみましょう。
それぞれの治療法が、どのエビデンスレベルに分類されているかについても注目してみてください。

エビデンスレベルの分類

Ａ（高い）
結果はほぼ確実であり，今後研究が新しく行われても結果が大きく変化する可能性は少ない
例：ステロイド外用薬、プロアクティブ療法、タクロリムス軟膏、シクロスポリン内服、保湿外用剤（スキンケア）など

Ｂ（低い）
結果を支持する研究があるが十分ではないため，今後研究が行われた場合に結果が大きく変化する可能性がある
例：抗ヒスタミン薬、漢方薬、シャワー浴、ダニ抗原除去など

C（とても低い）
結果を支持する質の高い研究がない
例：せっけんを含む洗浄剤、ボビドンヨード液、ブリーチバス療法、日焼け止めなど

なるほど、Ａ（高い）、Ｂ（低い）、C（とても低い）の３つに分類されているんだね。
でも、エビデンスレベルを決める"研究の質"には、どんな基準があるの？

研究の手法とエビデンスレベル

ひとくちに"研究"と言っても、世の中には様々な"手法"があります。
エビデンスレベルの判断材料となる"研究の質"とは、これら"研究の手法"によって大きく決まると言えます。

では一般に、医学研究にはどのような"研究の手法"があるのでしょうか。
ここでは代表的な"研究の手法"について、"研究の質"が低いものから高いものへと、順番に紹介していきます。

専門家の意見

最近はテレビのバラエティ番組などで医師などがゲストとして登場し、美容や健康を増進する方法や、疾患の予防法について紹介するのを見る機会も増えて来ましたよね。
こうした例は「専門家の意見」に該当します。

専門家が説明していると、もっともらしく聞こえるかも知れませんが、その主張の論拠となる研究が参照されてないことも多く、自身の経験に基づいた情報でしかない場合もあります。

したがって、"研究の質"は極めて低いと考えられます。

症例報告

「症例報告」とは、ある疾患患者の症状や経過を詳細に記述する研究手法のことです。

例えば、チョコレートを摂取したことで皮膚炎を発症した患者について、その年齢・性別・居住地などの属性や、摂取した食物の量、摂取してから症状が現れるまでの時間、具体的な皮膚炎の様子、行った治療の内容、症状の経過などを、事細かに記述し、これを学会や論文に発表した場合、これは「症例報告」に該当します。

通常は１人や数人の患者に対して行わえる「症例報告」ですが、患者に対して行った治療の効果を、治療前と治療後で比較することで、症状の原因や発症の仕組み、有効な治療法を推定できる場合があります。
こうした研究の手法は「前後比較試験」とも呼ばれています。

しかしながら、「症例報告」や「前後比較試験」は特定の患者のみに注目する性質があるため、どうしても"研究の質"は低くなってしまいます。

例えば、チョコレートを食べたことで発症した皮膚炎に対して、抗炎症作用のある外用薬を塗布し、数日後に症状が治まったとする「症例報告」が複数あったとします。
外用薬がよく効いたようにも思えますが、そもそも外用薬をわざわざ塗らなくても皮膚炎は自然によくなっていたかもしれません。

つまり、チョコレートを食べて皮膚炎が起きたのに何も治療を行わなかった患者（対照群）の症例報告がないと、外用剤が効いてよくなったのか、それともただ自然によくなったのかは、判断できないというわけです。

観察研究（分析疫学研究）

「観察研究」は、「分析疫学（ぶんせきえきがく）研究」とも呼ばれます。
なんのことだかさっぱりかも知れませんが、「疫学（えきがく）」という言葉には以前触れましたよね。

アトピーの疫学　〜有症率と重症度〜 - アトピーのサイエンス

今回も、日本疫学会のウェブページから「分析疫学研究」の定義を引用させてもらいましょう。

記述疫学などから得られた、関連があると疑われた要因（仮説要因）と疾病との統計学的関連を確かめ、要因の因果性を推定する方法である。仮説の検証を主な目的とする。記述疫学で明確にした４つのW（When, Where, Who, What）をもとに、Whyを追究する。

日本疫学会「疫学用語の基礎知識」
（https://jeaweb.jp/glossary/glossary001.html）

「記述疫学」とは上で紹介した「症例報告」などのことです。
つまり、「症例報告」が疾患の様子を詳細に記述することで、原因や治療法について"仮説"を見つける研究であるならば、「分析疫学研究」とはその"仮説"を統計学的な手法をもって検証する研究と言えます。

そして、その代表的な研究の手法が、「症例対照研究」と「コホート研究」です。

症例対照研究

日本疫学会のウェブページによると、「症例対照研究」の定義は、以下のようになっています。

疾病の原因を過去にさかのぼって探そうとする研究。目的とする疾病（健康障害）の患者集団とその疾病に罹患したことのない人の集団を選び、仮説が設定された要因に曝露されたものの割合を両群比較する。疾病の頻度が低く、症例が母集団の全患者を代表し、対照が母集団を代表する場合はオッズ比（相対危険の近似値）から因果関係の推定が可能。

日本疫学会「疫学用語の基礎知識」
（https://jeaweb.jp/glossary/glossary001.html）

つまり、「症例研究」の弱点だった"仮説を検証するために比較対象となる集団（対照群）がいないこと"を克服したのが、この「症例対照研究」なんです。

例えば、複数の「症例報告」から、"洗顔の回数が少ないとニキビを発症しやすくなる"という仮説が立てられたとします。
「症例対照研究」では、ニキビを発症した集団（患者群）とニキビを発症していない集団（対照群）を設け、両方の集団に対して"普段どのくらいの頻度で洗顔をしているか"を調査するわけです。

１日あたりの洗顔回数の平均が、患者群で１回、対照群でも１回だった場合、洗顔の回数はニキビの発症に関係ないかもしれません。
しかし、患者群で１回なのに対して、対照群で２回だった場合、"洗顔の回数が少ないこと"がニキビ発症と関係があるということが分かるわけです。

とはいうものの、「症例対照研究」にも弱点はあります。
それは、患者群や対照群を集めて、その原因となりうる要因（上の例で言えば洗顔の回数）について過去にさかのぼって調査するため、対象者が過去のことを鮮明に覚えおらず、調査の質自体が低くなる懸念がある点です。
こうした調査結果の"ゆがみ"のことを「思い出しバイアス」と呼び、「症例対照研究」の"研究の質"が低い一因となっています。

コホート研究

「症例対照研究」の弱点を克服したのが、「コホート研究」です。
例によって、まずはその定義をみてみましょう。

調査時点で、仮説として考えられる要因を持つ集団（曝露群）と持たない集団（非曝露群）を追跡し、両群の疾病の罹患率または死亡率を比較する方法である。また、どのような要因を持つ者が、どのような疾病に罹患しやすいかを究明し、かつ因果関係の推定を行うことを目的としている。

日本疫学会「疫学用語の基礎知識」
（https://jeaweb.jp/glossary/glossary001.html）

過去にさかのぼって疾患の要因を調査する「症例対照研究」とは反対に、「コホート研究」では調べたい疾患の要因をもつ集団と、調べたい疾患の要因をもたない集団を設け、その後疾患を発症するかどうかを（過去ではなく）未来に向かって追跡調査する、という手法をとります。

例えば、洗顔を１日に１回しかしない集団と、１日に２回以上する集団について、"どの程度の割合の人がニキビを発症するか"を１年にわたって追跡調査したとします。

両方のグループで４割の人がニキビを発症した場合、１日あたりの洗顔の回数はニキビの発症に関係ないかもしれません。
一方で、洗顔を１日２回以上するグループでのみ１割しか発症しなかったとすれば、洗顔をすることでニキビの発症を防げた可能性があると考えられるわけです。

「コホート研究」ではこのように、あらかじめ要因（この例で言えば洗顔の頻度）に基づいてグループ分けを行うので、思い出しバイアスを排除できる強みがあるわけです。

しかしながら、「コホート研究」にも弱点があります。
それは「交絡因子（こうらくいんし）」の排除が難しいことです。

たとえば、普段から洗顔を１日に２回以上する人は、几帳面な性格のために食生活に気をつける傾向が強く、チョコレートなどの脂肪分の多いものを摂取しない傾向が強いかもしれません。

すると、洗顔の回数とニキビの発症に見かけ上の因果関係はありそうでも、じつは"脂肪分の少ない食生活がニキビの発症が少ない本当の要因だった"ということもあり得ますよね。
この例で言う"脂肪分の少ない食生活"のような隠れた背景の違いのことを「交絡因子」と呼びます。

このように「コホート研究」には、仮説として設定した要因に注目しすぎるあまり、背後にある別の要因の影響を排除できないデメリットもあるんです。

介入研究

さて、先ほど紹介した「観察研究」では、基本的には被験者の症状や行動などを観察するだけで、試験的に薬を服用してもらったり、意図的に生活様式を変えてもらったりはしませんでしたよね。

これに対して、被験者に投薬したり、行動変容を促したりして、疾患の経過や発症率を調べる手法を「介入（かいにゅう）研究」と言います。
つまり、言葉のとおりですが、意図的に被験者の生活に"介入"し、その影響を調べるわけです。

「観察研究」と違い「介入研究」では、被験者の年齢や性別、食生活や趣味嗜好に関わらず、"介入"を行うグループ（介入群）と"介入"を行わないグループ（対照群）に分けられるので、被験者の個人的な背景の影響を受けにくいというメリットがあります。

非ランダム化比較試験（非無作為比較試験）

「非ランダム化比較試験」では、医師や試験担当者などが恣意的に、介入群と対照群に分け、その疾患の経過や発症率を両群間で比較します。

被験者の希望（試験において介入を受けたいかどうか）を聞くことができるため、倫理的な問題も少ないことがメリットとして挙げられます。
その反面、グループ間での性質の偏り（選択バイアス）が生じやすくなるなどのデメリットもあり、"研究の質"は比較的高いものの最高とまでは言えません。

例えば、ある疾患の治療薬の効果を調べる比較試験において「介入を受けたい」と希望した人たちは、もともと体力に自身があるかもしれません。
そうすると、仮に介入群で薬の効果が見かけ上認められたとしても、介入を受けた人たちの自然治癒力がもともと高かっただけという可能性も考えられるわけです。

ランダム化比較試験（無作為比較試験）

「非ランダム化比較試験」で生じやすい選択バイアスを克服したのが「ランダム化比較試験」です。

「ランダム化比較試験」では、被験者を介入群と対照群に、コンピューターなどを用いて完全にランダムに（無作為に）分けます。
つまり、「非ランダム化比較試験」のように、医師や試験担当者が恣意的にグループ分けをすることはできないため、選択バイアスが生じることはまずないんです。

したがって、「ランダム化比較試験」は、数ある研究手法の中でも最も質が高いと考えられています。
新しい薬や治療法の効果を評価する際に採用される手法も、大抵はこの「ランダム化比較試験」です。

ランダム化比較試験（無作為化比較試験）のメタ解析

最も質の高い研究として知られる「ランダム化比較試験」。
でも実は、上には上がいるんです。

それが「ランダム化比較試験のメタ解析」と呼ばれる研究の手法です。
名前が長いので、便宜的に「メタ解析」と呼ばせてもらいますね。

実はこの「メタ解析」という研究では、被験者を集めた試験は一切行われません。
では何をするかというと、「ランダム化比較試験」などの複数の質の高い研究を集め、それらを全部ひっくるめて統計学的に再度解析することで、複数ある「ランダム化比較試験」の総合評価を行うというわけです。

*1:アトピー性皮膚炎診療ガイドライン2018. 日本皮膚科学会雑誌 128, 2431–2502 (2018)。