こんにちは,エビカツ横丁 の kei です。今回も素敵な著者陣の末席を汚させて頂き,医学文献を読んでいきたいと思います。
今回のテーマは
認知症新薬アデュカヌマブの効果はどの程度期待できるのか?
です。
アデュカヌマブとは
関心の高い読者の方々は,アデュカヌマブ aducanumab(ADU)という新薬の情勢についてお詳しいかもしれません。
アデュカヌマブとは,アルツハイマー病の発症に関わるとされるアミロイドβ(Aβ)病理を直接標的とした抗体医薬(モノクローナル抗体)です。2021 年 6 月,米国 FDA で〈迅速承認手続き〉 accelerated approval pathway に則って,アルツハイマー型認知症に適応が通っています。
これまで「対症療法薬」しか存在しなかった領域の新薬であり,認知症診療に携わる医療関係者はもちろんのこと,患者さんやその家族からも非常に注目されている薬剤かと思います。
米国で〈迅速承認〉が発表された際には某社の株が暴騰したこともあり,投資家の方々の関心も高いかもしれません。
現在,本邦でも承認申請がされており,PMDA が審議中です(欧州でも EMA が審議中)。
ネガティブな情報も
NHK,朝日新聞 など報道各社は承認当初,肯定的な報道を行っていました。
しかし
- 第 III 相試験は中間解析で無益性判定され途中中断されていたこと
- 事後解析で一転 有効性が主張され承認申請されたこと
- 他の類似機序薬もほとんど効果を示せず撤退していた中,アデュカヌマブだけが〈迅速承認〉を受けたこと
- FDA の外部諮問委員会では「エビデンス不十分」という意見が大半を占めていたこと
- 今回の迅速承認後,外部専門委員の 11 人中 3 人が抗議のため辞任したこと
- 「認知機能悪化の進行抑制効果」が認められたわけではなく「PET画像でのアミロイドβ集積の改善」という代用アウトカムで「条件付きの早期承認」をされたこと
- あくまで仮免許で市販後に〈検証的試験〉を施行することが義務付けられており,その治験で認知機能スケールの改善がなければ,承認取り消しの可能性があること
といったネガティブな情報もあり
「もしかして実際のところ〈奇跡の新薬〉ではない?」
と感じておられる方も少なくないものと思われます。
上記経緯の仔細については こちらの連載記事が詳しいのでそちらに譲ります。
この記事では,そうした世俗的背景はあまり取り上げず,あくまで「公表されている客観的データ」に着目したいと思います。
- 実際どの程度「効く」データだったのか?
- どのような副作用が懸念されるデータだったのか?
について実際のデータを確認した後,医療統計・医薬品リテラシーの観点から重要と思われるいくつかの問題について個別に考えてみます。
◆ データ出典
なお,残念ながら現時点(2021年 11月時点)でも,この治験データは論文化されていません。そのためデータの引用元は clinicaltrials.gov データベースと,FDAに提出されたデータになります(▼)。
● NCT: EMERGE試験 (NCT02484547), ENGAGE試験 (NCT02477800)
● FDA: 諮問委審議ページ,提出されたプレゼンテーション
現在,上記はいずれもフリーアクセスです。特に提出されたプレゼンテーション PDF は読みやすいので,元データをご確認いただきながら読み進めていただければ幸いです。
アデュカヌマブは「効く」のか?問題
アデュカヌマブに関しては,国際共同第 III 相試験が2本行われています(EMERGE,ENGAGE)。試験の概要は以下の通りです。
◆ 試験の概要
- 早期アルツハイマー型認知症・MCI を対象
- アデュカヌマブの有効性をみる第 III 相試験(二重盲検プラセボ比較 RCT)
- 国際共同試験(*)
- プロトコル変更が複数回あり,PV4(プロトコルバージョン4)以降,投与量が増量された。
- その後,中間解析で無益性の判定となり,両試験とも途中中断された。
(EMERGE 803例,ENGAGE 945 例が解析対象) - 中間解析後,試験中断発表までの間に増えた症例も含め解析をし直すと,EMERGE では主要評価項目で有意差を示したが,ENGAGE では依然として有意差を示さなかった。
(EMERGE 1638 例,ENGAGE 1647 例が解析対象) - アミロイドPETの画像所見は,いずれの試験でも有意に改善させていた。
(*) 日・米・加・豪・欧州各国・韓国・台湾を含む
◆ 試験の PICO-T
試験の概要 | |
---|---|
P | アミロイド PET 画像所見のある 軽症アルツハイマー型認知症・MCI |
I | Aducanumab(低用量レジメン(*1) or 高用量レジメン(*2)) / 4週ごと投与 |
C | プラセボ / 4週ごと投与 |
O | Primary: CDR-SB(*3) の baseline からの変化 Secondary: MMSE, ADAS-Cog13, etc..の baseline からの変化 |
T | 78 週経過時点(約1年半) |
P:対象者(Patient/Population)
I:介入(Intervention)
C:比較対照(Control)
O:アウトカム(Outcome)
T:期間(Time course)
(*1)(*2) ApoEε4キャリアはアミロイド関連画像異常(ARIA:後述)の発症リスクが高いことが知られていたため,事前に genotype を確認。キャリアであった場合,いずれのレジメンに割り振られた場合も,投与量を少なくされた(▼)。
ApoEε4 | ADU 低用量レジメン |
---|---|
ApoE ε4+ | 最初の2回(0週目・4週目)が 1mg/kg で, 3回目(8週目)から 3mg/kg へ増量し,以降継続 |
ApoE ε4- | 最初の2回(0週目・4週目)が 1mg/kg, 3回目(8週目)から 3mg/kg を4回投与し, 7回目(24週目)から 6mg/kg に増量し,以降継続 |
ApoEε4 | ADU 高用量レジメン |
---|---|
ApoE ε4+ | 最初の2回(0週目・4週目)が 1mg/kg, 3回目(8週目)から 3mg/kg を4回投与し, 7回目(24週目)から 6mg/kg に増量し,以降継続 |
ApoE ε4- | 2 回ごとに 1mg/kg,3mg/kg, 6mg/kg と漸増し, 7回目(24週目)から 10 mg/kg 投与,以降継続。 |
※ ただし試験中にプロトコル変更あり。PV4(プロトコルバージョン4)以降の高用量群の参加者は,ApoEε4のキャリア/ノンキャリアにかかわらず,全例 10 mg/kg 投与まで漸増される形に変更されている。
(*3) CDR-SB:
以下それぞれ 0(問題なし)- 0.5(疑問)-1(軽度) - 2(中等度)- 3(重度)の5段階で評価し合算したスコア。
- 記憶 memory
- 見当識 orientation
- 判断力と問題解決能力 Judgment & Problem Solving
- 地域社会活動 Community Affairs
- 家庭生活/興味/関心 Home and Hobbies
- 介護状況 Personal Care
結果
◆ 対象者の特徴
※ 実際には EMERGE 試験と ENGAGE 試験で数字が若干異なりますが,ほぼ同程度であるため,主に EMERGE 試験のデータを中心に述べます。
- 解析対象はプラセボ群 548 人,低用量群 543 人,高用量群 547 人。
(ENGAGEでは 同順 545 人,547人,555人) - 年齢は両試験とも平均 70 ± 7(SD)歳程度。
- 女性割合は両試験とも 52 % 程度。
- Asian 7.8 %,White 78.4%(ENGAGE では同順 10.6 %,75.2 %)
- ApoE ε4 キャリアの割合は,両試験とも 67 % 程。
- MCI(軽度認知障害)が約 82 %,Mild AD が 約 18 %。
- 認知症として投薬(ドネペジルなど)を受けている人は 51 % 程度。
- ベースの MMSE は 26 ± 1.5(SD) 程度
- ベースの CDR-SB は 2.4 ± 1.0(SD) 程度
▶︎ 総括)70歳程度の白人,ごく軽度の認知機能低下という人が多く参加
*SD=標準偏差
◆ 完遂率・途中脱落
- 78週完遂は約 50% のみ(※ 途中中断試験であるため極めて低い)
- 投薬中断はプラセボ群 15 %,低用量群 19.9 %,高用量群 23.9 %
- 中断理由の最多は有害事象;上記と同順で 2.9%,7.6%,8.4%
- 試験からの途中離脱は同順で 7.1 %,9.9 %,12.1%
▶︎ 総括)用量依存性に高い有害事象・途中離脱。
◆ 主要・二次エンドポイント(ITT解析)
EMERGE | プラセボ群 (n=548) |
高用量群 (n=547) |
差§[95%CI] | p 値 |
---|---|---|---|---|
CDR-SB† | +1.74 | +1.34 | -0.40 [-0.71, -0.10] | 0.010 |
MMSE† | -3.3 | -2.8 | +0.50 | 0.062 |
78週完遂 | 52.6% | 54.7% |
ENGAGE | プラセボ群 (n=545) |
高用量群 (n=555) |
差§[95%CI] | p 値 |
---|---|---|---|---|
CDR-SB† | +1.55 | +1.58 | +0.03 [−0.26, 0.33] | 0.83 |
MMSE† | -3.5 | -3.6 | -0.10 | 0.79 |
78週完遂 | 60.9% | 52.9% |
†: ベースラインとの比較(経時的悪化の程度を評価)。
§:ここでの「差」は「プラセボ群のベースラインとの差」と「実薬群のベースラインとの差」の「差」,つまり差の差の解析。
※注)中間解析で無益性判定となって治験中断された試験であり,上記結果は中間解析の後に少し増えた症例も含んでもう一度行いなおされた〈後付け解析〉。低用量群はスペースの都合もあり割愛(低用量群での有効性はスポンサーも主張していない)。
▶︎ 総括)
EMERGE では CDR-SB で有意差があるが,
ENGAGE ではそもそも実薬群の方がプラセボ群より悪い成績だった。
0.5点刻み18点満点の CDR-SB で 0.4 [0.71-0.10] 点進行を緩やかにする
という EMERGE の結果も,その臨床的意義は要検討。
◆ post-PV4 に限ったサブグループ解析
- 上記の結果のみでは,ENGAGE の結果が足を引っ張り,やはり薬剤の有効性を主張し難いところです。
- そこで,製薬会社は post-PV4(高用量群のレジメンを変更して 10mg/kg まで増量するようにプロトコル変更したあと)の症例に限ったサブグループ解析も行なっています(▼)。
ENGAGE (pPV4) | プラセボ群 (n=247) |
高用量群 (n=282) |
差§[95%CI] |
---|---|---|---|
CDR-SB† | +1.79 | +1.31 | -0.48 [−1.02, 0.06] |
78週完遂 | 26.7% | 24.5% |
▶︎ 補足
- このサブグループ解析をもとに製薬会社は「post PV4 の高用量暴露症例に限れば ENGAGE でも良い傾向」と主張しています。
- しかしそのような主張に対しては,mayo clinic の Knopman らにより鋭い批判がされています(Alzheimers Dement. 2021 Apr;17(4):696-701. [PMID: 33135381] )。
- ここで注目すべきはむしろ「プラセボ群の成績」です。実際に ENGAGE のプラセボ群の成績に着目してみると,ITT解析の対象(n=545)では CDR-SB がベースラインから 1.55 悪化していましたが,post-PV4に限定した解析の対象(n=247)では,ベースラインから 1.79 悪化しています。つまり,症例を限ったことにより,プラセボ群の成績が一段と悪くなっているのです。
- 要するに ENGAGE の post-PV4 に限った解析では,プラセボ群の成績がさらに悪くなっているため,実薬群との「差」が広がり,「差の差」の結果を過剰によく見せているのではないか,ということです。これが Knopman らが鋭く指摘する問題の1つです。
- また,ここまでしても ENGAGE 試験は 95% 信頼区間 が 0 を跨いでいます。
- 主要評価項目が芳しくないときにサブグループ解析や二次評価項目などから都合のよい結果を強調するというのは,典型的な spin です。
◆ バイオマーカーの改善
- アミロイドPET画像所見(amyloid PET SUVR)は,ベースラインと比べ両試験で有意な改善を認めた(ただし全体の 3-4割程度の参加者でしか再検されていない)。
- 脳脊髄液(CSF)tau の減少効果も両試験で良い傾向を示したが,標本が極めて少なく,各群 20人程度。
EMERGE amyloid PET | プラセボ (n=157) |
高用量 (n=171) |
p値 |
---|---|---|---|
Adjusted mean change in SUVR from baseline |
0.019 | -0.272 | p<0.001 |
78週完遂 | n=74 | n=87 |
ENGAGE amyloid PET | プラセボ (n=203) |
高用量 (n=181) |
p値 |
---|---|---|---|
Adjusted mean change in SUVR from baseline |
-0.005 | -0.238 | p<0.001 |
78週完遂 | n=104 | n=97 |
*SUVR: standardized uptake value ratio
*低用量群は割愛したが,いずれの試験でもプラセボ群と高用量群の間の値になっており,用量依存性の効果が示されている
▶︎ 総括)
Aβ 病理の減少効果(画像改善効果)は両試験でも有意と考えられる。
ただしそれが「認知機能の改善」とどの程度相関するかは不明。
有害事象
- アデュカヌマブに限らず,Aβ標的治療薬の治験で常に問題になるのがアミロイド関連画像異常 ARIA(Amyloid-related Imaging Abnormalities)。
- ARIA は MRIで検出される病変で,短期的には無症候性の場合も多いが,長期的な影響は不明(この試験でも最長 78週時点までしか追跡されていない)。
- ARIAは主に以下の2種に大別される。
- ARIA-E(edema):脳内血管性浮腫;早期中断すれば多くは可逆性
- ARIA-H (hemorrhages) :頭蓋内微小出血や脳表ヘモジデリン沈着
本試験における上記の発症割合は以下の通り。
EMERGE | プラセボ群 (n=547) |
低用量群 (n=544) |
高用量群 (n=547) |
---|---|---|---|
ARIA-E | 12 (2.2%) | 140 (25.7%) | 186 (34.0%) |
ARIA-H(微小出血) | 38 (6.9%) | 88 (16.2%) | 102 (18.6%) |
ARIA-H(脳表ヘモジデリン沈着) | 14 (2.6%) | 50 (9.2%) | 73 (13.3%) |
ENGAGE | プラセボ群 (n=541) |
低用量群 (n=548) |
高用量群 (n=558) |
---|---|---|---|
ARIA-E | 16 (3.0%) | 139 (25.4%) | 198 (35.5%) |
ARIA-H(微小出血) | 31 (5.7%) | 85 (15.5%) | 98 (17.6%) |
ARIA-H(脳表ヘモジデリン沈着) | 10 (1.8%) | 48 (8.8%) | 86 (15.4%) |
▶︎ 私見・補足
- 非常に高頻度です。
- 用量依存性に発症割合が増えており,薬剤作用によるものと考えられます。
- 概ね 6 人に 1人以上は脳内微小出血を増やし,3人に1人以上は脳内浮腫を起こすという計算です。
- とはいえ実際にはプラセボ群であっても多少そうしたイベントはあるので,絶対リスク差(ARR)およびその逆数(NNH;number needed to harm)がより重要です。
- 計算すると,脳浮腫の NNH 4,微小出血の NNH 9。
- 高用量アデュカヌマブ を9人投与するごとに 1人余分に脳内微小出血を起こし,4人投与するごとに1人余分に脳浮腫を起こすということです。
- ARIA-E は早期の薬剤中断で可逆性とされていますが,ARIA-H はそうではありません。
- 本試験程度の追跡期間では実害を検出できなかったとしても,長期的にはむしろ認知機能に悪影響を与える可能性が懸念されます。
アデュカヌマブの治験データまとめ
以上の情報を端的にまとめます。
- EMERGE/ENGAGEは,中間解析で無益性判定を受け途中中断された。
- 後付け解析でも,主要評価項目で有意差を示したのは EMERGE のみ。
- 一方「PV 4以降の参加者に限ったサブグループ解析」を行えば,ENGAGE でも「効果に期待がもてる結果」(スポンサー主張)。
- アミロイド PET 画像所見や CSF-tau といったバイオマーカーは,両試験ともに改善あり。
- 上記の代用アウトカム達成をもとに〈迅速承認〉された。
- 投与に伴うリスクは主に脳内微小出血 NNH 9,脳内浮腫 NNH 4 など。
- 今後 10 年以内の 検証的試験(第 IV 相試験)で認知機能スケールに関し有意差をきちんと示すことができなければ,承認取消となる。
このデータから考えたい数々の問題
さて,以上がアデュカヌマブに関して公表されているデータ(+私見)です。
医学論文としてまとめられていない情報を整理し直したため,前置きだけで大変長くなってしまいました。
しかしここまでである程度,この薬剤の「実際のすがた」を解像度高く認識していただける状態になったのではないかと思います。
その上でここからは,上記のデータをもとに医療統計・医薬品リテラシーの観点から重要と思われる以下の問題について個別に考えてみたいと思います。
- そもそも本当に「有意」なのか?(多重検定の問題)
- 「代用アウトカムで迅速承認」の問題
- 外的妥当性(一般化可能性)の問題(日本でも使えるデータか?)
- risk/benefit バランス(ARIAと認知機能)
- cost/benefit バランス(値段が高い問題)
長くなるため,この記事ではまず「多重検定の問題」のみを取り上げます。
◆ どこまでが本当に有意か?
先述したように,アデュカヌマブの承認にあたっては,
- 第 III 相試験の中間解析で無益性
- 後付け解析で,2つの治験のうち片方(EMERGE)のみ p=0.010
- post-PV4 サブグループならもう一方(ENGAGE)でも良い傾向
- 〈代用アウトカム〉=〈PET画像の改善〉なら両試験とも有意差あり
- 条件付きの迅速承認(4を認めた)
という流れになっています。
つまり複数回にわたって検定内容がすり替わっています。
このような時に大きな問題となるのが〈多重検定〉です(※リンク先は youtube 解説動画)。
実際のところ,どこまでが本当に「有意」だと言えるのか?
このような手続きには統計的にどのような問題があるのか?
「多重検定の問題」とは何なのかの概説も行いながら,私見を述べたいと思います。
以下は購読者の方限定となりますが,お付き合いいただければ幸いです。
※この記事の記載内容に関し開示すべき COI は特にありません。
読者コメント