論文の読み方ランダム化比較試験中心

勉強会の輪番

論文の読み方的なもののレクチャーが回ってきたので、適当にスライドを作成しました。

結論からいうと、ランダム化比較試験の結果を鵜呑みにするためには、いくつかの条件があるということになります。

その条件とは、歴史が示してくれているかと思います。

集中治療領域の研究は、1990年代後半から2000年代にかけて有名な研究が出されました。

それらの研究に加担しているのが、Clinical trial group（CTG）による影響があります。

個人的に最も有名なものは、オーストラリアとニュージーランドのAZICSという団体が有名だと思います。

例えば、ドパミンの有用性を否定したDOPAMINE トライアルとか、輸液蘇生が必要な人に対するアルブミンとクリスタロイドの比較など、他にも集中治療の世界をリードしてプラクティスを変えた研究はたくさん存在します。

他には、CCCTGというカナダのグループも有名です。

CCCTGはTRICCスタディという、輸血の閾値に対する研究やストレス潰瘍予防薬に関する研究から派生したものがたくさんあります。

根拠について

根拠とは，いわゆるエビデンスレベルのことになります．

EBM前世の世代で育ったわたしとしては，最近はエビデンスという言葉を聞く機会が少し減ってきたように思います．

それだけ当時は，センセーショナルな状況だったのでしょう．

エビデンスの代表はなんといっても，ランダム化比較試験です．

これは，日本語で無作為化比較試験と呼ばれるもので，無作為に多くは2群に分けて背景因子を調整します．

その状況で，何らかの介入を1つだけ変えるわけです．

例えば，ある薬群と薬効のない薬群（プラセボ群）に分けて，介入の差が検定されることになります．

これらを統合したものが，最も強い根拠とされるメタ解析になります．

メタ解析に関しては，プール解析という統合した解析が行われる場合もありますが，通常はRCTの2番煎じに過ぎません．

そのため，臨床的に研究を行うという場合で最も強いレベルの研究を行う場合は，RCTになります．

例えば血糖管理

現代では，NICE SUGAR trialを代表とされる大規模研究によりその効果は否定されています．

2001年の研究だったと思いますが，当時はこぞってIIT（強化インスリン療法）だという風潮でした．

雑誌や著者のインパクトファクターが全てではない

医学的に主要な論文が，その後の追試により否定されることは決して珍しいことではありません．

特に重症患者さんを扱う場合は，なんとかしてあげたいという気持ちが治療する側にも全面的に出てしまい，思いつく限りの全ての薬剤を使うことは以前はよく見られていました．

その代表は，Non renal indicationでの血液浄化療法などがあります．

このあたりは，日本特有の治療ですが世界ではあまり相手にされておらず，いわゆるガラパゴスの如くと世界から称される原因となっているとされています．

追試も良い結果

ICUでの血糖を厳密に管理すると，死亡率改善効果があるということで追試が行われました．

これはVan den berg先生が世界に発信した結果と言えます．

ところが後に否定されることになった，というのは先に書きました．

血糖管理の強化は死亡率増加に起因する？

これはとても議論になりました，ACCORD研究は血糖値をタイトにすると死亡率が増加したという，当時は驚愕の内容尾のものでした．

この研究はICUではありませんが，後のICUでの強化インスリン治療も低血糖に伴う死亡率増加が示唆されるなど，あまりにタイトすぎる血糖管理には後に終止符（と言ってよいのでっしょうか？）が打たれています．

演繹法と機能法

ランダム化比較試験の場合は，帰納法的なアプローチになります．

生理学的アプローチというのは，正しい場合もありますが必ずしも正しいとはいい難い場合もあります．

例えば，生理学的に正しいと思われる場合でも，RCTを行うと真逆の結果となることがあります．

先の強化インスリン療法はその代表と言えます．

ARDSのシベレスタットも同じですね．

どちらも生理学的には正しいと思われるのに，死亡率が増加の傾向になるというのはなんだか納得いかない部分もあるかもしれません．

生理学的アプローチは，ときに数字合わせになる場合があります．

人工呼吸器療法では，PCo2 40の基準値を目指すわけですが，肺障害を伴う場合は1回換気量を減らす必要があります．

そのためCo2が蓄積してしまいますが，これで良いわけです．

許容する高炭酸ガス血症というやつですね．

強化インスリン療法の終焉

スライドに示すVISEP TrialやGlucontrol trialという，比較的大規模なRCTが続々と行われました．

これらは，多施設研究になります．

Luven studyは単施設（Luven大学の1施設）での成果になります．

単施設でも有用性を示せるということがとても重要なのですが，研究の場合は広く世間に適用する必要があります．

一般化と呼ばれるものです．

例えば，凄腕の外科医が行った手術では死亡率が低いけど，一般の医師ではそうでもないというようなものです．

結局は最終的に難治手術は凄腕の外科医のところに集まるのですが，これでは世界の医療は成り立ちません．

ある程度普通の外科医がおこなっても，ある程度の成績を収める必要があります．

これが一般化と呼ばれるものです．

外科の場合は，多少の個人差が出るのは仕方ありません．

内科の場合も，多少の個人差は出ますがガイドラインが示すような治療を行うという観点からは，より一般化がしやすいということになります．

NICE SUGAR trial

個人的には，どの研究でもトドメを指すのがANZICSだと思っています（個人のバイアスが大いにあり）．

ANZICSとは，オーストラリアとニュージーランドの集中治療の研究グループになります．

トドメを指すとなると，さすがに桁違いの症例数とケチをつけづらいデザインで行われています．

これはとてもわかり易い総説です．

このように研究同士を比較すると，過去の研究はいろいろな問題点があることに気づきます．

余談のEPANIC

EPANIC trialとは当時，アメリカと欧州のガイドラインのガチンコ比較が行われたという，それぞれの威信をかけた研究になります．

フィールドはIITで有名なLuvem大学をはじめとした欧州を中心に行われました．

結果だけをみると，米国のガイドライン推奨のプラクティスのほうが良かったよというものになります．

具体的にはICU・病院滞在期間が短いという主要評価項目になります．

副次的には人工呼吸機関の短縮や感染合併の減少などもありますが，あくまでも副次的なものなので仮説に過ぎません．

とはいえ，感染合併の増加が軽静脈栄養で多いというのは，全く違和感のない結果といえます．

TGC FAST研究

熱意が素晴らしいと思い紹介したと思います．

IITが行われたLuven大学のVan den verg先生らが行った研究になります．

IIT以降の主要な研究は，いずれもNegativeな結果となりました．

IITに関しては大規模研究がおこわなれ，先に書いたようにNice sugar tialで終焉と思っていました（個人的に）．

これども熱意が素晴らしく，メジャージャーナルにこの時期に再度類似した研究結果でアクセプトされるのは素晴らしいと思います．

研究者のPassionを個人的に感じました．

単施設研究に注意する

歴史を学ぶのは，繰り返さないために学ぶという側面が多いはずです．

2000年に発表された，EGDT（早期目標設定ゴール治療）は敗血症ガイドラインでも大体的に取り上げられました．

けれども後のPROMISE, ARISE, PROCESSなどの研究により否定されました．

とはいえ，この生理学的アプローチでの考え方はとてもわかり易いのも事実です．

例えばVolume管理を中心静脈圧（CVP）でみて，臓器灌流所見をSCVO2で見るというものです．

当然輸液の量が多くなり，昨今の輸液は少なく，というトレンドとは真逆のアプローチになりがちです．

当然無尽蔵に輸液を行うわけではありませんが，血管内ボリュームの指標を簡便なものとした代償ともいうべき事象を臨床現場で経験された方もいるかも知れません．

このセンセーショナルな研究も，単施設研究でした．

単施設研究の場合は，IITでも書いたように一般化に非常に難が生じえます．

単施設研究での有用性とは，単施設でのクオリティを示すことには繋がりますが，一般化の結果相反する結果となることも念頭に置く必要があります．

そのため当院における〇〇は良くはないとされるわけですが，とはいえ・・・単施設のクオリティデータとして使う分には良いと思ってはいます．．

Open label研究に注意

オープンラベルとは，見られている効果というものです．

別名ホーソン効果と呼ばれるもので，実はホーソン効果についてはその続きがあるのですが興味のある方は調べてみてください．

誰かに見られているから行う，といった類のものになります．

例えば，うるさい親がいるから今日は勉強しておく，みたいな感じです．

この効果は，研究でも作用するとされています．

プラセボ効果も似たようなものですね，逆のノセボ効果というものもあります．

最近の薬は副作用を比較的大体的に記載されていますので，少しでも類似した症状が起こると薬剤のせいじゃないのかというやつですね．

プラセボ効果もノセボ効果も，どちらも実際に効くし悪くなるとされています．

不思議ですが，薬効以上の何かが作用しているのだと思います．

その1つはホーソン効果になります．

検出力

検出力については，実は知らない人もいるかも知れないので補足しておきます．

研究を行う場合は，通常特に前向き研究では症例数が決められます．

この症例数をどのように決めるのかと言うと，過去の研究から算定します．

過去に類似した研究がない場合は，パイロット研究という研究のための小規模研究を行います．

特に薬剤の場合は，Phaseが定められていて1-4まであります．

通常大々的に発表されるのは，Phase3になります．

これらの下積みデータを基に，飛躍した研究を行うことになります．

で，ある程度の検出力を保持した状態で症例数が決められます．

特にコロナの時期は，early terminationと言って症例の集積が難しくなり集積が途中で打ち切られることが頻発しました．

その結果は，結果として残るのですが，，当然予定されていた症例数には到達していませんので，パワーとしては不足しているわけです．

これが例えば，中間解析により無益性や有害性の問題があり，中断取った場合であれば予定していた症例数に到達しない場合でも承服できるかと思います．

これが中間解析ですら微妙な場合で，症例がなかなか集積できないという理由で中断された場合は，結果の解釈に悩むことになります．

ということで，予定されていた症例数はきちんと最後まで集積されることがベストだが，なかなかそうもいかない場合もあります．

Feasibility（実現可能性）

例えばHead upですが，45°が気管挿管患者さんには推奨されています．

とはいえ45°は実際はほぼ直角です．

そうなるといろいろな問題が起こるわけです．

ズレによる褥瘡や自己抜管などがその代表です．

実際の臨床では，実現可能性が重要です．

実際に自分の施設でできるのか，というものですね．

先に書いた，一般化とも類似しています．

現存するエビデンスをどのように自施設に応用するのかというのは，臨床家にとってとても重要な問題になります．

強固なアウトカム

もっとも強固なアウトカムは，死亡率です．

死亡は人生1度しかない，極めて少ないイベントになります．

そのため，死亡率で差を出すためには症例数の集積も大変になります．

その次は大血管イベントなどの血管イベントなどになるかもしれません．

これらのように，インパクトが大きくて事象が少ないものに関しては，強固なアウトカムとして設定されています．

よくあるのが代用指標を主要評価項目にしているものがあります．

当然そのようにせざるを得なかった背景があるのだと思いますが，アウトカムの観点からは弱いものになります．

副次評価項目とサブグループ解析

一言で表現すると，仮説です．

際に書いたように，主要評価項目の設定にはパワーが厳密に設定されます．

副次評価項目の場合は，あくまでも主要評価項目で有意差を検出するためのパワーが設定されています．

そのため，副次的評価項目でいくら有意差がでたとしてもそれは仮説に過ぎません．

当然，副次的評価項目の結果を見て臨床のプラクティスが変わるということはありません．

SAFE研究

SAFE研究とは，集中治療領域で世界で2番めに多く読まれた論文とされています．

輸液蘇生が必要な状況で，クリスタロイドとコロイドを比較したけんきゅうになります．

熱量がすごいのが，この研究はブラインド（盲検化）されていることがすごいです．

輸液を行うのに，それもコロイドとクリスタロイドをブラインドしようとする熱量には脱帽です．

実はこの研究では，心臓血管外科の患者さんは除外されています．

心臓外科の患者さんはICUでは時に最重症と認識される場合もありますが，最も軽症というか手術さえうまく行けば予後良好な疾患とされています．

ALBIOS研究

サブグループ解析の続きになります．

実はSAFE studyでのサブ解析で，敗血症に関してはアルブミンを使用したほうが良いかもしれないという結果になりました．

あくまでもサブ解析ですので，この結果だけで敗血症にアルブミンを使うということは無かったはずです（たぶん）．

ところが実際に研究を行うと，アルブミンを使ったほうが輸液量は減少しましたが，ハードアウトカムでの差はクリスタロイドと比較してありませんでした．

つまり，ほとんどのシチュエーションではクリスタロイドで十分ということになります，

測定は重要 ARMA研究

これ受け売りですが，よく題材に出します．

31%と39.8%の差は，約9%です．

ただ重症呼吸窮迫症候群の患者さんの死亡率は高いことが知られています．

この差を臨床的に実感するのは，相当感度を高くしていないと無理だと思います．

臨床とは常にこの測定との繰り返しで，測定なくしてカイゼンなしと言われる所以です．

自分たちのプラクティスをなんの根拠もなく変えようとした場合，その根拠として本来は自施設のデータが必要になります．

できる臨床実践家は，自分たちの施設のデータが頭に入っています．

できる経営者も同じです．

畑違いでやっていることは違っても，アプローチは同じです．

ランダム化比較試験が異なる結果を出す理由について

だいぶ過去のものになりましたが，リーダビリティの高い総説です．

リンク

論文の読み方 ランダム化比較試験中心