Note of Pediatric Surgery

腸内細菌、R、ときどき小児外科

多変量解析を導入するにあたって

学会とかで「多変量解析すると〜」などと言うとなんかもの凄い発表の様に聞こえますよね…臨床をやっているときはあまり大きなデータで発表したことなかったのですが ( 小児外科の宿命として多変量解析に耐えられるだけの症例数が集まらないことが多い ) 、臨床に戻って早くドヤ顔で発表ができるように頑張って行きたいと思います。

1. 用語

まず多変量解析についてのいろいろとした用語の説明です。このPDFを参考にさせていただきました。非常にまとまっていたてわかりやすいです。お恥ずかしながら多変量解析と重回帰分析は完全に同じ意味だと思っていました…実際は包含されているのですね。

まずは医学研究初心者のためのやっぱりわかりにくい統計道場のスライドを引用させていtだきます。

f:id:Razumall:20171012132912j:plain

f:id:Razumall:20171012132917j:plain

2. 注意点

さて、多変量解析を行う際の注意点がこちらの記事に記載されていたので引用します。 心理データ解析第6回(1)

1. 複数変数間のデータの質をそろえる

  • 予測する際の説明変数間のデータ,関連性を検討する際の変数群のデータの質* レベルをそろえる
  • たとえば,質的データと量的データが混在した説明変数で,何かを予測することはできない。
  • その場合,一般的には精度の低い質的データに量的データをそろえる 例. 動機づけ尺度得点によって「高群」「中群」「低群」に分けるなど
  • ダミー変数を用いる場合もある 例. 男を「1」,女を「0」とするなど

2. 観測数は変数の数より多くする

  • 質問項目数よりも被調査者数が少ない場合などの場合,その結果の信頼性は低くなる。
  • 被調査者数は質問項目数の少なくとも2倍,できれば数倍集めた方がよい手法によっては10倍以上といわれることもある. 。

3. 説明変数間に相関関係が高い変数を使用しない

  • 説明変数間の相関が高い場合には,本来取り得ないような結果となる場合がある。 たとえば,2つの説明変数間の相関が高い場合には,わざわざその2つを別個のものとして扱う必要はないかもしれない。
  • これはどのような理論を仮定しているかにもよる。

4.「因果関係がある」というためには

少なくとも以下の3点を満たす必要がある * 独立変数説明変数. が従属変数基準変数. よりも時間的に先行していること * 理論的な観点からも因果の関係に必然性と整合性があること * 他の変数の影響をのぞいても,2つの変数の間に共変関係があること

3. 説明変数の選び方

たこちらの記事には説明変数の選び方に関する重要な記載があります。

今日から使える医療統計学講座 【 Lesson6 】多変量解析――説明変数の選び方

次に,研究対象因子のせん妄に加え,先ほど割り出した10以上ある交絡因子のうち5つを選び出します。選択法として正しいと思う方法を,以下の1. -6. から1つ選んでください。

  1. それぞれの交絡因子を「せん妄あり」「せん妄なし」の2群間でスチューデントのt検定やピアソンのカイ2乗検定などを用いて比較し,有意差の出たもののみまたはP値の小さい順に5つ. モデルに加える。
  2. それぞれの交絡因子を「死亡」「生存」の2群間でスチューデントのt検定やピアソンのカイ2乗検定などを用いて比較し,有意差の出たもののみまたはP値の小さい順に5つ. モデルに加える。
  3. すべての交絡因子をモデルに入れ,ステップワイズ法を用いてコンピューターで自動計算し,有意差の出る交絡因子のみを選択する。
  4. すべての交絡因子をモデルに入れ,有意差の出ない交絡因子をコンピューターによる自動計算ではなく自分でモデルから取り除く。
    1. のように,せん妄との関連を単変量解析で調べた後,有意差の出た交絡因子の中からさらにステップワイズ法で有意差の出る交絡因子を探す。
  5. データを一切見ず,文献や医学的見地を参照し,アウトカムである死亡に対するリスク因子の中からリスクの大きい順に5つ選び出す。

いずれもよく用いられる方法ですが,正解は6. です。

完全に(5)だと思っていました。実際に学会なんかでよくみられるのは1.のような気がしますね…。

さて。その説明の補足として、さらにこちらのブログも大変勉強になりました。特に臨床医学系の論文を読む* データを解析する視点で多変量解析について書かれています。

drmagician.exblog.jp

多変量解析において,変数を組み込むときに,まったく関連性がないものを組み込んでも偶然が生じる可能性があることが上記シミュレーションでも分かる.優れた解析に見える多変量解析といえども,使用する変数は解析者により恣意的に選ばれたものであることに注意が必要である.統計学的関連性は因果関係を保証するわけではなく,前提として,因果関係を示唆する根拠が必要である.

これらことを頭に入れて解析を進めていきます。今回は検討実験ですのでサンプル数が少ないため、実際の多変量解析としては不十分だということは承知した上で解析を進めていきます。