読者です 読者をやめる 読者になる 読者になる

Note of Pediatric Surgery

腸内細菌、R、ときどき小児外科

メタボローム解析: PLS ( 部分最小二乗法 )

1. はじめに

メタボローム解析を行う際に重要な解析方法である、PLS: 部分最小二乗法についてまとめてみました。参考サイトは8. 参考を見て下さい。

2. 概要

  • Partialleastsquares: 部分最小二乗法
  • 多変量解析の手法の1つ
  • 主成分分析とPLSの違いはその計算に群情報を用いるか否か
    • 主成分分析: 教師なし次元削減法
    • PLS: 教師あり
  • 教師データとして群情報を用いるのが大きな特徴
  • 説明変数であるメタボロームデータの合成変数と目的変数の合成変数の共分散最大化を基準とする
  • 派生した方法として、PLS回帰、PLS-DA、OPLSがある

c.f.) 次元削減法

  • 多変量解析を用いて高次元のデータを2もしくは3次元で表現する方法一般
  • 特に機械学習のコミュニティで使用される用語

3. PLS-DA

  • PLS判別分析
  • 正常と異常といった2つのグループ間の差が最大になるようにモデルを考える
  • 理論的な解釈は1番目の成分についてのみ可能

4. OPLS

  • Orthogonal PLS
  • OPLS法はPLS法を近年改良したもの
  • Yに直交している ( 無相関の ) Xの変動に対処するよう設計されたもの
  • Xにおける系統的変動
    • Yを予測できる変動
    • Yに直交している変動に分離する
  • より解釈しやすいモデルが得られ、予測力は変わらないとされる

5. PLS-R

  • Regression: 回帰
  • 回帰の問題は最小二乗法の目的と同じで「Yを予測するための係数を最適化する」こと

6. PLS-ROG

  • Partial least squares-rank order of groups
  • 平滑化の罰則項を加え群に順序 がある時に適している
  • カーネル法を用いてカーネルPLS-ROGへと拡張することが出来る

7. Rで使用できるパッケージ

  • mixOmicsとcaret、muma、roplsのRパッケージがある
  • 個人的にはroplsがおすすめ
  • mixOmicsとcaretの違いはscale関数によるx, yの標準化の有無

caret

  • 与えられたxとyをそのまま使う
  • 標準化を自前で行いたい時に適している

mixOmics

  • 内部でxとyに対してscale(center=TRUE, scale=TRUE)を呼び出す
  • 何も考えず或いは短いコードで済ませたい時に適している

8. 参考