2つの分布を比較するノンパラメトリック手法「マンホイットニーのU検定」とは

はじめに

データ分析や統計検定において、正規分布に従わないデータを扱うことはよくあります。そのような場合、ノンパラメトリック検定が有用です。今回は、2つの独立したサンプルの分布を比較するための代表的なノンパラメトリック手法である「マンホイットニーのU検定(Mann-Whitney U test)」について解説します。

マンホイットニーのU検定の概要

マンホイットニーのU検定は、2つの独立したサンプルが同じ分布を持つかどうかを調べるための検定方法です。ウィルコクソンの順位和検定(Wilcoxon rank-sum test)とも呼ばれています。この検定は、サンプルが正規分布に従わない場合や、データが順序尺度である場合に特に有効です。

マンホイットニーのU検定の目的

マンホイットニーのU検定は、2つの独立したサンプルの中央値に統計的な差があるかどうかを調べます。例えば、薬の効果を検証するために、治療群と対照群の効果を比較する場合などに使用されます。

マンホイットニーのU検定の適用条件

  1. データが独立していること: 2つのサンプルは互いに独立している必要があります。
  2. データの尺度が順序尺度以上であること: データは順順位付けができる必要があります。
  3. 正規分布に従わない場合: サンプルが正規分布に従わない場合や、母集団の分布が未知の場合に適用されます。

マンホイットニーのU検定の手順

ステップ1:サンプルの統合と順位付け

まず、2つのサンプルを結合し、それぞれの値に順位を付けます。同じ値が複数ある場合は、平均順位を使用します。

  • サンプルA: [85, 93, 76, 88, 96]
  • サンプルB: [78, 94, 82, 75, 95]

これらの値を結合して順位を付けると、次のようになります。

  • 75 (1位、サンプルB)
  • 76 (2位、サンプルA)
  • 78 (3位、サンプルB)
  • 82 (4位、サンプルB)
  • 85 (5位、サンプルA)
  • 88 (6位、サンプルA)
  • 93 (7位、サンプルA)
  • 94 (8位、サンプルB)
  • 95 (9位、サンプルB)
  • 96 (10位、サンプルA)

ステップ2:各サンプルの順位和を計算

次に、各サンプルの順位和を計算します。

  • サンプルAの順位和\( R_A \)​: 2 + 5 + 6 + 7 + 10 = 30
  • サンプルBの順位和\( R_B \): 1 + 3 + 4 + 8 + 9= 25

ステップ3:検定統計量の計算

マンホイットニーのU検定では、通常、U統計量を計算します。U統計量は次のように求められます。

$$ U_A = n_A・n_B + \frac{n_A(n_A+1)}{2} – R_A $$ $$ U_B = n_A・n_B + \frac{n_B(n_B+1)}{2} – R_B $$

ここで、\( n_A \)​と\( n_B \)​はそれぞれのサンプルサイズ、\( R \)​はサンプルの順位和です。

  • \( n_A = 5 \)​
  • \( n_B = 5 \)​
  • \( R_A = 30 \)​
  • \( R_B = 25 \)​

したがって、

$$ U_A = 5・5 + \frac{5(5+1)}{2} – 30 = 25 + 15 – 30 = 10 $$
$$ U_B = 5・5 + \frac{5(5+1)}{2} – 25 = 25 + 15 – 25 = 15 $$

最終的なU統計量は、これら2つの小さい方を採用します。したがって、\( U_A \)を採択します。​

ステップ4:p値の計算と結果の解釈

最後に、計算されたU統計量を基に、p値を求めます。p値は、U統計量が観測された値以上になる確率を表します。通常、事前に設定された有意水準(例えば、0.05)と比較して、帰無仮説を棄却するかどうかを判断します。

下記URLを見ると、有意水準0.05の棄却値(両側)は2ですが、それよりも\( U_A \)の値が大きいので、帰無仮説は棄却されません。​

https://real-statistics.com/statistics-tables/mann-whitney-table

マンホイットニーのU検定の利点と制約

利点

  1. ノンパラメトリック: データが正規分布に従わない場合でも使用可能です。
  2. 頑健性: 外れ値の影響を受けにくいです。
  3. 簡便性: 計算が比較的簡単であり、順位付けのみで済むため、データの扱いが容易です。

制約

  1. 情報の損失: 順位情報のみを使用するため、元のデータの一部の情報が失われます。
  2. 対称性の仮定: 両サンプルが同じ分布から来ていることを仮定しているため、サンプルサイズが極端に異なる場合には注意が必要です。
  3. サンプルの独立性: サンプルが独立していない場合には使用できません。

まとめ

マンホイットニーのU検定は、2つの独立したサンプルの中央値を比較するための強力なノンパラメトリック検定です。データが正規分布に従わない場合や、順序尺度データを扱う場合に特に有用です。この検定を適切に使用することで、データの背後にある真の差異を見極めることができます。この検定方法を理解し、適切に活用することで、データ分析における洞察を深めることができるでしょう。

統計
データサイエンスを勉強したいブログ

コメント

Copied title and URL