カテゴリ間の有意性を確認することができる「カイ二乗検定」とその算出方法

カイ二乗検定 統計

はじめに

統計学は、異なるカテゴリや群間での差異を評価し、その差が統計的に有意であるかどうかを検証するための手法を提供しています。その中でも、「カイ二乗検定」はカテゴリ間の優位性を確認する際に頻繁に利用される強力な統計手法の一つです。

カイ二乗検定の基本

カイ二乗検定の背景

カイ二乗検定は、観測度数と期待度数の差異を検定する手法です。特に、質的な変数やカテゴリにおいて、観測された度数が期待度数と異なるかどうかを確認するのに有用です。例えば、異なる地域での製品の好みや選好、治療法の有効性など、カテゴリを比較する際にカイ二乗検定が利用されます。

カイ二乗検定のアプローチと例

ステップ1:帰無仮説と対立仮説の設定

まずは検定を行う前に帰無仮説と対立仮説を設定します。これは実際に持っている仮説が正しいかどうかを確認するための課題設定のようなものです。まずはこれらを設定するとともに、得られたデータをクロス集計表の形にまとめ、計算をしていきます。

ある地域で、コーヒーと紅茶の好みが年齢層によって異なるかどうかを調査したいとします。以下の表は、各年齢層の人々がどちらの飲料を好むかを示しています。帰無仮説と対立仮説と用いるデータは以下とします。

  • 帰無仮説(\( H_0 \)​​):年齢層と飲料の好み(コーヒーまたは紅茶)には関連がない。
  • 対立仮説(\( H_1 \)​​):年齢層と飲料の好み(コーヒーまたは紅茶)には関連がある。
年齢層コーヒーが好き紅茶が好き合計
20-29歳301040
30-39歳251540
40-49歳202040
合計7545120

ステップ2:期待度数の計算

期待度数は帰無仮説のもとでの予測される度数であり、通常は全体の度数をカテゴリの割合で掛けて求めます。期待度数は以下の通りです。

$$ E = \frac{行の合計×列の合計}{全体の合計} $$
年齢層コーヒーが好き紅茶が好き
20-29歳\( (40×75) / 120 = 25 \)​​\( (40×45) / 120 = 15 \)​​
30-39歳\( (40×75) / 120 = 25 \)​​\( (40×45) / 120 = 15 \)​​
40-49歳\( (40×75) / 120 = 25 \)​​\( (40×45) / 120 = 15 \)​​

ステップ3:カイ二乗値の計算

カイ二乗値は次の式で計算されます。

$$ \chi^2 = \sum{\frac{(観測度数−期待度数)^2}{期待度数}} $$
年齢層コーヒーが好き紅茶が好き
20-29歳\( (30-25)^2 / 25 = 1 \)\( (10-15)^2 / 15 = 1.67 \)
30-39歳\( (25-25)^2 / 25 = 0 \)\( (15-15)^2 / 15 = 0 \)
40-49歳\( (20-25)^2 / 25 = 1\)\( (20-15)^2 / 15 = 1.67 \)

$$ \chi^2 = 1+1.67+0+0+1+1.67 = 5.34 $$

ステップ4:自由度の計算

自由度は以下の通り計算されます。

$$ 自由度 = (行の数 – 1)×(列の数-1) = (3-1) × (2-1) = 2 $$

ステップ5:カイ二乗分布表を用いたp値の確認

カイ二乗分布表を用いて、自由度2でカイ二乗値5.34に対応するp値を確認します。一般的な有意水準(例えば0.05)でカイ二乗値がその閾値を超えるかどうかを確認します。

カイ二乗分布表によると、自由度2での閾値は次の通りです:

  • p = 0.05 の場合の閾値は 5.991
  • p = 0.01 の場合の閾値は 9.210

カイ二乗値5.34は p = 0.05 の閾値5.991を下回るため、有意水準5%もとでは年齢層と飲料の好みに有意な関連性はないと判断されます。

カイ二乗検定の有用性

カテゴリ間の比較

カイ二乗検定は、質的なデータやカテゴリデータにおいて、異なるグループや条件間の統計的な有意性を確認する際に有用です。例えば、市場調査での商品選好、医学研究での治療法の効果比較など、さまざまな分野で応用されています。

仮説検定の手法としての優位性

カイ二乗検定は非常にシンプルで理解しやすい手法でありながら、統計的な差異を検証するための有力なツールです。そのため、研究やビジネスの現場で広く利用されています。

まとめ

カイ二乗検定は、異なるカテゴリや群間での差異を統計的に評価するための強力な統計手法です。観測度数と期待度数の差異を検証し、有意な差異があるかどうかを判断することができます。そのシンプルな手順と解釈のしやすさから、広範な分野で利用されています。研究や意思決定の際に、カイ二乗検定を駆使してデータの背後に隠れた優位性を明らかにすることが期待されます。

カイ二乗検定におススメの書籍

データ分析に必須の知識・考え方 統計学入門

こちらの書籍は初学者向けの書籍となっていますが、カイ二乗検定だけでなく、t検定など幅広く統計に関する知識が記載されています。もしカイ二乗検定を含む様々な知識を学びたい方にはおススメの書籍となります。

コメント

Copied title and URL