統計学の仮説検定において、カイ二乗分布表(χ²表)は欠かせないツールです。
しかし、表の見方や自由度・有意水準・臨界値の関係を正しく理解しないと、検定を誤って行ってしまうリスクがあります。
「カイ二乗分布表の行と列はどう読むの?」「有意水準5%のとき臨界値はどこを見ればいい?」「パーセント点って何?」といった疑問を持つ方に向けて、本記事ではカイ二乗分布表の見方と使い方を丁寧に解説していきます。
統計学の学習や検定の実務に取り組む方の理解を深めるお手伝いができれば幸いです。
カイ二乗分布表の見方:行が自由度・列が有意水準に対応している
それではまず、カイ二乗分布表の基本的な構成と読み方について解説していきます。
カイ二乗分布表は、自由度(行)と有意水準またはパーセント点(列)に対応した臨界値を一覧にした表です。
一般的なカイ二乗分布表では、行に自由度(df = 1, 2, 3, …)、列に有意水準または累積確率(0.995, 0.99, 0.975, 0.95, 0.9, 0.5, 0.1, 0.05, 0.025, 0.01, 0.005など)が並んでいます。
表の中の数値は「その自由度・確率に対応するカイ二乗値(臨界値)」を表しています。
カイ二乗分布表の読み方の基本
①検定で使う自由度を求める(行の選択)
②有意水準(例:5%、1%)を決め、上側確率として列を選ぶ(例:上側5%なら列0.05)
③行と列の交点の値が臨界値χ²(df, α)
④計算したカイ二乗統計量 > 臨界値 なら「帰無仮説を棄却」
例えば自由度3・上側有意水準5%のとき、カイ二乗分布表の第3行・0.05列の交点にある数値が臨界値です。
一般的な表ではこの値は7.815となっており、計算した統計量がこれを超えた場合に帰無仮説を棄却します。
表の列の表記には「上側確率」を示す書き方と「累積確率(下側確率)」を示す書き方があるため、使用する表がどちらの表記かを最初に確認することが非常に重要です。
上側確率と下側確率の違いと注意点
カイ二乗分布表を使う際に最も混乱しやすいのが、上側確率と下側確率の区別です。
上側確率(Right-tail probability)とは「カイ二乗値がある値以上となる確率」であり、仮説検定では一般的にこちらを使います。
下側確率(Left-tail probability / CDF)とは「カイ二乗値がある値以下となる確率」で、累積分布関数の値に対応します。
上側確率 = 1 − 下側確率(累積確率)
例:上側確率5% = 下側確率95%(列0.95)に対応
有意水準α = 0.05(5%)の棄却域は上側5%の臨界値より右の領域
日本の統計教科書や統計検定の問題集では上側確率表記が主流ですが、英語の教科書では下側確率(CDF)表記が使われることもあります。
表を使う前に必ず「上側確率表か下側確率表か」を表のヘッダーや説明文で確認する習慣をつけてください。
この確認を怠ると臨界値を誤って読み取り、検定の結論が真逆になる深刻なミスが生じる可能性があります。
有意水準と棄却域の設定
統計検定では、帰無仮説を棄却するための基準となる確率を「有意水準(α)」と呼びます。
最もよく使われる有意水準は5%(α = 0.05)と1%(α = 0.01)の二種類です。
有意水準5%を選んだ場合、「帰無仮説が正しいときに統計量が臨界値を超える確率が5%以下」であれば帰無仮説を棄却します。
カイ二乗検定は基本的に上側(右側)の一側検定として扱われるため、棄却域はカイ二乗分布の右裾の領域になります。
有意水準を厳しく設定する(1%や0.1%など)と、帰無仮説を棄却しにくくなりますが、偽陽性(第一種の過誤)のリスクを下げられます。
パーセント点の意味と表記の読み方
カイ二乗分布表のパーセント点とは、ある確率に対応するカイ二乗値のことです。
「第95パーセント点」とは、カイ二乗値がその値以下になる確率が95%(下側確率)に対応する値を指します。
一方で上側5%パーセント点は「その値以上になる確率が5%」に対応するため、下側95%パーセント点と同じ値となります。
統計検定の問題では「上側5%点」「上側1%点」という表記が多く使われるため、この意味をしっかり理解しておくことが大切です。
自由度の求め方と検定への応用
続いては、カイ二乗検定における自由度の求め方と検定への応用を確認していきます。
自由度の計算方法は検定の種類によって異なり、正しく計算しないと臨界値を誤って読み取ることになってしまいます。
独立性検定の自由度の求め方
クロス集計表(分割表)を使った独立性のカイ二乗検定では、自由度は次の式で計算します。
自由度 df = (行数 − 1) × (列数 − 1)
例:3行×4列の分割表 → df = (3−1)×(4−1) = 2×3 = 6
行数は分類変数Aのカテゴリ数、列数は分類変数Bのカテゴリ数です。
例えば「学年(1年・2年・3年)」と「クラブ活動への参加(する・しない)」の独立性検定では、df = (3−1)×(2−1) = 2 となります。
自由度を間違えると異なる行の臨界値を使ってしまうため、検定の前に必ず自由度を確認することが必要です。
適合度検定の自由度の求め方
適合度検定では、自由度はカテゴリ数 k から制約条件の数を引いた値となります。
自由度 df = k − 1(確率分布のパラメータを推定しない場合)
例:6面のサイコロの適合度検定(k=6)→ df = 6 − 1 = 5
分布のパラメータをデータから推定して使う場合は、推定したパラメータの数だけ自由度がさらに減ります。
例えば正規分布への適合度検定で平均と分散の両方を推定した場合は df = k − 1 − 2 = k − 3 となります。
カイ二乗統計量の計算と表の読み取り実例
実際のカイ二乗検定の手順を具体的な例で確認しましょう。
【例】コインを100回投げて表が45回、裏が55回出た。このコインは公正か(有意水準5%)
帰無仮説:表裏の確率はそれぞれ1/2
期待度数:表50回、裏50回
カイ二乗統計量:(45−50)²/50 + (55−50)²/50 = 25/50 + 25/50 = 1.00
自由度:2−1 = 1
臨界値(上側5%、df=1):3.841
1.00 < 3.841 → 帰無仮説を棄却できない(公正なコインと判断)
この例のように、カイ二乗統計量を計算してカイ二乗分布表の臨界値と比較することで検定の結論が得られます。
統計量 > 臨界値 であれば「統計的に有意差あり(帰無仮説棄却)」、統計量 ≦ 臨界値 であれば「有意差なし(帰無仮説を棄却しない)」と判断します。
カイ二乗分布表の主な臨界値一覧
続いては、よく使われる自由度・有意水準の組み合わせにおける臨界値を確認していきます。
検定を行う際の参考として活用してください。
| 自由度(df) | 上側10%(α=0.10) | 上側5%(α=0.05) | 上側1%(α=0.01) | 上側0.1%(α=0.001) |
|---|---|---|---|---|
| 1 | 2.706 | 3.841 | 6.635 | 10.828 |
| 2 | 4.605 | 5.991 | 9.210 | 13.816 |
| 3 | 6.251 | 7.815 | 11.345 | 16.266 |
| 4 | 7.779 | 9.488 | 13.277 | 18.467 |
| 5 | 9.236 | 11.070 | 15.086 | 20.515 |
| 10 | 15.987 | 18.307 | 23.209 | 29.588 |
| 20 | 28.412 | 31.410 | 37.566 | 45.315 |
| 30 | 40.256 | 43.773 | 50.892 | 59.703 |
自由度と臨界値の関係の読み解き方
上の表から、自由度が大きくなるほど臨界値が大きくなることが読み取れます。
これはカイ二乗分布の平均が自由度 k に等しく、自由度が大きいほど分布全体が右にシフトするためです。
また、有意水準を厳しく(0.05→0.01→0.001)するほど臨界値が大きくなり、帰無仮説を棄却しにくくなっていることも確認できます。
実際の検定では「どの有意水準を設定するか」が結論に大きく影響するため、研究の目的や分野の慣習に基づいて適切に決定することが重要です。
両側検定でのカイ二乗分布表の使い方
カイ二乗検定は通常は上側(右側)の一側検定として使われますが、分散の検定など一部では両側検定を行う場合もあります。
両側検定では上側と下側の両方に棄却域を設けるため、有意水準αに対して上側α/2と下側α/2の臨界値を求める必要があります。
例えば有意水準5%の両側検定では、上側2.5%(累積97.5%)と下側2.5%(累積2.5%)の臨界値を使います。
下側の臨界値はカイ二乗分布表の列「0.025(累積)」から読み取り、上側は列「0.975(累積)」または「上側0.025」から読み取ります。
カイ二乗分布表を使った検定の実践的な注意事項
続いては、カイ二乗分布表を使った検定を実践する際の注意事項を確認していきます。
正確な検定を行うためには、表の読み方だけでなく検定の前提条件の確認も欠かせません。
期待度数が小さい場合の対処法
カイ二乗検定では、各セルの期待度数が5以上であることが前提条件とされています。
期待度数が5未満のセルが全体の20%を超える場合は、カイ二乗検定の精度が低下するとされています。
この場合の対処法として、カテゴリを統合して期待度数を増やす方法や、フィッシャーの正確検定に切り替える方法が推奨されます。
2×2の分割表では、サンプルサイズが小さい場合にはイェーツの連続修正を適用することで検定の精度を改善できます。
検定力と標本サイズの関係
カイ二乗検定の検定力(帰無仮説が偽であるときに正しく棄却できる確率)は標本サイズに依存します。
標本サイズが小さいと検定力が低くなり、実際に差があっても検出できない(第二種の過誤)リスクが高まります。
事前にサンプルサイズの計算(検出力分析)を行い、必要な標本数を確保してから調査・実験を行うことが重要です。
逆に標本サイズが非常に大きいと、実質的に小さな差も統計的に有意と判定されるため、効果量の評価も合わせて行うことが推奨されます。
統計ソフトとカイ二乗分布表の使い分け
現在の実務的な統計解析では、RやPython・SPSSなどの統計ソフトがカイ二乗検定を自動で行い、p値も出力してくれます。
統計ソフトのp値が有意水準より小さければ帰無仮説を棄却するという判断は、カイ二乗分布表で臨界値と比較する方法と本質的に等価です。
カイ二乗分布表は統計学の基礎理解・手計算での練習・統計検定(試験)対策に不可欠なツールですが、実務での使用では統計ソフトの利用が効率的です。
基礎を理解したうえで統計ソフトを使いこなすことが、信頼性の高いデータ分析につながるでしょう。
まとめ
本記事では、カイ二乗分布表の見方と使い方について、自由度・有意水準・臨界値・パーセント点の意味から実際の検定への応用まで詳しく解説しました。
カイ二乗分布表は「行=自由度、列=有意水準(上側確率)、交点=臨界値」という構成を理解すれば、スムーズに読み取ることができます。
上側確率と下側確率の区別を正確に把握し、使用する表の表記方式を事前に確認することが正確な検定の第一歩です。
自由度の求め方は検定の種類によって異なるため、独立性検定・適合度検定それぞれの公式をしっかり習得しておくことをおすすめします。
カイ二乗分布表の活用を通じて、統計学への理解がさらに深まることを願っております。