統計学においてカイ二乗分布(χ²分布)を学ぶとき、真っ先に理解すべき概念が自由度(degrees of freedom)です。
自由度はカイ二乗分布の形状・平均・分散をすべて決定する唯一のパラメータであり、検定の精度と直結する重要な値です。
「自由度とは何を意味するのか」「平均や分散とどのような関係にあるのか」「確率密度関数の形にどう影響するのか」といった疑問を持つ方に向けて、本記事ではχ二乗分布の自由度について、計算式・期待値・形状への影響まで丁寧に解説していきます。
統計学の基礎を固めたい方にとって、必ず役立つ内容となっているでしょう。
χ二乗分布の自由度とは:分布の形状を決める唯一のパラメータ
それではまず、χ二乗分布の自由度の意味と役割について解説していきます。
χ二乗分布の自由度(k)とは、分布を定義する際に使われる独立な標準正規変数の個数であり、分布の形・平均・分散・歪度など統計的性質のすべてを決定するパラメータです。
自由度という言葉は「データの中で自由に動ける値の数」という意味合いを持ちますが、χ二乗分布における自由度はより数学的な意味で、独立した二乗和の項の数に対応しています。
自由度が変わると分布の形が根本的に変わるため、統計検定を行う際には自由度を正確に求めることが不可欠です。
χ二乗分布の自由度が持つ3つの役割
①分布の形状(対称性・歪み具合)を決定する
②平均・分散・歪度の値を決定する
③統計表から臨界値を読み取る際の行インデックスとなる
χ二乗分布は常に非負の値をとり、自由度が小さいほど右に裾が伸びた非対称な形状をとります。
自由度が大きくなるにつれて、分布は左右対称に近づき、中心極限定理によって正規分布に収束していきます。
この性質は統計学の理論的基盤として非常に重要な意味を持つでしょう。
自由度の数学的な定義
χ二乗分布の自由度は次のように数学的に定義されます。
Z₁, Z₂, …, Zₖ が互いに独立に標準正規分布 N(0,1) に従うとき
X = Z₁² + Z₂² + … + Zₖ²
このとき X は自由度 k のχ二乗分布に従う(X ∼ χ²(k))
ここで k が「自由度」であり、二乗和の項の個数に等しい
この定義から、自由度 k は「何個の独立した標準正規変数の二乗和か」という情報を持っていることがわかります。
k = 1 なら1個の標準正規変数の二乗、k = 10 なら10個の独立した標準正規変数の二乗和に対応します。
自由度は必ず正の整数ですが、理論上は正の実数に拡張したガンマ分布の特殊ケースとして非整数自由度を扱う場面もあります。
統計検定における自由度の決まり方
実際の統計検定において自由度がどのように決まるかを確認しておきましょう。
カイ二乗適合度検定では自由度 = カテゴリ数 − 1 − 推定パラメータ数 となります。
カイ二乗独立性検定(分割表)では自由度 = (行数 − 1) × (列数 − 1) という公式が使われます。
分散の検定では、標本サイズ n に対して自由度 = n − 1 となります。
自由度がなぜ「n − 1」や「(行数−1)×(列数−1)」になるかというと、データの合計や周辺度数などの制約条件によって「自由に動ける値の数」が減るためです。
この「制約条件の数だけ自由度が減る」という考え方が自由度の直感的な理解につながります。
自由度と検定精度の関係
自由度は単に分布の形を決めるだけでなく、検定の精度(検出力)にも関わります。
自由度が大きい(サンプルサイズや比較カテゴリ数が多い)ほど、検定が持つ情報量が増えますが、臨界値も大きくなるため一概に検出力が高まるとは言えません。
適切な自由度のもとで十分な標本サイズを確保することが、信頼性の高い統計検定の実現につながるでしょう。
特に自由度が非常に小さい(1〜3程度)場合は、分布の非対称性が強く、少しの誤差が検定結果に大きく影響することがあります。
χ二乗分布の平均(期待値)と自由度の関係
続いては、χ二乗分布の平均(期待値)と自由度の関係を確認していきます。
χ二乗分布の平均は自由度 k に等しいという非常にシンプルかつ重要な関係が成り立ちます。
この性質はχ二乗分布の最大の特徴の一つであり、自由度を直感的に理解する手がかりにもなります。
期待値の導出
χ二乗分布の期待値(平均)は定義式から次のように導出できます。
X = Z₁² + Z₂² + … + Zₖ² とするとき
E[X] = E[Z₁²] + E[Z₂²] + … + E[Zₖ²]
標準正規分布では E[Z²] = Var[Z] + (E[Z])² = 1 + 0 = 1
したがって E[X] = 1 + 1 + … + 1 = k
→ χ²(k) の平均 = k(自由度そのもの)
この導出はとてもエレガントで、標準正規分布の分散が1であるという性質から自然に導けます。
平均が自由度 k に等しいということは、自由度が10なら平均は10、自由度が30なら平均は30ということです。
カイ二乗分布表で自由度ごとの臨界値を眺めると、確かに値が自由度の増加とともに大きくなっていることが確認できるでしょう。
分散と自由度の関係
χ二乗分布の分散も自由度から明快に表すことができます。
χ²(k) の分散 = 2k
(自由度の2倍が分散)
導出:Var[X] = Var[Z₁²] + Var[Z₂²] + … + Var[Zₖ²]
標準正規分布では Var[Z²] = E[Z⁴] − (E[Z²])² = 3 − 1 = 2
したがって Var[X] = 2 + 2 + … + 2 = 2k
分散が 2k ということは、自由度が増えるほど分布の広がり(ばらつき)が大きくなることを意味しています。
自由度10のχ二乗分布の標準偏差は √20 ≒ 4.47、自由度30なら √60 ≒ 7.75 となります。
分散が平均の2倍であるという関係は、χ二乗分布の特殊な性質であり、他の多くの確率分布にはない特徴です。
平均・分散・標準偏差の一覧
自由度ごとの平均・分散・標準偏差をまとめると次のようになります。
| 自由度 k | 平均(E[X]=k) | 分散(Var[X]=2k) | 標準偏差(√2k) | 変動係数(√2/√k) |
|---|---|---|---|---|
| 1 | 1 | 2 | 1.414 | 1.414 |
| 2 | 2 | 4 | 2.000 | 1.000 |
| 5 | 5 | 10 | 3.162 | 0.632 |
| 10 | 10 | 20 | 4.472 | 0.447 |
| 20 | 20 | 40 | 6.325 | 0.316 |
| 30 | 30 | 60 | 7.746 | 0.258 |
変動係数(標準偏差÷平均)は自由度が大きくなるほど小さくなり、分布の相対的なばらつきが小さくなっていくことがわかります。
これは自由度が大きくなると分布が正規分布に近づき、相対的に安定した形状になることと対応しています。
χ二乗分布の確率密度関数と形状への影響
続いては、χ二乗分布の確率密度関数(PDF)と自由度による形状の変化を確認していきます。
確率密度関数の形状は自由度によって劇的に変化し、視覚的に理解することが統計的直感の養成に役立ちます。
確率密度関数の数式と読み方
自由度 k のχ二乗分布の確率密度関数(PDF)は次の式で定義されます。
f(x; k) = [x^(k/2−1) × exp(−x/2)] / [2^(k/2) × Γ(k/2)] (x > 0)
f(x; k) = 0 (x ≦ 0)
ここで Γ はガンマ関数:Γ(n) = (n−1)! (n が正整数のとき)
この式は複雑に見えますが、分子の x^(k/2−1) × exp(−x/2) が形状を決め、分母の 2^(k/2) × Γ(k/2) が全体を積分すると1になるよう正規化する役割を持ちます。
k = 2 のとき f(x; 2) = (1/2)×exp(−x/2) となり、指数分布そのものと等価です。
k が大きくなるほど分子の多項式部分 x^(k/2−1) が支配的になり、ピークを持つ山型の形状へと変化します。
自由度による形状の変化パターン
自由度の値によってχ二乗分布のグラフ形状は次のように変化します。
自由度 k = 1 のとき、x = 0 で確率密度が無限大に発散し、x が大きくなるにつれて急速に減少するL字型の形状となります。
自由度 k = 2 のとき、x = 0 で有限の最大値(= 1/2)をとり、単調減少する指数分布型の形状となります。
自由度 k ≧ 3 のとき、x = k − 2 にピークを持つ山型(単峰型)の形状となり、右裾が長く伸びる右歪みの分布となります。
自由度が大きくなるほどピーク位置(最頻値)が右にずれ、分布の幅が広がり、左右対称に近い正規分布的な形状に近づいていきます。
最頻値(モード)と自由度の関係
χ二乗分布の最頻値(モード)は確率密度関数を微分してゼロとおくことで求められます。
χ²(k) の最頻値(モード)= max(k − 2, 0)
k > 2 のとき:モード = k − 2
k ≦ 2 のとき:モード = 0(x=0 付近に集中)
平均 = k、中央値 ≒ k(1 − 2/(9k))³(近似)、最頻値 = k − 2 という関係から、χ二乗分布では最頻値 < 中央値 < 平均 という大小関係が成り立ちます。
これは右裾が長く伸びる非対称分布の典型的な特徴であり、視覚的にグラフを描いたときに直感的に確認できます。
自由度が大きくなるとこの三者の差が相対的に縮まり、正規分布では三者が一致するという性質に近づいていきます。
χ二乗分布のパラメータ推定と実用的な計算
続いては、χ二乗分布のパラメータ推定と実用的な計算方法を確認していきます。
理論的な性質を理解したうえで、実際のデータ分析でどのように活用するかを把握することが統計学の実力向上につながります。
標本分散とχ二乗分布の関係
正規分布に従う母集団から標本を取り出したとき、標本分散とχ二乗分布には次の重要な関係が成り立ちます。
正規母集団 N(μ, σ²) からサイズ n の標本を取り出すとき
(n−1)s² / σ² ∼ χ²(n−1)
ここで s² は標本分散、σ² は母分散、n−1 が自由度
この定理は母分散の信頼区間の構成や、分散の仮説検定(χ二乗検定)の理論的基礎となっています。
自由度が n−1 になるのは、標本平均という1つの制約条件があるためにデータ n 個のうち n−1 個しか自由に動けないからです。
これが「自由度 = 自由に動ける値の数」という直感的説明の代表例となっています。
χ二乗分布の累積確率の計算
特定の値に対するχ二乗分布の累積確率(CDF)や上側確率は、統計ソフトや関数電卓を使って計算します。
Rでは pchisq(x, df, lower.tail=FALSE) で上側確率、pchisq(x, df) で下側確率(CDF)が求められます。
PythonのSciPyでは scipy.stats.chi2.sf(x, df) で上側確率(生存関数)、scipy.stats.chi2.cdf(x, df) で下側確率が計算できます。
Excelでは CHISQ.DIST.RT(x, df) で上側確率、CHISQ.DIST(x, df, TRUE) で下側確率が得られます。
手計算の場合はカイ二乗分布表を使い、自由度と有意水準から臨界値を読み取る方法を用いることになります。
χ二乗分布のモーメント母関数とキュムラント
χ二乗分布のモーメント母関数(MGF)とキュムラント母関数は次の形で表されます。
モーメント母関数 M(t) = (1 − 2t)^(−k/2) (t < 1/2)
キュムラント母関数 K(t) = −(k/2) × ln(1 − 2t)
第1キュムラント(平均)κ₁ = k
第2キュムラント(分散)κ₂ = 2k
第r次キュムラント κᵣ = 2^(r−1) × (r−1)! × k
すべてのキュムラントが自由度 k の一次関数になっているため、χ二乗分布の再生性(加法性)をキュムラントの加法性から証明することが容易にできます。
モーメント母関数の積則から、独立なχ二乗分布の和が自由度を足し合わせたχ二乗分布になることも一目瞭然です。
χ二乗分布の自由度に関連する他の確率分布との関係
続いては、χ二乗分布の自由度と他の重要な確率分布との関係を確認していきます。
χ二乗分布は統計学における多くの分布の基礎となっており、t分布・F分布・ガンマ分布との関係を理解することで統計理論の全体像が見えてきます。
t分布とχ二乗分布の関係
t分布(スチューデントのt分布)はχ二乗分布と標準正規分布から導出されます。
Z ∼ N(0,1)、V ∼ χ²(k) が独立のとき
T = Z / √(V/k) は自由度 k のt分布に従う
T ∼ t(k)
t分布は小サンプルでの平均の検定に使われる分布で、χ二乗分布の自由度がt分布の自由度に直接対応しています。
t分布の自由度が大きくなると標準正規分布に収束しますが、これはχ二乗分布が大自由度で正規分布に近づく性質と平行した現象です。
F分布とχ二乗分布の関係
F分布は二つのχ二乗分布の比から構成されます。
V₁ ∼ χ²(d₁)、V₂ ∼ χ²(d₂) が独立のとき
F = (V₁/d₁) / (V₂/d₂) は自由度 (d₁, d₂) のF分布に従う
F ∼ F(d₁, d₂)
F分布は分散分析(ANOVA)や回帰分析の検定に広く使われており、χ二乗分布を基礎として構成されています。
したがって、χ二乗分布の自由度と性質の理解は、F分布・t分布を含む統計検定全般の理解の土台となるでしょう。
指数分布・ガンマ分布との関係
χ二乗分布はガンマ分布の特殊ケースとして位置づけられており、特に自由度 k = 2 のとき指数分布と等価になります。
χ²(2) は指数分布 Exp(1/2)(スケールパラメータ=2)と等価
χ²(k) = Gamma(k/2, 1/2)(ガンマ分布、形状k/2・レート1/2)
指数分布は待ち時間・寿命データのモデリングに使われる基本的な分布で、χ二乗分布との関係を知ることでガンマ分布族全体の理解が深まります。
統計理論において分布族の相互関係を把握しておくことは、適切な統計モデルを選択する際の強力な武器となるでしょう。
まとめ
本記事では、χ二乗分布の自由度について、数学的な定義から平均・分散との関係、確率密度関数の形状変化、他の分布との関係まで幅広く解説しました。
χ二乗分布の自由度は分布のすべての統計的性質を決定する唯一のパラメータであり、平均 = k・分散 = 2k というシンプルかつ重要な関係を持ちます。
自由度が大きくなるにつれて分布が正規分布に近づき、検定の実務では自由度を正確に計算して適切な臨界値を読み取ることが正確な判断につながります。
t分布・F分布・ガンマ分布との関係も理解することで、統計理論の全体像が見えてくるでしょう。
χ二乗分布の自由度への理解が深まることで、統計学全般の学習が一段と進むことを願っております。