統計学の学習において避けては通れない分布の一つが、カイ二乗分布(χ²分布)です。
正規分布やt分布と並んで、仮説検定や信頼区間の推定において非常に重要な役割を担っています。
「カイ二乗分布とは何か」「どのような性質を持っているのか」「正規分布やガンマ分布とどのように関係しているのか」といった疑問を持つ方は多いでしょう。
本記事では、カイ二乗分布の定義・性質・確率密度関数から、統計学における使われ方まで、数学が得意でない方にもわかりやすく丁寧に解説していきます。
カイ二乗分布とは:独立した標準正規分布の二乗和で定義される確率分布
それではまず、カイ二乗分布の定義と基本的な考え方について解説していきます。
カイ二乗分布(χ²分布)とは、互いに独立した標準正規分布に従う確率変数を二乗してその和をとったときに得られる確率分布です。
具体的には、Z₁, Z₂, …, Zₖがそれぞれ独立に標準正規分布N(0,1)に従うとき、
X = Z₁² + Z₂² + … + Zₖ²
このとき X は自由度kのカイ二乗分布に従うといい、X ∼ χ²(k) と表します。
ここで k は「自由度」と呼ばれるパラメータで、分布の形状を決定する重要な値です。
自由度が変わるとカイ二乗分布の形・平均・分散がすべて変化するため、統計検定を行う際には自由度を正確に求めることが不可欠です。
カイ二乗分布は常に非負(0以上)の値しかとらず、その形状は右に裾が伸びた非対称な分布という特徴があります。
カイ二乗分布と正規分布の関係
カイ二乗分布は正規分布を基礎として定義されており、両者の関係は非常に密接です。
標準正規分布N(0,1)に従う確率変数を一つだけ二乗したものは、自由度1のカイ二乗分布χ²(1)に従います。
これは「正規分布の二乗和がカイ二乗分布を生む」という関係の最も単純な例です。
また、カイ二乗分布の自由度が大きくなると、中心極限定理により分布の形が正規分布に近づいていく性質があります。
自由度が30以上になると近似的に正規分布として扱えることも多く、統計計算の実務ではこの近似が活用されることがあります。
逆に自由度が小さい場合は非対称性が強くなり、正規分布との乖離が大きくなるため注意が必要です。
カイ二乗分布とガンマ分布の関係
カイ二乗分布はガンマ分布の特殊ケースとして位置づけられています。
ガンマ分布はShape(形状パラメータ)αとRate(レートパラメータ)βという二つのパラメータを持つ連続型確率分布です。
自由度kのカイ二乗分布は、ガンマ分布Gamma(α, β)において
α = k/2、β = 1/2(または scale = 2)とした場合と等価です。
すなわち χ²(k) = Gamma(k/2, 1/2) が成り立ちます。
この関係により、カイ二乗分布の確率密度関数・累積分布関数・モーメント生成関数はガンマ分布の公式から導出することができます。
統計理論の教科書ではカイ二乗分布をガンマ分布の視点から説明しているものも多く、どちらの観点からも理解しておくことが深い理解につながるでしょう。
カイ二乗分布の確率密度関数
カイ二乗分布の確率密度関数(PDF)は以下の式で表されます。
f(x; k) = x^(k/2 – 1) × exp(-x/2) / (2^(k/2) × Γ(k/2)) (x > 0)
ここで Γ はガンマ関数、k は自由度を表します。
x ≦ 0 のとき f(x; k) = 0
この式からわかるとおり、カイ二乗分布の形状は自由度 k によって完全に決まります。
k = 1 のとき分布は x = 0 で最大値をとり急激に減少する形状、k = 2 のとき単調減少の指数分布的な形状、k ≧ 3 で山型の形状になります。
確率密度関数の理解は、統計ソフトを使わず手計算で確率を求める必要がある場面で特に重要になります。
カイ二乗分布の性質:平均・分散・歪度・再生性
続いては、カイ二乗分布が持つ代表的な統計的性質を確認していきます。
カイ二乗分布の主な性質を把握することで、統計検定における挙動の理解が格段に深まるでしょう。
平均・分散・歪度の公式
カイ二乗分布の平均(期待値)・分散・歪度は、自由度 k を使って以下のように表されます。
平均(期待値)E[X] = k
分散 Var[X] = 2k
歪度(わいど)= √(8/k)
尖度 = 12/k
平均が自由度 k に等しいというのは、カイ二乗分布の非常に重要な性質の一つです。
分散が 2k である(平均の2倍)ことも重要で、自由度が大きくなるほど分布が広がることを意味しています。
歪度は √(8/k) なので、自由度が大きくなるほど歪度が 0 に近づき、対称な正規分布に近づいていくことがわかります。
尖度も同様に自由度が大きくなるほど 0 に近づき、正規分布の尖度(過剰尖度 = 0)に収束します。
再生性(加法性)の性質
カイ二乗分布には「再生性(加法性)」と呼ばれる重要な性質があります。
再生性とは、互いに独立な複数のカイ二乗分布に従う確率変数の和もまたカイ二乗分布に従うという性質です。
X₁ ∼ χ²(k₁)、X₂ ∼ χ²(k₂) が互いに独立のとき
X₁ + X₂ ∼ χ²(k₁ + k₂)
つまり、自由度は足し算されます。
この性質は、分散分析(ANOVA)や独立性の検定など、複数の要因が絡む統計解析において非常に重要な役割を果たします。
再生性があることで、複合的な統計モデルの理論的な解析が可能になるでしょう。
カイ二乗分布の累積分布関数と上側確率
カイ二乗分布の累積分布関数(CDF)は不完全ガンマ関数を使って表されます。
統計検定では「上側確率(p値)」が重要で、観測されたカイ二乗統計量が棄却域に入るかどうかを判定します。
具体的には「自由度 k のカイ二乗分布において、値 x 以上となる確率(上側確率)」をカイ二乗表や統計ソフトで求めます。
手計算では複雑なため、実務的にはカイ二乗分布表(χ²表)を使って臨界値を読み取る方法が広く使われています。
統計ソフトを使う場合はRのqchisq関数やPythonのscipy.stats.chi2.ppf関数で簡単に臨界値を求められます。
カイ二乗分布の統計学における使われ方
続いては、カイ二乗分布が統計学でどのように使われているかを確認していきます。
カイ二乗分布は仮説検定・適合度検定・独立性検定・分散の推定など、実データ分析の様々な場面で登場する重要な分布です。
カイ二乗検定の種類と使い方
カイ二乗検定には主に「独立性の検定」「適合度検定」「均一性の検定」の三種類があります。
独立性の検定では、2つのカテゴリカル変数が独立か否かを判定するために使われます。
例えば「性別(男・女)」と「好きな食べ物(和食・洋食・中華)」に関連性があるかどうかを、アンケートデータから検定する場合が典型的な例です。
適合度検定では、観測された度数分布が理論的な分布(例:均等分布・正規分布など)と一致するかを検定します。
サイコロの目が均等に出るかどうかの検定や、ある集団の血液型分布が日本人全体の分布と一致するかの検定などがその例です。
分散の検定と信頼区間への応用
カイ二乗分布は正規分布に従う母集団の分散の推定にも使われます。
標本分散 s² と母分散 σ² の関係において、(n-1)s²/σ² が自由度 n-1 のカイ二乗分布に従うという重要な定理があります。
(n-1)s²/σ² ∼ χ²(n-1)
この性質を利用して、母分散の信頼区間を構成できます。
例:95%信頼区間 → [(n-1)s²/χ²(0.975), (n-1)s²/χ²(0.025)]
製造業の品質管理では、製品の寸法や重量のばらつき(分散)が規定範囲内にあるかを検定する際にカイ二乗分布が使われます。
また、二つの母集団の分散を比較するF検定もカイ二乗分布を基礎としており、カイ二乗分布の理解はF分布の理解にも直結しています。
カイ二乗分布の近似と実用上の注意点
カイ二乗検定を使う際には、いくつかの前提条件と注意点を押さえておく必要があります。
カイ二乗独立性検定では、期待度数が5未満のセルが全体の20%を超える場合、検定の精度が低下するとされています。
この場合はフィッシャーの正確検定などの代替手法を検討することが推奨されます。
また、サンプルサイズが小さい場合はイェーツの連続修正を適用することで検定の精度を改善できる場合があります。
自由度が非常に大きい場合は正規近似を使う方法もありますが、現代では統計ソフトが正確な計算を行うため、近似が必要な場面は減っています。
カイ二乗分布のグラフと形状の変化
続いては、カイ二乗分布のグラフと自由度による形状の変化を確認していきます。
カイ二乗分布は自由度によって形状が大きく変わるため、グラフで視覚的に確認することが理解の助けになります。
自由度ごとのグラフの特徴
自由度 k = 1 のとき、グラフは x = 0 付近に集中し、急激に減少するL字型の形状をとります。
自由度 k = 2 のとき、単調減少の指数分布に似た形状になり、x = 0 で最大値をとります。
自由度 k = 3 以上になると、山型(単峰型)の形状になり、ピークの位置は k – 2 付近になります。
自由度が大きくなるにつれてピーク位置が右にずれ、分布の幅が広がり、形状が左右対称な正規分布に近づいていきます。
| 自由度 k | 平均 | 分散 | グラフ形状 |
|---|---|---|---|
| 1 | 1 | 2 | L字型(単調減少) |
| 2 | 2 | 4 | 単調減少(指数分布型) |
| 5 | 5 | 10 | 山型(右裾あり) |
| 10 | 10 | 20 | 山型(右に歪) |
| 30 | 30 | 60 | ほぼ左右対称(正規分布に近い) |
モーメント母関数とモーメント
カイ二乗分布のモーメント母関数(MGF)は以下の式で表されます。
M_X(t) = (1 – 2t)^(-k/2) (t < 1/2)
この式から各次のモーメントを導出できます。
E[X] = k(1次モーメント = 平均)
E[X²] = k(k+2)(2次モーメント)
モーメント母関数は分布の一意性を保証するため、分布同士の比較・和の分布の導出に使われます。
カイ二乗分布の加法性(再生性)もモーメント母関数の積則から証明することができます。
カイ二乗分布の統計ソフトでの計算方法
実際のデータ分析では、統計ソフトを使ってカイ二乗分布の確率や臨界値を計算します。
Rではdchisq(x, df)で確率密度、pchisq(x, df)で累積確率、qchisq(p, df)で分位点(臨界値)を計算できます。
PythonではSciPyライブラリのscipy.stats.chi2.pdf()、cdf()、ppf()を使うことで同様の計算が可能です。
Excelでは CHISQ.DIST.RT(x, df) で上側確率、CHISQ.INV.RT(p, df) で臨界値を求められます。
手計算の場合はカイ二乗分布表(χ²表)を参照し、有意水準と自由度から臨界値を読み取る方法を用います。
まとめ
本記事では、カイ二乗分布の定義・性質・統計学における使われ方についてわかりやすく解説しました。
カイ二乗分布は「独立した標準正規分布の二乗和」として定義され、正規分布・ガンマ分布と深い関係を持つ重要な確率分布です。
平均 = k、分散 = 2k という明快な公式と、再生性という強力な性質を持ち、仮説検定・分散推定・独立性の検定など統計学の実務の幅広い場面で活躍します。
自由度が大きくなるにつれて正規分布に近づくという視覚的な特徴も、理解を深める上で重要な観点といえるでしょう。
本記事がカイ二乗分布への理解を深める一助となれば幸いです。