統計学を学ぶなかで、二項分布と正規分布の違いに疑問を持つ方は多くいます。
どちらも確率分布として広く使われますが、その性質・適用場面・グラフの形状は大きく異なります。
この記事では、二項分布と正規分布の違い・離散分布と連続分布の区別・近似の考え方・グラフの形状の特徴・実際の使い分けのポイントまで、詳しく解説していきます。
二項分布と正規分布の根本的な違いとは?まず押さえる結論
それではまず、二項分布と正規分布の最も根本的な違いと、押さえるべき結論から解説していきます。
最大の違いは、二項分布は「離散分布」であり、正規分布は「連続分布」であるという点です。
この1点が、両者の性質・確率の計算方法・適用場面のすべてに影響を与えています。
二項分布と正規分布の最重要な違い:二項分布はX=0, 1, 2, …, nという整数値のみをとる「離散分布」です。正規分布はXが実数の範囲すべての値をとる「連続分布」です。この違いにより、確率の計算方法が根本的に異なります(二項分布は確率質量関数・正規分布は確率密度関数を使用)。
ただし、二項分布はnが大きくなるにつれて正規分布に近似できるという重要な性質を持っており、この近似が実用上非常に便利な計算ツールとなっています。
離散分布と連続分布の違い
続いては、離散分布と連続分布という概念の違いと、二項分布・正規分布への対応について確認していきます。
離散分布としての二項分布
二項分布は離散確率分布の代表例です。
「10回中3回成功する確率」「100個中5個が不良品である確率」のように、成功回数は必ず整数値をとります。
離散分布では、各整数値に対して確率質量関数P(X=k)が定義され、すべてのkに対するP(X=k)の総和は1になります。
グラフで表すと、各整数値の上に棒グラフの形で確率が表示される棒グラフ(ヒストグラム)形式になります。
連続分布としての正規分布
正規分布は連続確率分布の代表例です。
身長・体重・測定誤差など、実数の範囲で連続的に変化する量をモデル化する際に使われます。
連続分布では、特定の1点での確率はゼロ(P(X=a)=0)となり、区間の確率(P(a≦X≦b))のみが意味を持ちます。
確率は確率密度関数f(x)の積分として計算され、グラフは美しい釣鐘型の曲線(ベル曲線)として描かれます。
二項分布と正規分布の比較表
| 比較項目 | 二項分布 | 正規分布 |
|---|---|---|
| 分布の種類 | 離散分布 | 連続分布 |
| とりうる値 | 0, 1, 2, …, n(整数) | -∞から+∞(実数全体) |
| パラメータ | n(試行回数)、p(成功確率) | μ(平均)、σ²(分散) |
| 確率の計算 | 確率質量関数(PMF) | 確率密度関数(PDF) |
| 期待値 | np | μ |
| 分散 | np(1-p) | σ² |
| グラフ形状 | 棒グラフ(対称or非対称) | 釣鐘型曲線(対称) |
二項分布の正規分布への近似の考え方
続いては、二項分布が正規分布に近似できる条件と、その考え方を確認していきます。
中心極限定理と正規分布近似
二項分布が正規分布に近似できる理論的根拠は、中心極限定理(Central Limit Theorem)にあります。
中心極限定理とは、「独立同分布の確率変数の和は、nが大きくなるにつれて正規分布に近づく」という定理です。
二項分布は独立なベルヌーイ試行の成功数の和として表せるため、nが十分に大きいとき、B(n,p)はN(np, np(1-p))の正規分布で近似できます。
正規分布近似が有効な条件
二項分布を正規分布で近似するための目安として、np≧5かつn(1-p)≧5という条件がよく使われます。
より厳密には、np≧10かつn(1-p)≧10を要求する場合もあります。
pが0または1に非常に近い場合(例:p=0.01)は、nが大きくても分布が歪んでおり、正規分布近似の精度が低くなることに注意が必要です。
連続性の補正(Continuity Correction)
離散分布である二項分布を連続分布の正規分布で近似する際には、連続性の補正(±0.5の補正)を行うことで近似精度が向上します。
連続性の補正の例:
P(X≦10)を正規近似する場合:P(X≦10.5)として計算する
P(X=10)を正規近似する場合:P(9.5≦X≦10.5)として計算する
P(X≧10)を正規近似する場合:P(X≧9.5)として計算する
二項分布と正規分布の使い分けのポイント
続いては、二項分布と正規分布をどのような場面でどちらを使うべきかという使い分けのポイントを確認していきます。
二項分布を使うべき場面
以下の条件が揃う場合は、二項分布を使用するのが適切です。
試行回数nが明確に定義されており、結果が「成功か失敗か」の2値であること・成功確率pが一定であること・各試行が独立であることが満たされる場合です。
品質管理での不良品数・医薬品試験での治療成功者数・選挙における票数の予測など、カウントデータを扱う場面で二項分布が適切です。
正規分布を使うべき場面
身長・体重・測定値・テストの点数など、連続的な量のデータを扱う場合は正規分布が適切です。
また、nが十分に大きく(np≧5かつn(1-p)≧5)二項分布の計算が煩雑になる場合には、正規分布近似を活用することで計算を簡略化できます。
グラフの形状から分布を見分ける
データのヒストグラムを描いたとき、左右非対称の棒グラフ形状であれば二項分布(p≠0.5の場合)・左右対称の釣鐘型曲線であれば正規分布が疑われます。
ただし、p=0.5のとき二項分布も左右対称になるため、データの性質(整数値か連続値か)も合わせて判断することが重要です。
まとめ
この記事では、二項分布と正規分布の違い・離散分布と連続分布の区別・正規分布近似の条件・使い分けのポイント・グラフの形状の特徴について詳しく解説しました。
最大の違いは「離散分布(二項分布)か連続分布(正規分布)か」という点にあり、この違いが確率計算の方法・適用場面・グラフ形状のすべてに影響します。
nが大きいときの正規分布近似は、二項分布の計算を大幅に簡略化できる強力なツールであり、連続性の補正を加えることで近似精度がさらに向上します。
データの性質と問題の状況に応じて二項分布と正規分布を適切に使い分け、統計的な分析の精度を高めていただければ幸いです。