統計学の授業や仕事のデータ分析で「正規分布」という言葉が登場し、「なんとなく釣り鐘型のグラフだとはわかるけど、詳しい計算方法はよくわからない」という方は多いのではないでしょうか。
正規分布は統計学の中心的な概念であり、品質管理・医学研究・金融・機械学習など、幅広い分野で活用されています。
この記事では、正規分布の定義・確率密度関数・標準化・標準正規分布表の使い方・Excelでの計算方法まで、丁寧にわかりやすく解説します。
数学が苦手な方でも理解できるよう、具体例を使って説明しますのでご安心ください。
正規分布とは何か?基本概念をわかりやすく解説
それではまず、正規分布の基本的な概念と特徴について解説していきます。
正規分布は統計学で最も重要な確率分布の一つであり、多くの自然現象や社会現象に当てはまります。
正規分布の主な特徴
① 左右対称の釣り鐘型(ベルカーブ)の形をしている
② 平均値・中央値・最頻値がすべて一致する
③ 平均μと標準偏差σの2つのパラメータで完全に決まる
④ 全面積(確率の総和)は1(100%)
⑤ 平均±1σの範囲に約68.3%のデータが含まれる
⑥ 平均±2σの範囲に約95.4%、平均±3σの範囲に約99.7%が含まれる
正規分布は英語で「Normal distribution」または「Gaussian distribution(ガウス分布)」とも呼ばれ、ドイツの数学者カール・フリードリヒ・ガウスが確立に大きく貢献したことからその名があります。
身近な例を挙げると、「同年齢の人々の身長」「ある工場で製造された部品の長さ」「試験の得点分布」などが正規分布に近い分布を示すことが多いです。
正規分布の確率密度関数(PDF)
正規分布の形は「確率密度関数(Probability Density Function:PDF)」という数式で表されます。
正規分布の確率密度関数
f(x) = (1 / (σ√(2π))) × exp(-(x-μ)² / (2σ²))
ここで:
μ(ミュー):平均値(分布の中心位置)
σ(シグマ):標準偏差(分布の広がり)
π:円周率(≈3.14159…)
exp:自然指数関数(eの累乗)
この式は複雑に見えますが、「平均μを中心とした左右対称の釣り鐘型の曲線を描く」という本質を数式化したものです。
σが大きいほど分布は横に広く平たくなり、σが小さいほど中心に集中した細い山型になります。
平均と標準偏差が正規分布の形を決める
正規分布の形は平均μと標準偏差σの2つだけで完全に決まります。
平均μは分布の中心(山の頂点)の位置を決め、標準偏差σは分布の広がり(山の幅)を決めます。
| 条件 | 分布の形 | 例 |
|---|---|---|
| μが大きい・σ一定 | グラフが右に移動 | 平均身長が高い集団 |
| μが小さい・σ一定 | グラフが左に移動 | 平均身長が低い集団 |
| μ一定・σが大きい | 山が低く横広の形 | 個人差が大きいデータ |
| μ一定・σが小さい | 山が高く細い形 | 精密に管理された製品データ |
標準正規分布とは?標準化の方法を解説
続いては、標準正規分布と標準化(z変換)の方法について確認していきます。
標準正規分布表を使えるようになると、確率の計算が格段に楽になります。
標準化(z変換)とは何か
標準正規分布とは、平均μ=0・標準偏差σ=1の特別な正規分布のことです。
任意の正規分布を標準正規分布に変換することを「標準化」または「z変換」といいます。
標準化(z変換)の計算式
z = (x – μ) / σ
ここで:
x:元のデータの値
μ:データの平均値
σ:データの標準偏差
z:標準化された値(z得点・zスコア)
例:平均身長170cm、標準偏差6cmの集団で、身長182cmの人のzスコアは
z = (182 – 170) / 6 = 12/6 = 2.0
z得点は「平均からどれだけ標準偏差分離れているか」を示します。
z=2.0は「平均より2標準偏差分だけ大きい」ことを意味します。
標準正規分布表の読み方と使い方
標準正規分布表(z表)を使うと、特定のz値以下の確率(累積確率)を求めることができます。
たとえばz=1.96(≈2.0)の場合、累積確率は約97.5%です。
これはデータが「平均±1.96σ」の範囲に収まる確率が95%(両側)であることを意味します。
統計的仮説検定では「有意水準5%(確率0.05)」に対応するz値として1.96がよく使われます。
| z値 | 片側確率(z以下) | 両側95%区間 | 含まれる割合 |
|---|---|---|---|
| ±1.00 | 84.13% | -1.00〜+1.00 | 68.27% |
| ±1.645 | 95.00% | -1.645〜+1.645 | 90.00% |
| ±1.960 | 97.50% | -1.960〜+1.960 | 95.00% |
| ±2.000 | 97.72% | -2.000〜+2.000 | 95.45% |
| ±2.576 | 99.50% | -2.576〜+2.576 | 99.00% |
| ±3.000 | 99.87% | -3.000〜+3.000 | 99.73% |
68-95-99.7ルールの覚え方と応用
正規分布で最も重要な性質の一つが「68-95-99.7ルール(3シグマルール)」です。
平均±1σの範囲に約68%、±2σに約95%、±3σに約99.7%のデータが含まれることを覚えておきましょう。
製造業の品質管理では「6シグマ(6σ)」という概念があり、平均から±6σ以内に99.9999998%のデータが収まる(不良率が約2ppb)レベルの高精度製造を目指す品質管理手法として知られています。
正規分布の計算方法:ExcelとPythonを使う
続いては、正規分布の確率をExcelやPythonを使って計算する具体的な方法を確認していきます。
実際のデータ分析に役立つ実践的な内容です。
Excelで正規分布の確率を計算する方法
ExcelにはNORM.DIST関数とNORM.S.DIST関数が用意されています。
ExcelでのNORM.DIST関数の使い方
NORM.DIST(x, 平均, 標準偏差, TRUE/FALSE)
TRUE:累積分布関数(x以下の確率を返す)
FALSE:確率密度関数(その点での密度を返す)
例:平均170、標準偏差6の正規分布で x=182 以下の確率
=NORM.DIST(182, 170, 6, TRUE) → 約0.9772(97.72%)
標準正規分布での計算(z値から確率)
=NORM.S.DIST(2.0, TRUE) → 約0.9772
確率からx値(パーセンタイル)を逆算:NORM.INV(確率, 平均, 標準偏差)
これらの関数を使えば、統計的仮説検定・信頼区間の計算・偏差値の算出などをExcelで素早く行うことができます。
偏差値の計算と正規分布の関係
日本の教育現場でよく使われる「偏差値」も正規分布の標準化に基づいた指標です。
偏差値の計算式
偏差値 = 50 + 10 × (x – μ) / σ = 50 + 10z
例:テストの平均が60点、標準偏差が12点の場合
84点の偏差値 = 50 + 10 × (84-60)/12 = 50 + 10×2 = 70
48点の偏差値 = 50 + 10 × (48-60)/12 = 50 + 10×(-1) = 40
偏差値は標準化したz得点を「平均50・標準偏差10」の形に変換したものです。
偏差値70は上位約2.3%、偏差値60は上位約15.9%に相当します。
中心極限定理と正規分布の重要性
正規分布が統計学で特別に重視される理由の一つに「中心極限定理」があります。
中心極限定理とは、「元の分布の形に関わらず、標本サイズが大きくなるほど標本平均の分布は正規分布に近づく」という定理です。
つまり、正規分布でないデータであっても、十分な標本数で平均を取り続けると正規分布に収束するということです。
この性質のおかげで、統計的仮説検定・推定・信頼区間など多くの統計手法で正規分布を前提とした計算が有効となります。
正規分布の実際の応用例
続いては、正規分布が実際にどのような場面で応用されているかを確認していきます。
品質管理・医学・金融など幅広い分野での活用例を紹介します。
品質管理でのシグマ管理
製造業の品質管理では、製品の寸法・重量・強度などの測定値が正規分布に従うと仮定して管理基準を設定します。
管理限界線(UCL・LCL)は一般に「平均±3σ」に設定され、この範囲を外れるデータが出た場合に工程の異常を疑います。
SPC(統計的工程管理)やXbar-R管理図などの品質管理ツールはすべて正規分布の理論を基盤としています。
医学・疫学での正規分布の活用
医学の分野では、血圧・コレステロール値・BMIなど多くの生体測定値が正規分布に従います。
「基準値(正常値)」の設定には、健常者のデータの正規分布から「平均±2σ」の範囲を正常域とする方法が広く使われています。
臨床試験での有効性評価や薬の用量設計にも、正規分布を用いた統計的仮説検定が欠かせません。
金融・リスク管理での正規分布
金融工学では、株価の収益率が正規分布に従うという仮定のもとでオプション価格(ブラック・ショールズモデル)が計算されます。
リスク管理指標のVaR(バリュー・アット・リスク)も正規分布を前提とした計算で求めることができます。
ただし実際の金融データは「裾が厚い分布(ファットテール)」を示すことが多く、純粋な正規分布では極端なリスクを過小評価する可能性があることも知られています。
まとめ
この記事では、正規分布の定義・確率密度関数・標準化・z変換・標準正規分布表の使い方・ExcelやPythonでの計算方法・実際の応用例まで幅広く解説しました。
正規分布は「平均μと標準偏差σの2つで完全に決まる左右対称の釣り鐘型分布」であり、統計学の中心的な概念です。
68-95-99.7ルールと標準化(z変換)を覚えておくことで、多くの統計的な判断がシンプルに行えます。
ExcelのNORM.DIST関数や偏差値の計算方法も合わせて活用すると、実務のデータ分析に役立ちます。
正規分布への理解を深めることで、統計的な思考力と数字の読み解き力が大きく向上するでしょう。