技術(非IT系)

確率密度関数とは?わかりやすく解説!(統計・確率論・数学・グラフ・計算方法・定義・応用など)

当サイトでは記事内に広告を含みます

「確率密度関数ってよく聞くけど何なの?」「確率分布と何が違うの?」という疑問をお持ちの方は多いでしょう。

確率密度関数は統計学・確率論の中核的な概念であり、データ分析・機械学習・金融工学・品質管理など現代のデータサイエンスのあらゆる場面で使われています。

本記事では確率密度関数の定義・意味・グラフの読み方・計算方法・具体的な応用例まで、できるだけわかりやすく解説していきます。

確率密度関数とは何か?:直感的な意味と定義を理解しよう

それではまず、確率密度関数の直感的な意味と数学的な定義について解説していきます。

確率密度関数(PDF:Probability Density Function)とは、連続確率変数がある値の近辺に存在する確率の「密度(密さ)」を表す関数です。

コインの表裏のように有限個の結果しかない「離散型確率変数」と異なり、身長・体重・時間などの「連続型確率変数」を扱う際に確率密度関数が必要になります。

確率密度関数の数学的定義

確率密度関数f(x)は次の二つの条件を満たす関数として定義されます。

確率密度関数の定義条件:

条件1:f(x) ≥ 0(すべてのxで非負)

条件2:∫f(x)dx = 1(全区間での積分が1:全確率の合計が1)

確率の計算:

P(a ≤ X ≤ b) = ∫[a→b] f(x)dx(aからbまでの面積が確率)

確率密度関数の直感的な理解:「面積=確率」

確率密度関数の最も重要な直感的な理解は「グラフの面積が確率を表す」という点です。

例えばある連続確率変数Xが「2以上3以下の値をとる確率」は、確率密度関数f(x)のグラフでx=2からx=3の間の面積(積分値)として求められます。

一方「ちょうどx=2.5になる確率」は連続型変数では0になります。これは面積のない「1点」の確率はゼロだからです。

連続確率変数では特定の1点の確率ではなく、ある範囲の確率を「面積」として求めるという考え方が核心です。

確率密度関数と累積分布関数の関係

確率密度関数f(x)を積分したものが「累積分布関数(CDF:Cumulative Distribution Function)F(x)」です。

F(x)=P(X ≤ x)はX がx以下の値をとる確率を表し、f(x)とF(x)は微分・積分で互いに変換できる関係にあります。

確率密度関数はCDFを微分したもの・CDFは確率密度関数を積分したものという関係を覚えておくと理解が深まるでしょう。

代表的な確率密度関数:正規分布を中心に

続いては、最も重要な確率密度関数の代表例として正規分布について確認していきます。

正規分布の確率密度関数

確率論・統計学で最も重要な確率分布が「正規分布(ガウス分布)」であり、その確率密度関数は次の式で表されます。

正規分布の確率密度関数:

f(x) = (1/√(2πσ²)) × exp(-(x-μ)²/(2σ²))

(μ:平均、σ:標準偏差、σ²:分散)

特徴:

・左右対称の釣り鐘型(ベル型)グラフ

・平均μを中心に分布が集中

・標準偏差σが大きいほど分布が広がる

正規分布の68-95-99.7ルール

正規分布において非常に重要な経験則が「68-95-99.7ルール」です。

平均μから±1σの範囲に全データの約68パーセントが含まれ、±2σの範囲に約95パーセント、±3σの範囲に約99.7パーセントが含まれます。

品質管理の3σ管理・統計的検定の95パーセント信頼区間はこの正規分布の性質を活用したものです。

他の代表的な確率密度関数

正規分布以外にも重要な確率密度関数があります。

一様分布(ある区間で確率密度が一定)・指数分布(待ち時間・故障時間の分析に使われる)・t分布(小標本の推定・検定に使われる)・カイ二乗分布(適合度検定・分散の推定に使われる)などが主要な分布として知られています。

確率密度関数の応用:データ分析・機械学習での活用

続いては、確率密度関数がデータ分析・機械学習においてどのように活用されるかを確認していきます。

統計的推定・検定への応用

確率密度関数は統計的な推定(母平均・母分散の推定)と仮説検定の理論的基盤です。

p値(有意確率)の計算は確率密度関数の積分として行われており、統計的な意思決定のすべてが確率密度関数の理解に基づいているといっても過言ではないでしょう。

機械学習・ベイズ推定での活用

機械学習の分野では確率密度関数が様々な場面で活用されます。

ガウス過程・混合ガウスモデル・カーネル密度推定など、確率密度関数を活用した高度なモデリング手法が実装されています。

ベイズ推定では事前分布・尤度関数・事後分布がすべて確率密度関数として表現され、データに基づいた確率的な推論の基盤として機能しています。

確率密度関数の概念は数学的に難しく感じる方も多いですが、「グラフの面積が確率を表す」という直感的なイメージを持つことがすべての理解の出発点です。

データサイエンス・機械学習・統計解析を深く学びたい方にとって、確率密度関数の理解は避けて通れない基礎知識であり、ここをしっかり押さえることで後の学習が格段にスムーズになります。

まとめ

確率密度関数は連続確率変数の確率分布を表す関数であり「グラフの面積が確率を表す」という核心的な性質を持っています。

数学的には非負・全積分が1という二つの条件を満たす関数として定義されます。

正規分布はその中で最も重要な確率密度関数であり、68-95-99.7ルールを活用した品質管理・統計的検定の理論的基盤となっています。

データ分析・機械学習・ベイズ推定など現代のデータサイエンスのすべての分野で確率密度関数が活用されており、この概念の理解は現代的なデータ分析スキルの必須基礎といえるでしょう。

確率密度関数という概念をしっかり理解することで、統計・データサイエンスの理解が大きく深まることを確信しています。