統計学やデータ分析を学んでいると、「対数分布」や「対数正規分布」という言葉が出てくることがあります。
本記事では、対数分布の意味・特徴・数学的性質を、対数正規分布との関係やデータ分析への応用も含めてわかりやすく解説します。
対数分布とは何か(結論)
それではまず、対数分布の基本的な意味について解説していきます。
「対数分布」という言葉は文脈によって2つの意味で使われることがあります。
1つ目は対数正規分布(log-normal distribution)のことを指す場合で、「データの対数が正規分布に従う分布」です。
2つ目は対数級数分布(logarithmic series distribution)という離散確率分布のことを指す場合です。
データ分析の文脈では対数正規分布を指すことが多く、本記事では主に対数正規分布を中心に解説します。
対数正規分布とは「確率変数 X の対数 ln(X) が正規分布 N(μ, σ^2) に従う」確率分布のことです。X 自体は右歪みの非対称な分布になります。
対数正規分布の定義
確率変数 X が対数正規分布に従うとは、Y = ln(X) が正規分布 N(μ, σ^2) に従うことを意味します。
X の確率密度関数は次のように表されます。
f(x) = 1÷(x・σ・√(2π)) × exp(−(ln(x)−μ)^2 ÷ (2σ^2))
(x>0、μ:対数平均、σ:対数標準偏差)
対数正規分布の形状的特徴
対数正規分布は右に裾が長い非対称な形(右歪み分布)を示します。
定義域は x>0 のみであり、負の値はとりません。
σ が大きいほど右への歪みが強くなり、σ が小さいほど正規分布に近い形になります。
対数正規分布の数学的性質
続いては、対数正規分布の数学的性質を確認していきます。
平均・分散・中央値
| 統計量 | 公式 |
|---|---|
| 平均(期待値) | E[X] = e^(μ + σ^2÷2) |
| 分散 | Var[X] = (e^(σ^2) − 1) × e^(2μ + σ^2) |
| 中央値 | Median = e^μ |
| 最頻値(モード) | Mode = e^(μ − σ^2) |
平均>中央値>最頻値の大小関係が成り立つことが対数正規分布の特徴的な性質です。
対数正規分布の再生性
対数正規分布に従う独立な確率変数 X₁, X₂ の積 X₁×X₂ も対数正規分布に従います。
これは「掛け算の不確かさ」を扱うモデルとして自然な性質です。
加算が正規分布、乗算が対数正規分布という関係は統計モデリングの基本概念のひとつです。
対数級数分布(離散の対数分布)
対数級数分布は k = 1,2,3,… に対して P(X=k) = −p^k ÷ (k × ln(1−p)) と定義される離散確率分布です。
生態学での種の個体数分布のモデルとして使われることがあります。
対数正規分布の実世界への応用
続いては、対数正規分布が実際のデータ分析でどのように活用されるかを確認していきます。
対数正規分布に従う自然・社会のデータ例
所得分布・資産分布・株価の変化率・生物の体サイズ・都市の人口・待ち時間・部品の寿命など、自然界・社会のデータには対数正規分布に従うものが非常に多く見られます。
これらの共通点は「多くの独立した乗法的要因が積み重なって最終値が決まる」という生成メカニズムにあります。
データ分析での対数正規分布の使い方
対数正規分布に従うデータを分析する際は、データに自然対数をとって正規分布として扱う方法が一般的です。
対数変換後のデータに対して正規分布の統計手法(t検定・ANOVA・回帰分析など)を適用できます。
金融工学での活用
ブラック・ショールズモデルでは株価の変化率が対数正規分布に従うと仮定されています。
これによりオプション価格の理論値を計算することが可能になっています。
まとめ
本記事では、対数分布(対数正規分布)の意味・特徴・数学的性質・応用について解説しました。
対数正規分布は「対数が正規分布に従う」右歪みの分布であり、平均・分散・中央値の公式から特徴的な統計量が得られます。
所得・株価・生物サイズなど多くの実世界のデータが対数正規分布に従うことから、データ分析においても非常に重要な分布です。
対数正規分布の性質をしっかり理解して、統計解析やデータ分析に役立てていきましょう。