技術(非IT系)

尤度とは?意味をわかりやすく解説!(統計学・確率・パラメータ・最尤推定・データ解析など)

当サイトでは記事内に広告を含みます

「尤度(ゆうど)」という言葉は統計学・データサイエンス・機械学習の分野で非常に重要な概念ですが、「確率と何が違うの?」「最尤推定とは?」という疑問を持つ方も多いのではないでしょうか。

本記事では、尤度の意味・確率との違い・尤度関数・最尤推定の基本まで、数式だけに頼らずわかりやすく解説していきます。

尤度とは何か?意味と確率との本質的な違い

それではまず、尤度の意味と確率との本質的な違いについて解説していきます。

尤度(likelihood)とは、あるデータが観測されたとき、そのデータが特定のパラメータ(母数)のもとでどれだけ「もっともらしく」生じるかを表す指標です。

確率とよく混同されますが、両者の視点は根本的に異なります。確率は「パラメータが固定されているとき、特定のデータが生じる確率」であるのに対し、尤度は「データが観測されたとき、どのパラメータ値のもとでそのデータが最もよく説明されるか」を問うものです。

言い換えると確率は「パラメータ→データ」の方向で考えるのに対し、尤度は「データ→パラメータ」の方向で考えるという逆の視点を持ちます。

この視点の違いが、観測されたデータからモデルのパラメータを推定するという統計的推定の根本的な考え方を支えているのです。

「尤度が高い」とは「そのパラメータ値のもとでは観測データが生じやすい(もっともらしい)」ということを意味し、パラメータ推定において最も尤度が高いパラメータを選ぶのが「最尤推定(Maximum Likelihood Estimation)」です。

尤度の直感的な理解:コインの例

尤度の概念を直感的に理解するために、コイン投げの具体例で考えてみましょう。

コインを10回投げて7回表が出たとします。このコインが「公正なコイン(表の出る確率p=0.5)」である場合と「少し偏ったコイン(p=0.7)」である場合を比較します。

p=0.5のもとで「10回中7回表」が出る確率は(二項分布の確率)約0.117であり、p=0.7のもとで同じ結果が出る確率は約0.267となります。

この場合「10回中7回表」というデータに対する尤度はp=0.7のときの方がp=0.5のときよりも高く、観測データはp=0.7という仮説をより強く支持している(もっともらしい)ことを意味します。

さらにp=0.7の近辺でより細かく調べていくと、p≒0.7のときに尤度が最大になることがわかり、これが最尤推定によって得られる「観測データに最もよく適合するパラメータの推定値」となるのです。

尤度と確率の表記上の違い

数学的な表記において、確率と尤度がどのように区別されるかを理解しておきましょう。

確率は「P(X=x | θ)」という条件付き確率の形で表され、「パラメータθが与えられたとき、確率変数Xが値xをとる確率」を意味します。

尤度は同じ式を「θの関数」として見るときに使う言葉であり「L(θ | x)=P(X=x | θ)」と表します。数式の形は同じですが、変数と定数の役割が入れ替わっています。

確率ではxが変数でθが固定されているのに対し、尤度ではxが固定(観測された値)でθが変数(推定したいパラメータ)となっています。

この視点の転換こそが「確率の問い(このパラメータのもとでこのデータが出る確率は?)」から「尤度の問い(このデータが出たとすれば最もあり得るパラメータは?)」への発想の転換であり、統計的推定の核心を成す概念的なシフトとなっているでしょう。

尤度関数と最尤推定の基礎

続いては、尤度関数の定義と最尤推定の基本的な考え方について確認していきます。

パラメータ推定の実践において最も重要な概念である最尤推定を理解するための基礎を固めましょう。

尤度関数の定義と性質

尤度関数(Likelihood Function)とはパラメータθを変数として、観測データxに対する尤度をθの関数として表したものです。

独立なn個の観測値x₁, x₂, …, xₙが得られたとき、全データに対する尤度関数は各観測値の確率(または確率密度)の積として定義されます。

【尤度関数の基本形】

L(θ | x₁, x₂, …, xₙ) = ∏P(xᵢ | θ) (i=1からnの積)

読み方:「データx₁〜xₙが観測されたときのパラメータθに関する尤度関数」

最尤推定量:θ̂ = argmax L(θ) (尤度関数を最大にするθの値)

尤度関数の積は値が非常に小さくなりやすく計算上の問題が生じるため、実際には尤度の自然対数をとった「対数尤度関数(log-likelihood function)」が頻繁に使用されます。

対数をとることで積が和に変わり(log(∏P(xᵢ))=Σlog P(xᵢ))、計算が大幅に楽になります。対数は単調増加関数であるため、対数尤度を最大化するパラメータと尤度を最大化するパラメータは一致します。

尤度関数が最大値をとるパラメータθの値が「最尤推定量(Maximum Likelihood Estimator, MLE)」であり、これが観測データに対して最もよく適合するパラメータの推定値となるのです。

最尤推定の具体的なイメージと応用

最尤推定がどのような場面で使われているかを具体的なイメージで確認しましょう。

正規分布のパラメータ(平均μ・分散σ²)の最尤推定では、観測データの標本平均が平均μの最尤推定量・標本分散が分散σ²の最尤推定量(ただし分母がnのもの)となり、直感的にも自然な結果が得られます。

ロジスティック回帰・ニューラルネットワーク・混合ガウスモデルなど、現代の機械学習の多くのアルゴリズムは最尤推定またはそれに基づく損失関数の最小化を学習の目的関数として採用しています。

最尤推定は大標本では一致性・漸近正規性・漸近有効性(最小分散一致推定量への収束)などの優れた統計的性質を持ち、これが最尤推定が統計的推定の標準的な方法として広く採用されている理由のひとつです。

ベイズ統計との関係では、事前分布を一様分布とした場合の事後分布の最頻値(MAP推定)が最尤推定量と一致し、最尤推定はベイズ推定の特別なケースとして位置づけられるでしょう。

尤度に関連する重要概念:AIC・BICとモデル選択

尤度は単なるパラメータ推定だけでなく、複数のモデルを比較・選択するための指標としても活用されています。

AIC(赤池情報量規準:Akaike Information Criterion)は「-2×対数尤度 + 2×パラメータ数」で定義され、モデルの当てはまりの良さとモデルの複雑さ(パラメータ数)のバランスを評価するモデル選択基準です。

BIC(ベイズ情報量規準:Bayesian Information Criterion)も同様の考え方に基づくモデル選択基準であり、AICよりもパラメータ数へのペナルティが大きいため、より単純なモデルを好む傾向があります。

これらの情報量規準を使ったモデル選択は、過学習を防ぎながら最適なモデルを選ぶための実践的な手法として機械学習・統計モデリングで広く活用されているのです。

まとめ

本記事では、尤度の意味・確率との違い・尤度関数の定義・最尤推定の考え方・AIC・BICとのつながりについて解説しました。

尤度は「観測データが与えられたとき、どのパラメータ値がそのデータを最もよく説明するか」を評価する指標であり、確率とは視点の方向が逆になっています。

最尤推定は統計学・機械学習の根幹をなす推定法であり、尤度という概念を正確に理解することが現代のデータサイエンス・AIの深い理解への確かな第一歩となるでしょう。