「正規化の式ってどれを使えばいい?」「計算公式を正確に知りたい」という疑問を持つ方に向けて、この記事では正規化に関する主要な計算公式を数学・統計・データ処理の各観点から整理してわかりやすく解説していきます。
正規化の式は文脈によって使われる公式が異なるため、それぞれの違いを明確に把握しておくことが重要です。
正規化の式は目的によってMin-Max公式・z-score公式・ベクトル正規化公式の3種類に分類される
それではまず、正規化の計算公式の全体像と分類について解説していきます。
正規化の式は大きく分けて①データのスケーリングを目的とするMin-Max正規化公式 ②統計的な標準化を目的とするz-score公式 ③方向を保持するベクトル正規化公式の3種類が主要なものです。
それぞれ変換後の値の範囲・前提条件・適した用途が異なるため、目的に応じた公式を選ぶことが重要です。
正規化の公式を選ぶ際の基本的な判断基準は「変換後のデータをどの範囲・形式で使いたいか」です。
0〜1の範囲に収めたい場合はMin-Max、平均0・標準偏差1が必要な場合はz-score、方向のみを保持したい場合はベクトル正規化を選びます。
Min-Max正規化の公式と変形
続いては、Min-Max正規化の基本公式と応用的な変形について確認していきます。
基本公式
Min-Max正規化の基本公式
x’ = (x – x_min) / (x_max – x_min)
変換後の範囲:0 ≤ x’ ≤ 1
x_min:データセット全体の最小値
x_max:データセット全体の最大値
任意の範囲[a, b]への正規化公式
任意の範囲[a, b]への正規化公式
x’ = a + (x – x_min) × (b – a) / (x_max – x_min)
例:-1〜1の範囲に変換したい場合はa=-1・b=1を代入
x’ = -1 + (x – x_min) × 2 / (x_max – x_min)
z-score標準化の公式
続いては、統計的標準化であるz-score公式について確認していきます。
z-score標準化の基本公式
z-score標準化の公式
z = (x – μ) / σ
μ(ミュー):データの算術平均
σ(シグマ):データの標準偏差(母標準偏差または標本標準偏差)
変換後の平均:0、変換後の標準偏差:1
標準偏差の計算公式
標準偏差の計算公式
σ = √( Σ(xi – μ)² / N ) ← 母標準偏差(Nは総データ数)
s = √( Σ(xi – x̄)² / (N-1) ) ← 標本標準偏差(標本データに使用)
機械学習での正規化では通常、標本標準偏差(N-1で割るもの)が使われます。
ベクトル正規化の公式
続いては、数学・機械学習で使われるベクトルの正規化公式について確認していきます。
| ノルムの種類 | 計算式 | 主な用途 |
|---|---|---|
| L1ノルム(マンハッタン距離) | ||v||₁ = |v1| + |v2| + … + |vn| | スパースデータ・Lasso正則化 |
| L2ノルム(ユークリッド距離) | ||v||₂ = √(v1² + v2² + … + vn²) | 最も一般的なベクトル正規化 |
| L∞ノルム(チェビシェフ距離) | ||v||∞ = max(|v1|, |v2|, …, |vn|) | 最大成分による正規化 |
L2ノルムを使ったベクトル正規化公式
v̂ = v / ||v||₂ = (v1, v2, …, vn) / √(v1² + v2² + … + vn²)
正規化後のベクトルv̂の大きさ(ノルム)は必ず1になります。
データベース正規化における正規化係数(正規形の定義)
続いては、データベース設計における正規化の概念的な定義について確認していきます。
データベースの正規化は数値的な計算式ではなく、テーブルが満たすべき条件(正規形)の定義として表現されます。
第1正規形:全ての列が原子値のみを含む。第2正規形:第1正規形かつ主キーへの部分関数従属がない。第3正規形:第2正規形かつ推移的関数従属がないという条件を段階的に満たすことが正規化の達成条件です。
まとめ
正規化の式はMin-Max公式・z-score公式・ベクトル正規化公式の3種類が主要であり、目的と用途に応じて使い分けることが重要です。
Min-Maxは0〜1への線形変換、z-scoreは統計的な標準化、ベクトル正規化は方向の保持という、それぞれ異なる変換の目的を持ちます。
正規化の計算式を正確に理解した上で、機械学習や統計分析・ベクトル計算の各場面で適切な公式を選んで活用してみてください。
計算式を暗記するだけでなく、なぜその変換を行うのかという目的の理解を深めることが最も重要でしょう。