データ処理や機械学習の分野で「正規化」と「標準化」という言葉はほぼセットで登場しますが、この2つの違いを明確に説明できる方は意外と少ないのではないでしょうか。
正規化と標準化は似て非なる変換手法であり、データの特性や目的によって使い分けることが重要です。
この記事では正規化と標準化の違いを計算式・メリット・デメリット・適した場面の観点から詳しく解説していきます。
正規化は値を0〜1に圧縮する手法であり標準化は平均0・標準偏差1に変換する手法である
それではまず、正規化と標準化の最も根本的な違いについて解説していきます。
正規化(Min-Max Normalization)はデータの最小値を0・最大値を1として全データを0〜1の範囲に線形変換する手法です。
標準化(Standardization・z-score正規化)はデータの平均を0・標準偏差を1に変換する手法であり、z-スコアとも呼ばれます。
正規化と標準化はどちらも異なるスケールを持つ特徴量を揃えるための前処理手法ですが、変換後のデータの性質が異なります。
正規化後は全データが必ず0〜1の範囲に収まりますが、標準化後は正規分布に近い形になるものの値の範囲に上限・下限はありません。
正規化と標準化の計算式
続いては、正規化と標準化それぞれの計算式について確認していきます。
正規化(Min-Max正規化)の計算式
正規化(Min-Max正規化)の計算式
x_normalized = (x – x_min) / (x_max – x_min)
x:変換対象の値、x_min:データの最小値、x_max:データの最大値
例:[10, 20, 30, 40, 50]を正規化すると[0.0, 0.25, 0.5, 0.75, 1.0]になります。
標準化(z-score正規化)の計算式
標準化(z-score正規化)の計算式
x_standardized = (x – μ) / σ
x:変換対象の値、μ:データの平均、σ:データの標準偏差
例:平均50・標準偏差10のデータで値60を標準化すると(60-50)/10 = 1.0(平均より1標準偏差上)になります。
正規化と標準化のメリット・デメリット比較
続いては、2つの手法のメリットとデメリットを比較して確認していきます。
| 項目 | 正規化(Min-Max) | 標準化(z-score) |
|---|---|---|
| 変換後の範囲 | 必ず0〜1 | 制限なし(平均0・標準偏差1) |
| 外れ値の影響 | 大きく受ける(最大値・最小値に依存) | 比較的小さい |
| 分布の仮定 | 不要 | 不要(正規分布でなくても適用可) |
| 適した用途 | ニューラルネットワーク・画像処理 | 外れ値あり・正規分布前提のアルゴリズム |
正規化と標準化の使い分け基準
続いては、実際にどちらを使うべきかの判断基準について確認していきます。
正規化を選ぶべき場面
正規化が適しているのはアルゴリズムが入力値の範囲を0〜1または-1〜1と想定している場合です。
ニューラルネットワーク(特にシグモイド関数やReLU活性化関数を使うモデル)・k最近傍法(KNN)・画像ピクセル値の正規化(0〜255 → 0〜1)などが代表的な用途です。
外れ値が少なくデータの分布が均一に近い場合に正規化は特に効果的です。
標準化を選ぶべき場面
標準化が適しているのは外れ値が存在するデータや正規分布を前提とするアルゴリズムを使う場合です。
線形回帰・ロジスティック回帰・SVM(サポートベクターマシン)・主成分分析(PCA)などは標準化との相性が良いとされています。
外れ値があるデータを正規化すると、外れ値によって他のデータが狭い範囲に押し込められてしまうため、標準化の方が安定した結果が得られます。
どちらも試してみることが重要
実際のデータサイエンスの現場では、正規化と標準化の両方を試してモデルの性能を比較することが推奨されます。
理論的な適合性はあくまで目安であり、実際のデータとモデルの組み合わせによって最適な手法は異なることが多いためです。
まとめ
正規化はMin-Max変換によって値を0〜1に圧縮する手法であり、標準化はz-score変換によって平均0・標準偏差1に変換する手法です。
外れ値の有無・使用するアルゴリズムの特性・データの分布を考慮して使い分けることが重要であり、最終的には両方を試してモデル性能で判断することが実践的なアプローチです。
正規化と標準化の計算式と特性を正しく理解することで、より効果的な機械学習モデルの構築が実現できるでしょう。
データの前処理として適切な手法を選び、モデルの性能向上につなげてみてください。