分析の際に考慮すべき「バイアス」と「バリアンス」とは。

バイアス・バリアンス分解 統計

バイアスとは

バイアスとは一般的にデータの真の値から予測値や推定値がずれていることをいいます。この時のバイアスとはばらついていてずれているというよりも、平均自体がずれているイメージとなります。

正の値が[1, 1, 1.1, 0.9]としたとき、バイアスがある値は[1.5, 1.5, 1.6, 1.4]のように正の値から+0.5ずれているようなことをバイアスがあるデータといいます。ただし、バイアスがあるデータが必ずしも正の値から+0.5ずれているわけではありません。例えば、正の値が[1, 1, 1.1, 0.9]であるときに、バイアスがある値は[0.5, 0.5, 0.6, 0.4]のように真の値からずれていることがあります。

バリアンスとは

バリアンスとは、一般的にデータの真の値から予測値や推定値がばらついてずれていることをいいます。

正の値が[1, 1, 1.1, 0.9]としたとき、バイアスがある値は[1.5, 0.5, 0.7, 1.4]のように正の値から±0.5ずれているようなことをバリアンスがあるデータといいます。実際はこのように±でずれているわけではなく、実際にはどのような分布に従っているかはデータによって異なります。ただし、通常は正規分布などの確率分布に従っていることが多いです。

下記がバイアスがあるデータ(左)とバリアンスがあるデータ(右)になります。

バイアス・バリアンス分解

バイアスバリアンス分解 (bias-variance decomposition) は、機械学習モデルのパフォーマンスを理解するための重要な概念の1つです。この分解により、モデルの予測誤差が、モデルのバイアス(偏り)とバリアンス(ばらつき)の2つの要素に分解されます。

モデルのバイアスは、真の関数との適合度合いを表します。つまり、モデルが与えられた問題を正しくモデリングできる能力を表します。モデルのバイアスが高い場合、モデルは与えられた問題を正しくモデル化できない可能性があります。

一方、モデルのバリアンスは、モデルが訓練データセットの微小な変化にどの程度敏感であるかを表します。つまり、モデルがデータに対してどの程度敏感であるかを表します。モデルのバリアンスが高い場合、モデルは訓練データに過剰適合する可能性があります。

バイアスバリアンス分解により、モデルの予測誤差を最小限に抑えるためには、バイアスとバリアンスのバランスをとる必要があります。つまり、モデルが真の関数に十分適合していることと、訓練データの微小な変化に過剰に反応しないことの両方を保証する必要があります。

バイアス・バリアンス分解を学ぶ際におススメの書籍

分析者のためのデータ解釈学入門 データの本質をとらえる技術

こちらの書籍はデータ分析全体の流れや注意点を分かりやすく記載しております。様々なデータの理解方法を学ぶ際にはおススメです。

コメント

Copied title and URL