分類タスクの評価指標「Log Loss」とは？計算方法や特徴を理解しよう

はじめに
Log Lossとは？
Log Lossの計算方法
多クラス分類の場合のLog Loss
Log Lossの特徴
Log Lossの計算例
まとめ

はじめに

機械学習の分類タスクにおいて、モデルの性能を評価するための指標は多岐にわたります。その中でも、「Log Loss（対数損失）」は、モデルがどれだけ正確にクラスの確率を予測できているかを評価するための重要な指標です。本記事では、Log Lossの定義、計算方法、特徴について詳しく解説します。

Log Lossとは？

Log Loss（対数損失）は、分類モデルの予測確率と実際のクラスとの一致度を評価するための指標です。Log Lossは、予測がどれだけ正確であったかを数値化し、値が小さいほど予測が正確であることを示します。

Log Lossの計算方法

Log Lossの計算方法を理解するために、まず基本的な数式を紹介します。二値分類問題を考えた場合のLog Lossの計算式は以下の通りです。

$$ Log Loss = -\frac{1}{N} \sum_{i=1}^{N} (y_i \log(p_i) + (1 – y_i) \log(1 – p_i)) $$

ここで、

$ N $はサンプルの数
$ y_i $ は実際のクラスラベル（0または1）
$ p_i $ はモデルが予測したクラス1である確率（0から1の間の値）

この式は、実際のクラスラベルと予測確率の対数を用いて損失を計算します。損失は、モデルがクラス1であると予測した確率が高いほど小さくなり、予測が実際のラベルと一致しないほど大きくなります。

多クラス分類の場合のLog Loss

多クラス分類の場合も基本的な考え方は同じですが、計算が少し複雑になります。多クラス分類のLog Lossは次のように計算されます。

$$ Log Loss = -\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{M} y_{ij} \log(p_{ij}) $$

ここで、

$ M $ はクラスの数
$ y_{ij} $ はサンプル $ i $ がクラス $ j $ に属する場合に1、そうでない場合に0
$ p_{ij} $ はサンプル $ i $ がクラス $ j $ である確率

Log Lossの特徴

Log Lossにはいくつかの特徴があります。

確率の評価: Log Lossは、モデルが出力する確率を評価するため、単なるクラスの予測精度よりも詳細な評価が可能です。これは特に、確率の校正が重要な応用において有用です。
ペナルティの適用: Log Lossは、予測が自信を持って間違っている場合（例：正しいクラスが0.01の確率で予測される場合）に大きなペナルティを課します。これにより、モデルが不確実性を適切に扱うことを促します。
連続的な損失関数: Log Lossは連続的な損失関数であり、確率の小さな変動に対しても損失の変化を反映するため、モデルの微調整に対して敏感です。
モデルの比較: Log Lossは異なるモデルの性能を比較するための標準的な指標として広く使用されます。特に異なるモデルが出力する確率の精度を評価する際に有効です。

Log Lossの計算例

具体例を用いてLog Lossの計算方法を見てみましょう。二値分類問題を例に取ります。

例：

実際のラベル y : [1, 0, 1, 1]
予測確率 p : [0.9, 0.1, 0.8, 0.4]

$$ \begin{equation} \begin{split} Log Loss &= -\frac{1}{4} ((1 \cdot \log(0.9) + 0 \cdot \log(0.1)) + (0 \cdot \log(0.1) + 1 \cdot \log(0.9)) + (1 \cdot \log(0.8) + 0 \cdot \log(0.2)) + (1 \cdot \log(0.4) + 0 \cdot \log(0.6))) \\ &= -\frac{1}{4} (\log(0.9) + \log(0.9) + \log(0.8) + \log(0.4)) \\ &= -\frac{1}{4} (-0.1054 – 0.1054 – 0.2231 – 0.9163) \\ &= \frac{1}{4} \times 1.3502 \\ &= 0.3376 \end{split} \end{equation} $$

このように、Log Lossはモデルの予測精度を数値で評価し、モデルの改善を図るための指標として利用されます。

まとめ

Log Lossは、分類モデルの予測確率の精度を評価するための強力な指標です。その計算方法はシンプルでありながら、モデルがどれだけ自信を持って正しい予測を行っているかを詳細に評価できます。特に確率の校正が重要なタスクにおいて、その有用性は非常に高いです。Log Lossを理解し、適切に活用することで、より高性能な分類モデルの構築が可能になります。