机器学习常见评价指标

评价指标

评价指标是指机器学习中对于训练好的模型效果进行定量评价的指标。

一个机器学习模型的形成过程中总是会经历训练到测试的过程，其中训练过程中的损失定义和优化方法是非常多变的，但在测试过程中机器学习的评价指标是比较统一的，这也方便了开发人员对模型的能力进行比较，找出最佳的模型。

根据机器学习任务的不同，在分类问题和回归问题中我们通常会采用不同的指标评估方法，此外在一些特殊领域，如推荐系统也有一些独特的评价指标。

回归（Regression）问题通常指的是标签为连续值的机器学习问题。由于预测值是连续的，因此计算预测效果较为简单，只需要以某种方式来体现预测值和标签之间的差值即可，差值越小，则模型效果越好。

MSE（mean squared error）均方误差是回归问题中最常见的评价指标，其计算方式是预测值和ground truth之间差值的平方均值。这个评价指标的主要好处在于和训练过程中常用的L2损失函数一致，可以很容易比较模型在训练集和数据集上的效果差距。

RMSE（root mean squared error）均方根误差也是一种常见的评价指标，与MSE的区别在于添加了一个取平方根的计算，主要目的在于将误差值换算到和标签值相同的量纲上，便于描述误差。

MAE（mean absolute error）与RMSE类似，取误差值绝对值的平均值，作用与RMSE类似，需要注意的是一般不会将MAE用在训练过程中，这是因为绝对值函数的梯度下降不稳定。

分位数函数是对于MAE的扩展，其中参数gamma为分位数，当gamma取0.5时分位数损失等价于MAE损失。

当gamma取大于或小于0.5的值时，意味着更看重大于或小于标签的预测的损失。例如，当gamma取0.75时，那些大于真实标签的预测值将会给损失函数提供更大的价值。

下图可以帮助我们更好理解在gamma取不同值时，预测的结果对于损失函数计算结果的影响。

与回归问题相比，分类问题的评价指标较为直观，基本都是围绕着混淆矩阵（confusion matrix）展开的，如下所示：

accuracy可以理解为预测正确的样本占所有样本的比例

recall可以理解为预测正确的正例占实际所有正例的比例，precision可以理解为预测正确的正例占预测的所有正例的比例。

recall precision等指标与实际应用场景息息相关。实际问题中，我们对于正例和负例的预测能力需求实际上是不一致的，有时我们希望模型不要将负样本预测成正样本，但是可以容忍模型将正样本预测成负样本，有时则正好相反。

以上的指标大多可以直接拓展到多分类的场景中。需要注意除了accuracy，其他指标必须将多分类问题转化为one vs all的问题再计算。