校准——尽管它是机器学习中最重要的概念之一,但在 AI/ML 领域的初学者爱好者中谈论得不够多。校准告诉我们可以在多大程度上信任模型预测,尤其是在分类模型中。很好地掌握校准是对机器学习分类器的数值输出进行有意义的解释的必要条件。在本文中,我们将通过一些简单的现实生活中的例子来讨论机器学习模型校准背后的理论及其重要性。
如果机器学习模型产生校准概率,则它被校准。更具体地说,概率被校准,其中具有置信度 p 的类的预测在 100*p 百分比的时间内是正确的
看起来很复杂?
让我们通过一个简单的例子来理解:
让我们考虑一下,我们需要建立一个机器学习模型来预测某一天是否会下雨。由于只有 2 种可能的结果——“下雨”和“没有下雨”,我们可以将其视为二元分类模型。
这里,“Rain”是一个正类,表示为 1,“No Rain”是一个负类,表示为 0。
如果模型对某一天的预测为 1,那么我们可以认为预计这一天会下雨。
同样,如果模型对某一天的预测为 0,那么我们可以认为它预计这一天不会下雨。
在实时情况下,机器学习模型通常将预测表示为表示某些概率值的数值向量。
因此,我们不一定总是得到 0 或 1 的值。通常,如果预测值大于或等于 0.5,则将其视为 1,如果预测值小于 0.5,则将其视为 0 .
例如,如果模型对特定日期的预测为 0.66,那么我们可以将其视为 1。同样,如果模型对特定日期的预测为 0.24,则我们可以将其视为 0。
假设我们的模型预测未来 10 天的结果如下:
我们可以看到,如果概率值大于或等于 0.5,则预测为“下雨”。
同样,我们可以看到,如果概率值小于 0.5,则预测为“无雨”。
现在,统计问题是 -
“概率值是结果的真实可能性值吗?”
换句话说,如果我的概率值为 0.8,那么是否意味着当天有 80% 的机会下雨?
如果我的概率值为 0.2,那么这是否意味着一天有 20% 的机会下雨?
从统计学上讲,如果我声称我的模型经过校准,那么答案应该是“是”。
概率值不应仅仅是决定输出类别的阈值。相反,它应该代表结果的真实可能性。
在这里,第 1 天的概率值为 0.81,而第 10 天的概率值仅为 0.76。这意味着虽然这两天都有可能下雨,但第 1 天下雨的可能性比第 10 天高 5%。这显示了结果的概率预测的强度。如果一个好的统计学家有这样的模型,他会从大量与此类似的结果中推断出很多模式。
让我们看看统计学家是如何以图形方式解释模型校准的。
考虑这样一个图,其中从 0 到 1 的值在 X 轴上均等分配 -
现在,在每个桶中,根据它们的概率值绘制结果。
例如,
在桶 0.6-0.8 中,我们有 4 个数据点 - 第 4 天、第 8 天、第 9 天和第 10 天。
同样,我们可以对所有其他存储桶执行相同的程序 -
到目前为止,我们只绘制了预测值。
因为,我们的正类是“雨”,让我们区分每个桶中的值,其实际值为“雨”。
现在,找出每个桶中正类的分数:
到达此阶段后,只需将这些分数值绘制为沿 Y 轴的线 -
该行不是正确的线性结构。这意味着我们的模型没有很好地校准。一个经过良好校准的模型的图表应该是这样的——
理想情况下,经过良好校准的模型预计第三个桶 (0.4-0.6) 中“下雨”的概率约为 40%-60%。然而,我们的模型给出的结果是“下雨”的概率仅为 30%。这是一个重大的偏差。这些偏差也可以在其他桶中看到。
一些统计学家使用校准曲线和模型的概率曲线之间的区域来评估模型的性能。当面积变小时,性能会更好,因为模型曲线将更接近校准曲线。
在许多实时场景中,ML 应用程序的最终用户依赖于模型校准来做出有效且有洞察力的决策,例如 -
假设我们正在为电子商务平台构建基于排名的模型。如果模型经过良好校准,则可以信任其概率值以用于推荐目的。例如,模型表示用户喜欢产品 A 的可能性为 80%,而用户喜欢产品 B 的可能性为 65%。因此,我们可以将产品 A 作为第一偏好推荐给用户,将产品 B 推荐给用户作为第二偏好。
在临床试验的情况下,考虑一些医生正在开发药物。如果模型预测 2 种药物对治疗非常有效 - 药物 A 和药物 B。现在,医生应该从列表中选择最佳可用选项,因为他们不能冒险,因为这是一个高风险的试验处理人类生活。如果模型给出药物 A 的概率值为 95%,药物 B 的概率值为 90%,那么医生显然会继续使用药物 A。
在本文中,我们介绍了模型校准的理论基础,并通过一些简单的实际示例讨论了了解分类器是否经过校准的重要性。与开发或部署到服务器相比,为机器学习模型建立“可靠性”通常是研究人员面临的更大挑战。在对预测概率感兴趣的情况下,模型校准非常有价值。它提供了对模型预测中不确定性的洞察力或理解,进而提供了最终用户要理解的模型的可靠性,尤其是在关键应用中。
我希望这篇文章能帮助您了解这个概念并理解它的重要性。您可以参考参考部分提到的资料,对其有深入的了解。