paint-brush
主动学习简介by@whatsai
806
806

主动学习简介

Louis Bouchard3m2023/06/18
Read on Terminal Reader

主动学习旨在优化数据集的注释,并使用最少的训练数据训练最佳模型。这是一种监督学习方法,涉及模型预测和数据之间的迭代过程。通过整体注释较少的图像,您可以节省时间和金钱,同时实现优化的模型。
featured image - 主动学习简介
Louis Bouchard HackerNoon profile picture
0-item
1-item
2-item
3-item

在当今世界,我们可以访问大量数据,这要归功于ChatGPT等强大的人工智能模型,以及视觉模型和其他类似技术。然而,这些模型所依赖的数据不仅仅在于数量,还在于质量。快速大规模地创建良好的数据集可能是一项具有挑战性且成本高昂的任务。


这就是主动学习的用武之地。

简单来说,主动学习旨在优化数据集的注释,并使用最少的训练数据训练出尽可能好的模型。


这是一种监督学习方法,涉及模型预测和数据之间的迭代过程。无需等待完整的数据集,您可以从一小批精选的注释数据开始并使用它来训练您的模型。


然后,使用主动学习,您可以利用您的模型来标记看不见的数据,评估预测的准确性,并根据采集函数选择下一组数据进行注释。


主动学习的优势之一是您可以分析模型预测的置信度。


如果预测的置信度较低,模型将请求标记该类型的其他图像。另一方面,具有高置信度的预测不需要更多数据。通过整体注释较少的图像,您可以节省时间和金钱,同时实现优化的模型。主动学习是处理大规模数据集的一种非常有前途的方法。


主动学习的表现。图片来自 Kumar 等人。



关于主动学习,有几个要点需要记住。

首先,它涉及人工注释,让您可以控制模型预测的质量。它不是经过数百万张图像训练的黑匣子。您积极参与其开发并协助改进其性能。这方面使主动学习变得重要和有趣,尽管与无监督方法相比它可能会增加成本。但是,训练和部署模型所节省的时间通常会超过这些成本。


此外,您可以使用自动注释工具并手动更正它们,进一步降低开支。


在主动学习中,您有一组标记的数据用于训练您的模型,而未标记的数据集包含尚未注释的潜在数据。一个关键的概念是查询策略,它确定要标记哪些数据。有多种方法可以在大量未标记数据中找到信息最丰富的子集。例如,不确定性抽样涉及在未标记数据上测试您的模型并选择最不自信的分类示例进行注释。


使用委员会查询方法表示主动学习。图片来自 Kumar 等人。



主动学习中的另一种技术是委员会查询 (QBC) ,其中多个模型组成一个委员会,每个模型都在不同的标记数据子集上进行训练。这些模型对分类问题有不同的看法,就像不同经历的人对某些概念有不同的理解一样。要注释的数据是根据委员会模型之间的分歧选择的,表明其复杂性。随着对所选数据的连续注释,此迭代过程继续进行。


这只是主动学习的基本解释,展示了查询策略的一个示例。

如果您有兴趣,我可以提供更多关于其他机器学习策略的信息或视频。主动学习的一个真实例子是当你在谷歌上回答验证码时。通过这样做,您可以帮助他们识别复杂的图像并使用多个用户的集体输入构建数据集,从而确保数据集质量和人工验证。所以,下次遇到验证码时,请记住你正在为 AI 模型的进步做出贡献!


要了解更多信息并查看使用我在 Encord 的朋友开发的出色工具的实际示例,请观看视频: