paint-brush
降低训练数据获取成本的 7 种策略经过@futurebeeai
526 讀數
526 讀數

降低训练数据获取成本的 7 种策略

经过 FutureBeeAI9m2023/05/15
Read on Terminal Reader

太長; 讀書

获取高质量的训练数据集可能很昂贵,但您可以使用多种策略来最大程度地降低成本。首先定义您的项目要求和目标受众,然后考虑使用现有数据集或外包给数据收集服务。您还可以利用众包平台、数据合作伙伴关系和数据增强技术来降低数据收集成本。通过遵循这些策略,您可以在不花大钱的情况下获取所需的数据,并优化您的机器学习模型以获得成功。
featured image - 降低训练数据获取成本的 7 种策略
FutureBeeAI HackerNoon profile picture
0-item

机器学习项目的数据收集可能真的很痛苦。这既费时又乏味,我们有没有提到昂贵?一些机器学习项目甚至从未开始,这是不公平的,因为数据收集的成本太高了。

让我们来看看为什么数据采集如此昂贵,尽管它本不应该如此。劳动力成本、基础设施、质量控制、预处理、数据清理和道德考虑只是与此相关的成本部分中的一小部分数据收集成本。


现在,跳过任何这些部分绝对不是一个好主意,但要注意的是,您可以通过使每个数据收集步骤尽可能高效来降低成本。


我们必须确保我们的战略不仅仅包括削减成本;我们还需要确保我们收集的数据是高质量的!


让我们首先研究优先考虑质量如何帮助以具有成本效益的方式收集数据集。

1. 质量优先于数量

任何机器学习模型开发过程都从收集训练数据集开始。收集训练数据的过程不是一次性的;相反,它可以在开发突破性人工智能解决方案的整个过程中反复重复。


在测试我们的模型时,如果模型的效率在任何情况下都达不到标准,那么为了针对该场景训练我们的模型,我们需要在该情况下收集新的和更具体的数据。


为了降低数据收集的成本,我们的策略应该是减少这种重复收集新数据集的情况。现在,“越多越好”的格言如果不注意数据集的质量.


此外,很明显,数据集的大小对训练数据收集的总成本有直接影响。


收集大量训练数据可能既昂贵又耗时,尤其是在需要标记或注释数据的情况下。然而,收集高质量的数据,即使是较小的数据集,实际上也有助于降低训练数据收集的总体成本。


首先,通过收集高质量数据,我们可以避免收集可能无法提高机器学习模型性能的冗余或不相关数据。因此,收集、存储和管理大量数据的成本更低。


其次,高质量的数据有助于减少与数据清理和预处理相关的时间和成本。当数据可靠且一致时,清理和准备用于机器学习模型的数据会更容易。


第三,高质量的数据集可以提高机器学习模型的性能,从而减少对额外训练数据的需求。


因此,无需收集额外的数据来弥补模型的不足,有助于降低数据收集的总体成本。


在理想情况下,我们必须清楚我们对任何数据收集过程的质量期望,然后找到质量和数量之间的最佳平衡将显着降低总体成本。

2.利用人在环中

人是使数据收集成为可能的因素。根据用例、复杂性和数量,我们必须从不同地方招募人员来收集数据。这是收集数据时大部分钱花的地方。


根据手头的任务招募合格且知识渊博的人群是与人群打交道以获得高质量数据集的第一步。


如果你想要德语会话语音数据,那么你必须专注于让已经有类似项目工作经验的德国本土人入职。


仅仅因为他们有经验,他们可以轻松理解您的需求,并且在收集高质量数据集时可以为您提供更多帮助。


除此之外,所有数据集要求在某种程度上都是独特的,并且某些数据集要求可能特别复杂。


在这些情况下,强烈建议花一些时间制定适当的指南和培训材料,以节省金钱和时间。


以母语提供说明和培训材料可能会有所帮助。


如果指南从一开始就很明确,那么培训人员就可以很容易,并且可以增强对数据提供者的信心。这也减少了因指南混淆而不断来回的情况,最终节省了更多的时间和金钱。


设定明确的期望可以提高贡献者的工作满意度并降低他们放弃的可能性。这减少了与寻找和入职新人相关的成本和时间。


一个理想的指南必须有明确的参与者接受和拒绝标准,让他们清楚地了解什么该做,什么不该做!这显着有助于减少拒收和返工,最终节省时间和金钱。

3. 采用迁移学习

使用称为迁移学习的机器学习技术,将预训练模型重复用于训练数据较少的新任务。迁移学习可以通过减少需要收集和标记的新数据的数量来降低收集训练数据集的成本。


要在传统机器学习模型中从头开始训练模型,需要大量标记数据。但是通过迁移学习,程序员可以从一个已经过训练并从相当大的数据集中提取一般特征的模型开始。


通过在较小的特定任务数据集上微调先前训练的模型,开发人员可以快速有效地训练出在新任务中表现出色的模型。


假设一家企业正在创建一个机器学习模型来查找图片中的对象。他们可以使用像这样的预训练模型ResNet或者VGG ,它已经从大型图像数据集中学习了一般特征,而不是从头开始收集和标记大型图像数据集。


然后可以使用与其用例相关的较小图像数据集(例如工业或医疗设备图片)对预训练模型进行微调。


企业可以显着减少必须收集和标记的新数据的数量,同时仍然通过利用迁移学习创建一流的机器学习模型。


利用现有数据集是迁移学习有助于降低训练数据收集成本的另一种方式。例如,开发人员可以使用早期项目的数据集作为他们正在从事的相关领域的新机器学习项目的起点。


总之,迁移学习是一种有效的方法,可以减少机器学习中获取训练数据的费用。


开发人员可以大幅减少必须收集和标记的新数据量,同时仍然可以利用预训练模型和现有数据集生成擅长完成新任务的高质量机器学习模型。


做出实施迁移学习的决定可能很困难但也很关键,因为有很多限制,例如


  • 如果已经为不是您主要关注的任务创建了预训练模型,则微调可能无益。


  • 如果模型是使用与您的任务相关的稀疏或不相关的数据集开发的,则可能会发生过度拟合


  • 如果预训练模型非常大并且需要大量计算资源,则微调的计算成本可能很高。

4.探索现成的数据集

在处理大型数据集时,从头开始处理新数据集可能是一项艰巨的任务。在这种情况下,预制或现成 (OTS) 数据集可能是明智的选择。


找到满足您需求的开源训练数据集可以帮助您节省时间和金钱。


尽管在开源中找到满足您要求的结构完美的数据集极为罕见,但并不能保证它的多样性和代表性足以支持可靠的 AI 解决方案的开发。


获取现成数据集的另一种选择是通过 FutureBeeAI 等组织的商业许可。 FutureBeeAI 拥有超过 2,000 个训练数据集,包括演讲、图像、视频和文本数据集。


我们很可能已经创建了您需要的数据集。


这个预制数据集不仅可以减少收集时间,还可以让您摆脱管理人群的麻烦,并有助于扩展您的 AI 解决方案。


选择 OTS 数据集可以使遵守合规性变得非常简单,因为公司已经采取了所有必要的道德预防措施。


寻找合适的合作伙伴并购买合适的现成数据集是一种非常经济的解决方案。

5. 使用工具自动化

从我们到目前为止的讨论来看,很明显降低数据收集成本的唯一机会是找到执行这些次要但重要任务中每一项的最有效方法。在这种情况下,使用尖端工具会非常有帮助。


数据准备的成本是我们应该关注的另一个因素。为了使数据集在收集后准备好部署,需要适当的元数据和基本事实。


现在,手动生成此元数据可能是一项耗时且极易出错的任务。您可以使用数据收集工具自动创建元数据并加速结构化数据集的收集。


此外,在没有适当工具的情况下收集数据只会导致更长的收集时间、更高的成本和沮丧的数据收集者。使用数据收集工具可以大大加快过程并减少总时间。


这有助于参与者的整个数据收集任务,并可以降低整体预算!

6.数据扩充

“数据增强”的过程涉及对现有数据应用不同的转换以产生新的训练数据。通过使开发人员能够从较小的数据集中生成更多的数据,该技术可以帮助降低机器学习数据收集的总体成本。


考虑一下你聚集的情况ASR 模型的语音数据.您可以使用数据扩充通过以下方式扩展训练数据集的整体大小:


噪声注入:添加不同类型的噪声,如白噪声、粉红噪声、babble噪声等。


环境模拟:可以通过在语音信号中添加室内声学来模拟不同的室内环境。


变调:通过增加或降低信号的频率来改变语音信号的音高。


速度扰动:通过提高或降低音频信号的速度来改变语音信号的速度


这种转换使我们能够扩展数据集的大小并为机器学习模型的训练添加更多数据。在这里,还可以节省成本,因为我们可以转移原始标签。


除了节省金钱和时间之外,它还减少了对额外数据的需求,并利用可用数据集提高了模型的性能。


数据扩充是一种强大的工具,但也是一种复杂的工具。如果处理不当,后果会很多。具有许多相似数据点的数据集可能会由于其积极采用而产生,这可能会过度拟合在该数据集上训练的模型。


简而言之,这是一项依赖专业知识的任务,应谨慎对待。

7. 道德与法律考虑

在机器学习领域,围绕训练数据集的法律考虑至关重要。


基于来源不当、有偏见或歧视性的训练数据集开发和部署机器学习模型可能会产生严重的法律、道德和声誉后果。


包括《通用数据保护条例》(GDPR) 和《加州消费者隐私法》(CCPA) 在内的多项数据隐私法对个人数据的收集和使用进行了监管。这些法规为收集、处理和存储个人数据提供了准确的说明。


如果无视这些规则,可能会受到处罚和法律后果。


在处理专有和受版权保护的数据时,必须遵守知识产权法;不这样做可能会导致法律诉讼。之间的此类法律纠纷生成人工智能公司和艺术家最近曝光。


此外,编译一个数据集是至关重要的不偏不倚,对所有人公平,并代表人口。如果模型对任何特定群体有偏见或歧视,则可能会导致法律诉讼和声誉损害。


在收集任何个人数据之前,建议您查看您必须遵守的所有合规要求。在理想的集合中,确保数据贡献者了解他或她正在共享的数据类型以及这些数据的潜在用途。


数据提供者还必须意识到最坏情况的后果。为防止任何进一步的问题,请确保您的数据收集程序是双方同意的,包括获得每个数据提供者的书面同意。请记住,避免损失就是省钱!


最初发表于 - futurebeeai.com