亚博ios彩票什么是半监督机器学习?

6.
半监督学习

本文是的一部分贬低艾..,一系列帖子(尝试)消除术语术语和神话的神话。

机器学习已被证明在分类图像和其他非结构化数据中非常有效,这是一个非常难以处理的任务基于经典规则的软件。但在机器学习模型可以执行分类任务之前,他们需要在很多注释的例子上培训。数据注释是一种缓慢而手动的过程,需要人类逐一审查培训示例并给予他们正确的标签。

实际上,数据注释是一种重要的部分机器学习该技术的越来越受欢迎程度引起了一个巨大的标记数据市场。从亚马逊的机械土耳其人到初创公司,如LabelBox,Scaleai和Samasource,有几十种平台和公司,其工作是向培训机器学习系统的数据。

幸运的是,对于某些分类任务,您无需标记所有培训示例。相反,您可以使用半监督学习,一种机器学习技术,可以使用一点帮助自动化数据标签过程。

监督VS无监督与半监督机器学习

您只需要标记为例监督机器学习任务,您必须在培训期间为您的AI模型指定地面真相。监督学习任务的例子包括图像分类,面部识别,销售预测,客户流失预测和垃圾邮件检测

另一方面,无人监督的学习,处理您不了解地面真理并希望使用机器学习模型来查找相关模式的情况。无监督学习的例子包括客户细分,网络流量的异常检测,以及内容推荐。

半监督学习站在两者之间。它解决了分类问题,这意味着您最终需要一个用于任务的监督学习算法。但与此同时,您希望在没有标记每个单一训练示例的情况下培训您的模型,您将从无监督机器学习技术获得帮助。

聚类和分类算法半监督学习

半监督学习手写数字

半监督学习的一种方法是结合聚类和分类算法。聚类算法是根据其相似性进行分组数据的无监督机器学习技术。群集模型将帮助我们在我们的数据集中找到最相关的样本。然后,我们可以标记这些并使用它们培训我们的监督机器学习模型以获取分类任务。

假设我们想训练机器学习模型来分类手写数字,但我们拥有的只是一个大数据集的数字的数字图像。注释每个示例都是不可能的,我们希望使用半监督学习来创建您的AI模型。

首先,我们使用k-means群集来对我们的样品进行分组。K-means是一种快速高效的无监督的学习算法,这意味着它不需要任何标签。K-Means通过测量其特征之间的距离来计算样本之间的相似性。在我们的手写数字的情况下,每个像素将被认为是一个特征,因此20×20像素图像将由400个特征组成。

k-means聚类
K-means群集是一种机器学习算法,可在特定数量的群集周围安排未标记的数据点。

在培训K-Mease Model时,您必须指定要将数据划分为的群集。当然,由于我们正在处理数字,我们的第一个冲动可能是为我们的模型选择十个集群。但请记住,可以以不同的方式绘制一些数字。例如,这里有不同的方式,您可以绘制数字4,7和2.您也可以考虑绘制1,3和9的各种方式。

因此,通常,您为K-Means机器学习模型选择的集群数量应该大于类的数量。在我们的情况下,我们将选择50个集群,这应该足以涵盖绘制的不同方式。

培训K-Means模型后,我们的数据将分为50个集群。K-mease Model中的每个群集都有一个封面,一组值表示该群集中的所有功能的平均值。我们在每个群集中选择最多代表性的图像,这恰好是最接近质心的那个。这让我们留下了50个手写数字图像。

现在,我们可以标记这些50张图片并使用它们培训我们的第二台机器学习模型,分类器,可以成为逻辑回归模型,人工神经网络,支持向量机,决策树或任何其他类型的监督学习引擎。

在50个示例中训练机器学习模型而不是数千个图像可能听起来像一个可怕的想法。但由于K-Means模型选择了50个代表培训数据集的分布的50张图像,因此机器学习模型的结果将是显着的。事实上,上面的例子是从优秀的书改编用巩膜学习,keras和tensorflow学习的实践机器,显示培训由聚类算法选择的50个样本上的回归模型导致92%的精度(您可以在Python中找到实现这个jupyter笔记本)。相比之下,在50个随机选择的样本上训练模型,精度为80-85%。

但我们仍然可以获得更多我们的半监督学习系统。在我们标记每个群集的代表性样本后,我们可以将相同的标签传播到同一群集中的其他样本。使用此方法,我们可以用几行代码注释数千个培训示例。这将进一步提高机器学习模型的性能。

其他半监控机器学习技术

还有其他方法可以进行半监督学习,包括半监督支持向量机(S3VM),在1998年的NIPS会议上推出的技术。S3VM是一种复杂的技术,超出本文的范围。但总体的想法很简单,与我们刚看到的东西没有截然不同:您有一个由标记和未标记的样本组成的培训数据集。S3VM使用标记数据集的信息来计算未标记数据的类,然后使用此新信息来进一步优化培训数据集。

半监督支持向量机
半监控支持向量机(S3VM)使用标记的数据来近似和调整未标记数据的类。

如果您对半监督支持向量机感兴趣,请参阅原文并阅读第7章机器学习算法,探索支持向量机的不同变化(可以找到Python中的S3VM的实现这里)。

另一种方法是在数据集的标记部分培训机器学习模型,然后使用相同的模型为数据集的未标记部分生成标签。然后,您可以使用完整的数据集来培训新模型。

半监督机器学习的极限

半监督学习不适用于所有监督的学习任务。如在手写数字的情况下,您的类应该能够通过聚类技术分开。或者,如在S3VM中,您必须具有足够的标记示例,并且这些示例必须覆盖公平代表问题空间的数据生成过程。

但是,当问题复杂并且您的标签数据不代表整个分销时,半监督学习将无济于事。例如,如果要对看起来与各种角度不同的对象的彩色图像分类,则半监督学习可能有助于大量标记数据(但如果您已经有大量标记数据,那么为什么使用半监督学习?)。不幸的是,许多现实世界的应用程序落在后一种类别中,这就是为什么数据标签作业不会很快消失。

但是,半监督学习仍然有很多在简单的图像分类和文档分类任务等领域的用途,其中可以自动化数据标签过程。

半监督学习是一种辉煌的技术,如果你知道何时使用它,那么可以方便地提高。

与合作伙伴关系纸张空间

发表评论

本网站使用AkisMet减少垃圾邮件。了解如何处理评论数据