亚博ios彩票什么是整体学习?

6.
合奏学习
集成方法将几种机器学习模型结合起来以提高结果

这篇文章是贬低艾..,一系列帖子(尝试)消除术语术语和神话的神话。

“人群智慧”的原理表明,一群对某一话题拥有一般知识的人可以对预测数量、空间推理和常识等问题提供可靠的答案。综合的结果抵消了噪音,往往比那些知识渊博的专家的结果更好。同样的规则也适用于依赖于www.yabovip4机器学习,ai的分支,其基于数学模型预测结果。

在机器学习中,通过集合学习实现人群智慧。对于许多问题,从组合获得的结果,机器学习模型的组合可以比该组的任何单个成员更准确。

整体学习是如何进行的?

假设您想开发一个机器学习模型,该模型可以根据您从前几年收集的历史数据预测您公司的库存订单。你用不同的算法训练四种机器学习模型:线性回归,支持向量机,回归决策树和基本人工神经网络.但是,即使经过许多调整和配置,它们也没有一个达到您想要的95%的预测精度。这些机器学习模型被称为“弱学习者”,因为它们不能收敛到期望的水平。

不同的机器学习模型
单机学习模型不提供所需的准确性

但软弱并不意味着无用。你可以把它们组合成一个整体。对于每一个新的预测,都要通过所有四个模型运行输入数据,然后计算结果的平均值。在检查新结果时,您会看到聚合结果提供了96%的准确率,这是完全可以接受的。

集成学习之所以高效是因为你的机器学习模型的工作方式不同。每个模型可能在某些数据上表现良好,而在其他数据上则不太准确。当你把它们结合在一起时,它们相互抵消了彼此的弱点。

您可以将集成方法应用于两个预测问题,如我们刚刚看到的库存预测示例以及分类问题,例如确定图片是否包含某个对象。

合奏机学习模型
集成机器学习将几种模型结合起来以提高整体结果。

整体方法

对于机器学习合奏,您必须确保您的模型彼此独立(或尽可能彼此独立)。这样做的一种方法是从其他算法创建你的合奏,如上例。

另一个集合方法是使用同一台机器学习算法的实例并在不同的数据集上训练它们。例如,您可以创建一个由12个线性回归模型组成的合并,每个培训在培训数据的子集上受过训练。

有两种关键的方法可以从训练集中采样数据。“引导聚合”,又称“套袋”,从训练集中随机抽取样本,并进行替换。另一种方法,“粘贴”,绘制样本“不替换”。

为了理解抽样方法之间的区别,这里有一个例子。假设您有一个包含10,000个样本的训练集,您想要在包含9,000个样本的集合中训练每个机器学习模型。如果你在使用bagging,对于每个机器学习模型,你都要采取以下步骤:

  1. 从训练集中抽取随机样本。
  2. 将样本的副本添加到模型的训练集
  3. 将样本返回到原始训练集
  4. 重复这个过程8,999次
装袋抽样
袋装采样从训练集中绘制样品并取代它们

使用粘贴时,您经过相同的过程,差异将在被绘制后,样本不会返回到训练集。因此,在模型中可能出现相同的样本在使用袋装时几次,但在使用粘贴时只有一次。

在培训所有计算机学习模型后,您必须选择一个聚合方法。如果您正在解决分类问题,通常的聚合方法是“统计模式”或预测比其他的类别。在回归问题中,乐合线通常使用模型所做的预测的平均值。

粘贴抽样
粘贴从训练集中绘制样本并取代它们

提高方法

另一个流行的合奏技巧是“助推”。与传统的集成方法(机器学习模型是并行训练的)不同,增强方法是按顺序训练它们,每个新模型都建立在前一个模型上,并解决其低效之处。

AdaBoost (adaptive boosting)是目前比较流行的boosting方法之一,它通过调整新的模型以适应先前模型的错误来提高集成模型的精度。在训练您的第一个机器学习模型之后,您将挑选出模型错误分类或错误预测的训练示例。在训练下一个模型时,将更多地强调这些示例。这使得机器学习模型在前一个失败的地方表现得更好。对于您想要添加到集成中的任意多个模型,这个过程都会重复进行。最终的集成包含了几个精度不同的机器学习模型,它们一起可以提供更好的精度。在增强的集合中,每个模型的输出都被赋予与其精度成比例的权重。

随机森林

集成学习非常流行的一个领域是决策树,这是一种非常有用的机器学习算法,因为它具有灵活性和可解释性。决策树可以对复杂的问题进行预测,还可以将结果追溯到一系列非常清晰的步骤。

The problem with decision trees is that they don’t create smooth boundaries between different classes unless you break them down into too many branches, in which case they become prone to “overfitting,” a problem that occurs when a machine learning model performs very well on training data but poorly on novel examples from the real world.

这是一个可以通过集成学习来解决的问题。随机森林是由多个决策树组成的机器学习集合(因此得名“森林”)。使用随机森林可以确保机器学习模型不会被单一决策树的特定限制所束缚。

随机森林在Python机器学习库中有自己独立的实现,如scikit-learn。

整体学习的挑战

随机向量

虽然合奏学习是一个非常强大的工具,但它也有一些权衡。

使用集成意味着你必须花费更多的时间和资源来训练你的机器学习模型。例如,拥有500棵树的随机森林比单个决策树提供了更好的结果,但它也需要更多的时间来训练。如果您使用的算法需要大量内存,那么运行集成模型也会出现问题。

集合学习的另一个问题是解释性.虽然向集合中添加新模型可以提高其整体精度,但它会让调查人工智能算法做出的决定变得更加困难。单个机器学习模型(如决策树)很容易跟踪,但当输出中有数百个模型时,要理解每个决策背后的逻辑就困难得多了。

就像你在机器学习中遇到的大多数事情一样,集成是解决复杂问题的众多工具之一。它可以让你摆脱困境,但不是万能药。明智地使用它。

留下一个回复

本网站使用AkisMet减少垃圾邮件。了解如何处理您的评论数据