机器学习:减少的程度是多少?亚博ios彩票

6

在伙伴关系纸张空间

机器学习算法因能够从具有许多特征的数据集中检索出相关信息而闻名,比如包含几十行数据的表格和数百万像素的图像。由于云计算的进步,您可以经常运行非常大的程序机器学习模型如果没有注意到场景后面有多少计算能力。

但你给问题添加的每一个新特性都会增加问题的复杂性,使机器学习算法更难解决问题。数据科学家使用降维技术,这是一套从机器学习模型中去除过多和无关特征的技术。

降维降低了机器学习的成本,有时还可以用更简单的模型来解决复杂的问题。

维度的诅咒

机器学习模型地图特征到结果。例如,假设您希望创建一个预测一个月降雨量的模型。您可以在不同的几个月内从不同城市收集的不同信息的数据集。数据点包括温度,湿度,城市人口,交通,在城市举行的音乐会数量,风速,风向,空气压力,购买的巴士门票数量以及降雨量。显然,并非所有这些信息都与降雨预测相关。

某些功能可能与目标变量无关。显然,购买的公共汽车门票数量不影响降雨。其他功能可能与目标变量相关联,但没有对其的因果关系。例如,户外音乐会的数量可能与降雨量相关联,但这不是雨水的良好预测因素。在其他情况下,例如碳发射,特征与目标变量之间可能存在一个链接,但效果将可以忽略不计。

在这个例子中,很明显哪些特性是有价值的,哪些是无用的。在其他问题中,过度特征可能不明显,需要进一步的数据分析。

但是为什么要移除额外的维度呢?当你有太多的功能时,你还需要一个更复杂的模型。一个更复杂的模型意味着您将需要更多的训练数据和更多的计算能力来训练您的模型到一个可接受的水平。

和以来机器学习没有理解因果关系在美国,模型试图将数据集中包含的任何特征映射到目标变量,即使没有因果关系。这可能导致模型不精确和错误。

另一方面,减少特征的数量可以让你的机器学习模型更简单、更高效、更少的数据饥渴。

过多的特性导致的问题通常被称为“维数的诅咒”,而且它们并不局限于表格数据。考虑一个对图像进行分类的机器学习模型。如果您的数据集由100×100-pixel图像组成,那么您的问题空间有10,000个特性,每个像素一个。然而,即使在图像分类问题中,有些特征也是多余的,可以去除。

降维识别并去除那些损害机器学习模型性能或对其准确性没有贡献的特征。有几种维度技术,每一种都适用于特定的情况。

特征选择

基本和非常有效的维度减少方法是识别并选择与目标变量最相关的功能的子集。这种技术称为“特征选择”。在处理表格数据时,特征选择特别有效,其中每列代表特定类型的信息。

当进行特征选择时,数据科学家做两件事:保留与目标变量高度相关的特征,并对数据集的方差贡献最大。像Python的Scikit-learn这样的库有很多很好的函数来分析、可视化,并为机器学习模型选择正确的特性。

例如,数据科学家可以使用散点图和热图来可视化不同特征的协方差。如果两个特征高度相关,那么它们将对目标变量产生类似的影响,将两者都包含在机器学习模型中是不必要的。因此,您可以删除其中一个,而不会对模型的性能造成负面影响。

热图特征选择
热图说明了不同特征之间的协方差。它们是寻找和剔除过多功能的好指南。

相同的工具可以帮助可视化特征与目标变量之间的相关性。这有助于删除不会影响目标的变量。例如,您可能会发现在数据集中的25个功能中,其中七个占目标变量的95%的效果。这将使您能够刮掉18个功能,并使您的机器学习模型更简单,而不会遭受模型的准确性的重大惩罚。

投影技术

有时,您无需选项来删除个别功能。但这并不意味着您无法简化您的机器学习模型。投影技术,也称为“特征提取”,通过将若干特征压缩到较低尺寸空间中来简化模型。

一个常见的用于表示投影技术的例子是“瑞士滚动”(如下图所示),这是一组在三维空间中围绕焦点旋转的数据点。这个数据集有三个特性。每个点(目标变量)的值是根据它沿着蜿蜒的路径到瑞士卷中心的距离来测量的。下图中,红点离中心较近,黄点离中心较远。

在目前的状态下,创建一个将瑞士卷点的特征映射到其值的机器学习模型是一项艰巨的任务,需要一个包含许多参数的复杂模型。但在降维技术的帮助下,点可以投影到一个低维空间,可以用一个简单的机器学习模型来学习。

有各种各样的投影技术。在上面的例子中,我们使用了“局部线性嵌入”算法,该算法降低了问题空间的维数,同时保留了分离数据点值的关键元素。当使用LLE处理我们的数据时,结果看起来像下面的图像,就像瑞士卷展开的版本。如你所见,每种颜色的点都保持在一起。事实上,这个问题仍然可以简化成一个单一的特征,并用最简单的机器学习算法线性回归建模。

虽然本示例是假设的,但如果将特性投影到低维空间,您经常会遇到可以简化的问题。例如,“主成分分析”(PCA),一种流行的降维算法,已经在简化机器学习问题方面找到了许多有用的应用。

在这本优秀的书中使用Python进行机器学习,数据科学家Aurelien Geron显示了如何使用PCA将MNIST数据集从784个功能(28×28像素)减少到150个功能,同时保留95%的方差。这种程度的维度减少对培训和运行的成本产生了巨大影响人工神经网络

关于投影技术,有几点需要注意。一旦开发了投影技术,在通过机器学习模型运行新数据点之前,必须将它们转换为低维空间。然而,这个预处理步骤的成本与拥有一个更轻的模型所带来的好处是不一样的。第二个需要考虑的问题是,转换后的数据点不能直接代表它们的原始特征,将它们转换回原始空间可能是棘手的,在某些情况下是不可能的。这可能会使它很难解释您的模型所作出的推论

机器学习工具箱中的降维

具有太多功能将使您的模型效率低下。但切割删除太多功能也不有帮助。减少维度减少是许多工具数据科学家可以用来制造更好的机器学习模型。与每个工具一样,必须谨慎使用它们。

留下一个回复

本网站使用AkisMet减少垃圾邮件。了解如何处理您的评论数据