机器学习:会员推论攻击是什么?

6.

本文是的一部分贬低艾..,一系列帖子(尝试)消除术语术语和神话的神话。

机器学习的奇迹之一是它将任何类型的数据转化为数学方程。一旦你训练一个机器学习模型关于培训示例 - 无论是在图像,音频,原文中还是表格数据 - 您得到的是一组数字参数。在大多数情况下,该模型不再需要训练数据集,并使用调谐参数将新的和解密的示例映射到类别或值预测。

然后,您可以丢弃培训数据并在GitHub上发布模型,或在您自己的服务器上运行它,而无需担心存储或分发培训数据集中包含的敏感信息。

但是一种称为“隶属资格推断”的攻击使得可以检测用于训练机器学习模型的数据。在许多情况下,攻击者可以在没有访问机器学习模型的参数的情况下阶段阶段推断攻击,并且仅通过观察其输出。在目标模型在敏感信息培训的情况下,会员推理可能导致安全性和隐私问题。

从数据到参数

深神经网络AI
深度神经网络使用多层参数来将输入数据映射到输出

每种机器学习模型都有一组“学习参数”,其数量和关系因算法和架构的类型而异。例如,简单的回归算法使用一系列参数直接将输入功能映射到模型的输出。神经网络另一方面,在到达最终层之前,使用处理输入的复杂参数层并将其传递给彼此。

但无论您选择的算法类型如何,所有机器学习模型都会在训练期间通过类似的过程。它们从随机参数值开始,并逐渐将它们调整到培训数据。监督机器学习算法,例如用于分类图像或检测垃圾邮件的算法,调整其参数以将输入映射到预期的结果。

例如,说你训练了一个深度学习模式将图像分为五种不同的类别。该模型可能由一组组成卷积层提取图像的视觉特征和一组密集层,其将每个图像的特征转换为每个类的置信度分数。

该模型的输出将是一组值,表示图像属于每个类的概率。您可以假设图像属于具有最高概率的类。例如,输出可能如下所示:

猫:0.90
狗:0.05
鱼:0.01
树:0.01
船:0.01

在培训之前,模型将提供不正确的输出,因为其参数具有随机值。您可以通过提供与其相应的类的图像集合来培训它。在培训期间,模型逐渐调谐参数,使其输出置信度得分尽可能接近训练图像的标签。

基本上,该模型将每种类型图像的可视特征进行编码到其参数中。

会员推理攻击

一个好的机器学习模型是不仅对其训练数据进行分类,而且概括其以前没有见过的例子的能力。这种目标可以通过正确的架构和足够的训练数据来实现。

但总的来说,机器学习模型往往会在他们的训练数据上表现更好。For example, going back to the example above, if you mix your training data with a bunch of new images and run them through your neural network, you’ll see that the confidence scores it provides on the training examples will be higher than those of the images it hasn’t seen before.

培训例子与新例子
机器学习模型在训练示例中表现更好,而不是看不见的例子

成员资格推理攻击利用此属性来发现或重建用于培训机器学习模型的示例。这可能对数据记录用于培训模型的人来说,这可能具有隐私后果。

在会员推理攻击中,对手不一定需要了解目标机器学习模型的内部参数。相反,攻击者只知道模型的算法和架构(例如,SVM,神经网络等)或用于创建模型的服务。

随着机器学习作为服务(MAAS)的增长来自谷歌和亚马逊等大型科技公司,许多开发人员都被迫使用它们而不是从头开始构建他们的模型。这些服务的优势在于他们抽象了许多复杂性和机器学习的要求,例如选择合适的架构,调整超参数(学习率,批量大小,时期,正规化,丢失功能等)和设置计算计算基础架构需要优化培训过程。开发人员只需要设置一个新模型并提供培训数据。服务剩下的。

权衡是,如果攻击者知道受害者使用的服务,他们可以使用相同的服务来创建隶属推断攻击模型。

事实上,在康奈尔大学的研究人员的2017年IEEE安全和隐私研讨会上建议的员工推理攻击技术,用于所有主要的基于云的机器学习服务。

在这种技术中,攻击者为在云服务上服务的目标机器学习模型创建随机记录。攻击者将每个记录馈送到模型中。基于模型返回的置信度评分,攻击者调整记录的功能并通过模型重新运行它。该过程持续到模型达到非常高的置信度。此时,记录与用于训练模型的示例之一相同或非常相似。

会员推理攻击模型
会员推理攻击遵守目标机器学习模型的行为,并预测用于训练它的示例。

收集足够高的置信度记录后,攻击者使用数据集来培训一组“阴影模型”以预测数据记录是否是目标模型的培训数据的一部分。这会创造一个模型的集合这可以培训员工推理攻击模型。然后,最终模型可以预测数据记录是否包括在目标机器学习模型的训练数据集中。

研究人员发现,这种攻击在许多不同的机器学习服务和架构方面取得了成功。他们的研究结果表明,训练有素的攻击模型也可以讲述训练数据集成员和非成员之间的差异,从目标机器学习模型中获得高信心评分。

会员推理的限制

成员推理攻击在各种机器学习任务中并不成功。要创建高效的攻击模式,对手必须能够探索要素空间。例如,如果机器学习模型在高分辨率照片上执行复杂的图像分类(多个类),则为隶属级推导攻击创建培训示例的成本将是令人禁止的。

但在诸如金融和健康信息的表格数据的模型的情况下,精心设计的攻击可能能够提取敏感信息,例如患者和疾病或目标人民财务记录之间的关联。

过度装备vs磨损
过度装备的模型在培训之例上表现出色,但在看不见的例子上很差

会员推理也与“过度装满,“糟糕的机器学习设计和培训的伪影。一个完善的模型在其训练示例上表现良好,但在新的数据上很差。过度装备的两个原因太少的训练示例或运行太多时期的培训过程。

机器学习模型的更好是,对阶段成员推论攻击的竞争越突出。因此,在看不见的例子上普遍普遍的机器模型也更加安全地对隶属度推断。

发表评论

本网站使用AkisMet减少垃圾邮件。了解如何处理评论数据