API知识库 > 开发技术 > 监督式学习与无监督学习:有何区别?
监督式学习与无监督学习:有何区别?

监督式学习与无监督学习:有何区别?

世界每天都在变得越来越 “智能”,为了满足消费者的期望,公司越来越多地使用机器学习算法来简化事情。您可以看到它们在最终用户设备中使用,例如:通过人脸识别解锁智能手机或信用卡欺诈检测(如触发异常消费警报)。

人工智能(AI)和机器学习有两种基本方法:监督学习和无监督学习。它们的主要区别在于,一种方法使用标记数据来帮助预测结果,而另一种方法则不使用标记数据。不过,这两种方法之间也存在一些细微差别,在一些关键领域,其中一种方法优于另一种方法。本篇文章将阐明两者的区别,以便您根据自身情况选择最佳方法。

什么是监督学习?

监督学习是一种机器学习方法,它通过使用标记数据集来定义。这些数据集旨在训练或 “监督 “算法对数据进行分类或准确预测结果。利用标注的输入和输出,模型可以衡量其准确性,并随着时间的推移不断学习。

在数据挖掘过程中,有监督学习可分为两类问题:分类和回归:

  • 分类问题使用算法将测试数据准确分配到特定类别中,例如将苹果和橘子分开。或者,在现实世界中,监督学习算法可用于将垃圾邮件分类到收件箱之外的单独文件夹中。线性分类器、支持向量机、决策树和随机森林都是常见的分类算法类型。
  • 回归是另一种监督学习方法,它使用一种算法来理解因变量和自变量之间的关系。回归模型有助于根据不同的数据点预测数值,例如特定业务的销售收入预测。一些常用的回归算法包括线性回归、逻辑回归和多项式回归。

什么是无监督学习?

无监督学习使用机器学习算法来分析和聚类无标记的数据集。这些算法无需人工干预即可发现数据中隐藏的模式(因此被称为 “无监督”)。

无监督学习模型主要用于三项任务:聚类、关联和降维:

  • 聚类是一种数据挖掘技术,用于根据未标记数据的相似性或差异性对其进行分组。例如,K 均值聚类算法将相似的数据点分配到不同的组中,其中 K 值代表分组的大小和粒度。这种技术有助于市场细分、图像压缩等。
  • 关联是另一种无监督学习方法,它使用不同的规则来查找给定数据集中变量之间的关系。这些方法常用于市场篮子分析和推荐引擎,类似于 “买过此商品的客户也买过 “的推荐。
  • 降维是一种在给定数据集中特征(或维度)数量过多时使用的学习技术。它能将数据输入的数量减少到可控范围内,同时还能保持数据的完整性。这种技术通常用于数据预处理阶段,例如自动编码器从视觉数据中去除噪声以提高图片质量。

有监督学习和无监督学习的主要区别标记数据

这两种方法的主要区别在于是否使用标记数据集。简单地说,有监督学习使用有标记的输入和输出数据,而无监督学习算法则不使用。

在监督学习中,算法通过迭代对数据进行预测并调整以获得正确答案,从而从训练数据集中 “学习”。虽然有监督学习模型往往比无监督学习模型更准确,但它们需要前期的人工干预来对数据进行适当标注。例如,监督学习模型可以根据一天中的时间、天气状况等预测你的通勤时间。但首先,你必须对它进行训练,让它知道阴雨天气会延长驾驶时间。

相比之下,无监督学习模型可以自行发现未标记数据的固有结构。需要注意的是,它们仍然需要人工干预来验证输出变量。例如,无监督学习模型可以识别出在线购物者经常同时购买几组产品。但是,数据分析师需要验证,推荐引擎将婴儿服装与尿布、苹果酱和奶嘴杯的订单组合在一起是否合理。

监督学习与非监督学习的其他主要区别

  • 目标:在监督学习中,目标是预测新数据的结果。你可以预先知道预期结果的类型。在无监督学习算法中,目标是从大量新数据中获得洞察力。机器学习本身决定了数据集中的不同之处或有趣之处。
  • 应用:监督学习模型是垃圾邮件检测、情感分析、天气预报和价格预测等的理想选择。相比之下,无监督学习则非常适合异常检测、推荐引擎、客户角色和医学成像。
  • 复杂性:监督学习是一种简单的机器学习方法,通常通过使用 R 或 Python 等程序进行计算。在无监督学习中,你需要强大的工具来处理大量未分类的数据。无监督学习模型在计算上比较复杂,因为它们需要大量的训练集才能产生预期结果。
  • 缺点:监督学习模型的训练可能很耗时,而且输入和输出变量的标签需要专业知识。同时,除非有人工干预来验证输出变量,否则无监督学习方法的结果可能会非常不准确。

监督学习与非监督学习:哪种方法最适合您?

选择适合您的情况的方法取决于数据科学家如何评估数据的结构和数量以及使用案例。要做出决定,请务必做到以下几点:

  • 评估输入数据:是已标注数据还是未标注数据?您是否有专家可以支持额外的标记?
  • 确定目标:您是否有一个反复出现、定义明确的问题需要解决?还是算法需要预测新问题?
  • 查看算法选项:是否有与您所需维度(特征、属性或特性的数量)相同的算法?它们能否支持您的数据量和数据结构?

在有监督学习中,对大数据进行分类是一项真正的挑战,但结果却非常准确和可信。相比之下,无监督学习可以实时处理大量数据。但是,数据如何聚类缺乏透明度,结果不准确的风险也更高。这就是半监督学习的优势所在。

半监督学习两全其美

无法决定使用监督学习还是无监督学习?半监督学习是一种令人满意的学习方法,您可以使用一个训练数据集,其中既有标注数据,也有未标注数据。在难以从数据中提取相关特征时,以及在拥有大量数据时,半监督学习尤其有用。

半监督学习非常适合医疗图像,少量的训练数据就能显著提高准确性。例如,放射科医生可以为一小部分 CT 扫描标注肿瘤或疾病,这样机器就能更准确地预测哪些病人可能需要更多的医疗关注。

进一步了解监督学习和非监督学习

机器学习模型是获取数据洞察力以改善我们的世界的强大方法。要了解有关监督学习和无监督学习的具体算法的更多信息,我们建议您深入研究有关这些技术的 Learn Hub 文章。我们还建议您查看更进一步的博文,详细了解深度学习和神经网络。

什么是监督学习?https://www.ibm.com/cloud/learn/supervised-learning

什么是无监督学习?https://www.ibm.com/cloud/learn/unsupervised-learning

人工智能 vs. 机器学习 vs. 深度学习 vs. 神经网络:有什么区别?https://www.ibm.com/cloud/blog/ai-vs-machine-learning-vs-deep-learning-vs-neural-networks

数据差异化:了解如何将单一的技术概念融入整体数据战略,从而推动业务价值。

https://www.ibm.com/resources/the-data-differentiator/data-strategy

原文链接:Supervised vs. Unsupervised Learning: What’s the Difference?

#你可能也喜欢这些API文章!