所有文章 > AI驱动 > 机器学习算法 - 一文搞懂SL(监督学习)

机器学习算法 - 一文搞懂SL(监督学习)

本文将从监督学习的本质、监督学习的原理、监督学习的案例三个方面,带您一文搞懂监督学习Supervised Learning | SL

一、监督学习的本质

基本思路:利用已知输入和输出数据(即带有标签的数据)进行训练,使模型能够对新数据做出预测。在这个过程中,“监督”的含义是指我们为模型提供了每个输入对应的正确输出,以此来“教导”模型如何进行学习。

  • 提供标签数据:在监督学习中,训练数据集由输入数据和相应的输出标签组成。这些标签是已知的,并且在训练过程中被用作指导信号。例如,在图像分类任务中,输入数据可能是图像的像素值,而输出标签则是图像所属的类别(如猫、狗等)。
  • 学习过程监督监督学习的核心在于利用这些带有标签的数据来训练模型。模型通过调整其内部参数,以最小化预测输出与实际标签之间的差异。这个差异通常通过损失函数来衡量,如均方误差(MSE)用于回归问题,交叉熵损失用于分类问题。

监督学习 VS 无监督学习:监督学习依赖于带有标签的数据进行训练以做出预测,而无监督学习则从无标签数据中挖掘内在结构和模式。

  • 1. 数据标注与利用
  • 监督学习:依赖于带有标签的数据进行训练。这些标签为模型提供了明确的指导,告诉它对于给定的输入应该产生什么样的输出。标签通常是人工提供的,增加了数据准备的成本和时间。
  • 无监督学习:不需要标签数据。它通过分析输入数据之间的相似性、差异或模式来工作。由于没有明确的指导,无监督学习算法必须自我发现数据中的结构。
  • 2. 学习目标和任务
  • 监督学习:主要目标是预测。模型被训练来最小化预测错误,通常通过比较模型的输出和真实标签之间的差异来衡量。常见的监督学习任务包括分类(预测类别标签)和回归(预测连续值)。
  • 无监督学习:目标是探索和理解数据的内在结构。由于没有标签,算法侧重于发现数据中的模式、组群或异常值。常见的无监督学习任务包括聚类(将相似的数据点分组)和降维(简化数据的表示)。
  • 3. 应用领域
  • 监督学习:由于其预测能力,广泛应用于需要明确输出的情况。例如,图像识别、语音识别、自然语言处理(如情感分析)、推荐系统、金融市场预测等。
  • 无监督学习:适用于数据探索、预处理或当标签成本过高时。例如,在社交媒体分析中识别用户群体、网络流量异常检测、基因序列分析中的模式发现等。

二、监督学习的原理

4个流程:利用带有标签的数据集训练模型,通过调整模型参数最小化预测误差,使其能够对未知数据做出准确预测,并通过评估来检验模型的性能。

  • 数据集:在监督学习中,我们使用一个包含多个数据样本的数据集进行训练,每个数据样本都包含输入特征和对应的标签(即期望的输出)。
  • 模型训练:模型通过学习输入特征和标签之间的关系来建立预测模型。这个过程通常涉及到参数优化,即通过调整模型内部的参数,使得模型在训练集上的预测误差最小化。
  • 预测:一旦模型训练完成,它就可以用来对新的、未见过的数据进行预测。模型会分析新数据的输入特征,并基于在训练阶段学到的关系来生成预测结果。
  • 评估:为了评估模型的性能,我们通常会将一部分数据保留作为测试集,不参与训练过程。模型在测试集上的表现可以帮助我们了解其泛化能力,即模型对未见数据的预测能力。

2个任务:回归、分类

  • 一、回归(Regression)
  • 任务:预测连续数值输出。
  • 目标:根据输入特征估计一个连续值。
  • 数据特点:处理的是连续型数据,这类数据可以在某个范围内取任意实数值,如温度、身高、体重、价格等。
  • 应用例子
    • 房价预测:基于房屋面积、位置等特征预测房价。
    • 股票价格预测:基于历史数据和市场趋势预测未来股价。
    • 芝麻信用分数:基于用户的多种行为数据预测信用分数。
  • 模型行为:学习输入与输出之间的连续关系,并为新数据预测输出值。
  • 二、分类(Classification)
  • 任务:预测离散的类别标签。
  • 目标:将实例分配到两个或多个离散类别中。
  • 数据特点:处理的是离散型数据,即不连续的数据,如性别、天气状况等。
  • 应用例子
    • 图像识别:将图像分类为不同的对象类别,如猫、狗等。
    • 邮件分类:将电子邮件分类为垃圾邮件或非垃圾邮件。
    • 客户信用评级:基于客户的信用历史将其分类为不同的信用等级。
  • 模型行为:学习如何区分不同类别,并为新数据分配类别标签。

三、监督学习的案例

回归案例:芝麻信用分是怎么来的?

  • 一、构建问题与选择模型
  • 确定目标:评估个人信用状况。
  • 选择影响因素:经过逻辑判断,选择付款记录、账户总金额、信用记录跨度、新账户和信用类别作为影响信用的主要因素。
  • 构建模型:建立一个模型f,这个模型将上述5个因素与个人信用分数关联起来。目标是找出模型f的具体形式。
  • 二、收集已知数据
  • 数据收集:收集大量包含上述5种因素和个人信用状态的数据。
  • 数据划分:将收集到的数据分为训练集、验证集和测试集。
  • 三、训练出理想模型
  • 模型训练:使用训练集数据,通过机器学习算法“猜测”出5种因素与信用分数之间的关系,即模型f。
  • 模型验证:使用验证集数据验证模型f的准确度。将验证集数据输入模型,计算出信用分,并与实际信用分进行比较,评估模型的性能。
  • 模型优化:根据验证结果对模型进行调整和优化,以提高其准确度。
  • 四、对新用户进行预测
  • 数据收集:对于新用户,收集其上述5种因素的数据。
  • 信用预测:将新用户的数据输入训练好的模型f中,计算出该用户的信用分数。

分类案例:如何预测离婚?

  • 一、构建问题与选择模型
  • 确定目标:预测夫妻是否会离婚。
  • 特征选择:选择对话中的情绪关联作为预测离婚的主要特征。这些情绪关联可能包括争吵、欢笑、调侃和情感表露等。
  • 选择模型:可以选择一种分类算法,如决策树、逻辑回归或支持向量机等。
  • 二、收集已知数据
  • 数据收集:邀请700对夫妻参与实验,记录他们的对话,并根据对话中的情绪关联给他们打分。
  • 数据预处理:将收集到的对话数据转化为可以用于机器学习模型训练的格式。这可能包括文本处理、特征提取和标签编码等步骤。
  • 三、训练出理想模型
  • 模型训练:使用已知数据训练分类模型。在这个过程中,模型会学习如何根据对话中的情绪关联来预测夫妻是否会离婚。
  • 模型评估:通过交叉验证等方法评估模型的性能,确保模型能够准确地预测离婚概率。
  • 模型优化:根据评估结果对模型进行调整和优化,以提高其预测准确率。
  • 四、对新用户进行预测
  • 数据收集:对于新的夫妻,收集他们的对话数据,并提取相应的情绪关联特征。
  • 离婚预测:将新夫妻的数据输入训练好的分类模型中,模型会输出这对夫妻的离婚概率。根据这个概率,我们可以判断这对夫妻是否会离婚。

文章转自微信公众号@架构师带你玩转AI