机器学习算法 - 一文搞懂SL(监督学习)
2024-12-31
本文将从监督学习的本质、监督学习的原理、监督学习的案例三个方面,带您一文搞懂监督学习Supervised Learning | SL。
一、监督学习的本质
基本思路:利用已知输入和输出数据(即带有标签的数据)进行训练,使模型能够对新数据做出预测。在这个过程中,“监督”的含义是指我们为模型提供了每个输入对应的正确输出,以此来“教导”模型如何进行学习。
- 提供标签数据:在监督学习中,训练数据集由输入数据和相应的输出标签组成。这些标签是已知的,并且在训练过程中被用作指导信号。例如,在图像分类任务中,输入数据可能是图像的像素值,而输出标签则是图像所属的类别(如猫、狗等)。
- 学习过程监督:监督学习的核心在于利用这些带有标签的数据来训练模型。模型通过调整其内部参数,以最小化预测输出与实际标签之间的差异。这个差异通常通过损失函数来衡量,如均方误差(MSE)用于回归问题,交叉熵损失用于分类问题。
监督学习 VS 无监督学习:监督学习依赖于带有标签的数据进行训练以做出预测,而无监督学习则从无标签数据中挖掘内在结构和模式。
- 1. 数据标注与利用
- 监督学习:依赖于带有标签的数据进行训练。这些标签为模型提供了明确的指导,告诉它对于给定的输入应该产生什么样的输出。标签通常是人工提供的,增加了数据准备的成本和时间。
- 无监督学习:不需要标签数据。它通过分析输入数据之间的相似性、差异或模式来工作。由于没有明确的指导,无监督学习算法必须自我发现数据中的结构。
- 2. 学习目标和任务
- 监督学习:主要目标是预测。模型被训练来最小化预测错误,通常通过比较模型的输出和真实标签之间的差异来衡量。常见的监督学习任务包括分类(预测类别标签)和回归(预测连续值)。
- 无监督学习:目标是探索和理解数据的内在结构。由于没有标签,算法侧重于发现数据中的模式、组群或异常值。常见的无监督学习任务包括聚类(将相似的数据点分组)和降维(简化数据的表示)。
- 3. 应用领域
- 监督学习:由于其预测能力,广泛应用于需要明确输出的情况。例如,图像识别、语音识别、自然语言处理(如情感分析)、推荐系统、金融市场预测等。
- 无监督学习:适用于数据探索、预处理或当标签成本过高时。例如,在社交媒体分析中识别用户群体、网络流量异常检测、基因序列分析中的模式发现等。
二、监督学习的原理
4个流程:利用带有标签的数据集训练模型,通过调整模型参数最小化预测误差,使其能够对未知数据做出准确预测,并通过评估来检验模型的性能。
- 数据集:在监督学习中,我们使用一个包含多个数据样本的数据集进行训练,每个数据样本都包含输入特征和对应的标签(即期望的输出)。
- 模型训练:模型通过学习输入特征和标签之间的关系来建立预测模型。这个过程通常涉及到参数优化,即通过调整模型内部的参数,使得模型在训练集上的预测误差最小化。
- 预测:一旦模型训练完成,它就可以用来对新的、未见过的数据进行预测。模型会分析新数据的输入特征,并基于在训练阶段学到的关系来生成预测结果。
- 评估:为了评估模型的性能,我们通常会将一部分数据保留作为测试集,不参与训练过程。模型在测试集上的表现可以帮助我们了解其泛化能力,即模型对未见数据的预测能力。
2个任务:回归、分类
- 一、回归(Regression)
- 任务:预测连续数值输出。
- 目标:根据输入特征估计一个连续值。
- 数据特点:处理的是连续型数据,这类数据可以在某个范围内取任意实数值,如温度、身高、体重、价格等。
- 应用例子:
- 房价预测:基于房屋面积、位置等特征预测房价。
- 股票价格预测:基于历史数据和市场趋势预测未来股价。
- 芝麻信用分数:基于用户的多种行为数据预测信用分数。
- 模型行为:学习输入与输出之间的连续关系,并为新数据预测输出值。
- 二、分类(Classification)
- 任务:预测离散的类别标签。
- 目标:将实例分配到两个或多个离散类别中。
- 数据特点:处理的是离散型数据,即不连续的数据,如性别、天气状况等。
- 应用例子:
- 图像识别:将图像分类为不同的对象类别,如猫、狗等。
- 邮件分类:将电子邮件分类为垃圾邮件或非垃圾邮件。
- 客户信用评级:基于客户的信用历史将其分类为不同的信用等级。
- 模型行为:学习如何区分不同类别,并为新数据分配类别标签。
三、监督学习的案例
回归案例:芝麻信用分是怎么来的?
- 一、构建问题与选择模型
- 确定目标:评估个人信用状况。
- 选择影响因素:经过逻辑判断,选择付款记录、账户总金额、信用记录跨度、新账户和信用类别作为影响信用的主要因素。
- 构建模型:建立一个模型f,这个模型将上述5个因素与个人信用分数关联起来。目标是找出模型f的具体形式。
- 二、收集已知数据
- 数据收集:收集大量包含上述5种因素和个人信用状态的数据。
- 数据划分:将收集到的数据分为训练集、验证集和测试集。
- 三、训练出理想模型
- 模型训练:使用训练集数据,通过机器学习算法“猜测”出5种因素与信用分数之间的关系,即模型f。
- 模型验证:使用验证集数据验证模型f的准确度。将验证集数据输入模型,计算出信用分,并与实际信用分进行比较,评估模型的性能。
- 模型优化:根据验证结果对模型进行调整和优化,以提高其准确度。
- 四、对新用户进行预测
- 数据收集:对于新用户,收集其上述5种因素的数据。
- 信用预测:将新用户的数据输入训练好的模型f中,计算出该用户的信用分数。
分类案例:如何预测离婚?
- 一、构建问题与选择模型
- 确定目标:预测夫妻是否会离婚。
- 特征选择:选择对话中的情绪关联作为预测离婚的主要特征。这些情绪关联可能包括争吵、欢笑、调侃和情感表露等。
- 选择模型:可以选择一种分类算法,如决策树、逻辑回归或支持向量机等。
- 二、收集已知数据
- 数据收集:邀请700对夫妻参与实验,记录他们的对话,并根据对话中的情绪关联给他们打分。
- 数据预处理:将收集到的对话数据转化为可以用于机器学习模型训练的格式。这可能包括文本处理、特征提取和标签编码等步骤。
- 三、训练出理想模型
- 模型训练:使用已知数据训练分类模型。在这个过程中,模型会学习如何根据对话中的情绪关联来预测夫妻是否会离婚。
- 模型评估:通过交叉验证等方法评估模型的性能,确保模型能够准确地预测离婚概率。
- 模型优化:根据评估结果对模型进行调整和优化,以提高其预测准确率。
- 四、对新用户进行预测
- 数据收集:对于新的夫妻,收集他们的对话数据,并提取相应的情绪关联特征。
- 离婚预测:将新夫妻的数据输入训练好的分类模型中,模型会输出这对夫妻的离婚概率。根据这个概率,我们可以判断这对夫妻是否会离婚。
文章转自微信公众号@架构师带你玩转AI